亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python3中實現數據標準化的方法有哪些

發布時間:2021-03-31 16:54:42 來源:億速云 閱讀:238 作者:Leah 欄目:開發技術

今天就跟大家聊聊有關Python3中實現數據標準化的方法有哪些,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

一、[0, 1] 標準化

[0, 1] 標準化是最基本的一種數據標準化方法,指的是將數據壓縮到0~1之間。

標準化公式如下

Python3中實現數據標準化的方法有哪些

代碼實現

def MaxMinNormalization(x, min, max):
  """[0,1] normaliaztion"""
  x = (x - min) / (max - min)
  return x

或者

def MaxMinNormalization(x):
  """[0,1] normaliaztion"""
  x = (x - np.min(x)) / (np.max(x) - np.min(x))
  return x

二、Z-score標準化

Z-score標準化是基于數據均值和方差的標準化化方法。標準化后的數據是均值為0,方差為1的正態分布。這種方法要求原始數據的分布可以近似為高斯分布,否則效果會很差。

標準化公式如下

Python3中實現數據標準化的方法有哪些

下面,我們看看為什么經過這種標準化方法處理后的數據為是均值為0,方差為1

Python3中實現數據標準化的方法有哪些

代碼實現

def ZscoreNormalization(x, mean_, std_):
  """Z-score normaliaztion"""
  x = (x - mean_) / std_
  return x

或者

def ZscoreNormalization(x):
  """Z-score normaliaztion"""
  x = (x - np.mean(x)) / np.std(x)
  return x

補充:Python數據預處理:徹底理解標準化和歸一化

數據預處理

數據中不同特征的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到數據分析的結果,因此,需要對數據按照一定比例進行縮放,使之落在一個特定的區域,便于進行綜合分析。

常用的方法有兩種:

最大 - 最小規范化:對原始數據進行線性變換,將數據映射到[0,1]區間

Python3中實現數據標準化的方法有哪些

Z-Score標準化:將原始數據映射到均值為0、標準差為1的分布上

Python3中實現數據標準化的方法有哪些

為什么要標準化/歸一化?

提升模型精度:標準化/歸一化后,不同維度之間的特征在數值上有一定比較性,可以大大提高分類器的準確性。

加速模型收斂:標準化/歸一化后,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

如下圖所示:

Python3中實現數據標準化的方法有哪些

Python3中實現數據標準化的方法有哪些

哪些機器學習算法需要標準化和歸一化

1)需要使用梯度下降和計算距離的模型要做歸一化,因為不做歸一化會使收斂的路徑程z字型下降,導致收斂路徑太慢,而且不容易找到最優解,歸一化之后加快了梯度下降求最優解的速度,并有可能提高精度。比如說線性回歸、邏輯回歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化,比如說KNN、KMeans等。

2)概率模型、樹形結構模型不需要歸一化,因為它們不關心變量的值,而是關心變量的分布和變量之間的條件概率,如決策樹、隨機森林。

Python3中實現數據標準化的方法有哪些

徹底理解標準化和歸一化

Python3中實現數據標準化的方法有哪些

示例數據集包含一個自變量(已購買)和三個因變量(國家,年齡和薪水),可以看出用薪水范圍比年齡寬的多,如果直接將數據用于機器學習模型(比如KNN、KMeans),模型將完全有薪水主導。

#導入數據
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('Data.csv')

缺失值均值填充,處理字符型變量

df['Salary'].fillna((df['Salary'].mean()), inplace= True)
df['Age'].fillna((df['Age'].mean()), inplace= True)
df['Purchased'] = df['Purchased'].apply(lambda x: 0 if x=='No' else 1)
df=pd.get_dummies(data=df, columns=['Country'])

Python3中實現數據標準化的方法有哪些

最大 - 最小規范化

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Python3中實現數據標準化的方法有哪些

Z-Score標準化

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Python3中實現數據標準化的方法有哪些

import seaborn as sns
import matplotlib.pyplot as plt
import statistics
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
fig,axes=plt.subplots(2,3,figsize=(18,12)) 
sns.distplot(df['Age'], ax=axes[0, 0])
sns.distplot(df_MinMax['Age'], ax=axes[0, 1])
axes[0, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Age'])))
sns.distplot(sc_X['Age'], ax=axes[0, 2])
axes[0, 2].set_title('標準化方差:% s '% (statistics.stdev(sc_X['Age'])))
sns.distplot(df['Salary'], ax=axes[1, 0])
sns.distplot(df_MinMax['Salary'], ax=axes[1, 1])
axes[1, 1].set_title('MinMax:Salary')
axes[1, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Salary'])))
sns.distplot(sc_X['Salary'], ax=axes[1, 2])
axes[1, 2].set_title('StandardScaler:Salary')
axes[1, 2].set_title('標準化方差:% s '% (statistics.stdev(sc_X['Salary'])))

看完上述內容,你們對Python3中實現數據標準化的方法有哪些有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

达日县| 清水河县| 边坝县| 宣化县| 侯马市| 桦甸市| 搜索| 望城县| 原平市| 陆河县| 四平市| 阳信县| 宾川县| 乌鲁木齐县| 台山市| 合江县| 玉门市| 宣武区| 文安县| 扎鲁特旗| 临江市| 克山县| 伊金霍洛旗| 南部县| 娄底市| 凭祥市| 青阳县| 克东县| 镇沅| 绥江县| 习水县| 札达县| 项城市| 德惠市| 开平市| 通化县| 常宁市| 称多县| 胶州市| 陕西省| 万全县|