數據預處理的四個步驟分別是什么

發布時間：2021-03-05 11:31:19 來源：億速云閱讀：1547 作者：小新欄目：互聯網科技

小編給大家分享一下數據預處理的四個步驟分別是什么，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

數據預處理的四個步驟分別是數據清洗、數據集成、數據變換和數據歸約；而數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理；數據預處理，一方面是為了提高數據的質量，另一方面也是為了適應所做數據分析的軟件或者方法。

數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。

數據預處理一方面是為了提高數據的質量，另一方面也是為了適應所做數據分析的軟件或者方法。一般來說，數據預處理步驟有：數據清洗、數據集成、數據變換、數據歸約，每個大步驟又有一些小的細分點。當然了，這四個大步驟在做數據預處理時未必都要執行。

一、數據清洗

數據清洗，顧名思義，“黑”的變成“白”的，“臟”的數據變成“干凈”的，臟數據表現在形式上和內容上的臟。

形式上的臟，如：缺失值、帶有特殊符號的；

內容上的臟，如：異常值。

1、缺失值

缺失值包括缺失值的識別和缺失值的處理。

在R里缺失值的識別使用函數is.na判別，函數complete.cases識別樣本數據是否完整。

缺失值處理常用的方法有：刪除、替換和插補。

刪除法：刪除法根據刪除的不同角度又可以分為刪除觀測樣本和變量，刪除觀測樣本（行刪除法），在R里na.omit函數可以刪除所含缺失值的行。
這就相當于減少樣本量來換取信息的完整度，但當變量有較大缺失并且對研究目標影響不大時，可考慮刪除變量R里使用語句mydata[,-p]來完成。mydata表示所刪數據集的名字，p是該刪除變量的列數，-表示刪除。
替換法：替換法顧名思義對缺失值進行替換，根據變量的不同又有不同的替換規則，缺失值的所在變量是數值型用該變量下其他數的均值來替換缺失值；變量為非數值變量時則用該變量下其他觀測值的中位數或眾數替換。
插補法：插補法分為回歸插補和多重插補。
回歸插補指的是將插補的變量當作因變量y，其他變量看錯自變量，利用回歸模型進行擬合，在R里使用lm回歸函數對缺失值進行插補；
多重插補是指從一個包含缺失值的數據集中生成一組完整的數據，多次進行，產生缺失值的一個隨機樣本，在R里mice包可以進行多重插補。

2、異常值

異常值跟缺失值一樣包括異常值的識別和異常值的處理。

異常值的識別通常用單變量散點圖或箱形圖來處理，在R里dotchart是繪制單變量散點圖的函數，boxplot函數繪制箱現圖；在圖形中，把遠離正常范圍的點當作異常值。
異常值的的處理有刪除含有異常值的觀測（直接刪除，當樣本少時直接刪除會造成樣本量不足，改變變量的分布）、當作缺失值（利用現有的信息，對其當缺失值填補）、平均值修正（用前后兩個觀測值的均值修正該異常值）、不處理。在進行異常值處理時要先復習異常值出現的可能原因，再判斷異常值是否應該舍棄。

二、數據集成

所謂數據集成就是將多個數據源合并放到一個數據存儲中，當然如果所分析的數據原本就在一個數據存儲里就不需要數據的集成了（多合一）。

數據集成的實現是將兩個數據框以關鍵字為依據，在R里用merge函數實現，語句為merge（dataframe1, dataframe2,by=”關鍵字“”），默認按升序排列。

在進行數據集成時可能會出現如下問題：

同名異義，數據源A中某屬性名字和數據源B中某屬性名字相同，但所表示的實體不一樣，不能作為關鍵字；
異名同義，即兩個數據源某個屬性名字不一樣但所代表的實體一樣，可作為關鍵字；
數據集成往往造成數據冗余，可能是同一屬性多次出現，也可能是屬性名字不一致導致的重復，對于重復屬性一個先做相關分析檢測，如果有再將其刪除。

三、數據變換

數據變換就是轉化成適當的形式，來滿足軟件或分析理論的需要。

1、簡單函數變換

簡單函數變換用來將不具有正態分布的數據變成有正態分布的數據，常用的有平方、開方、取對數、差分等。如在時間序列里常對數據對數或差分運算，將非平穩序列轉化成平穩序列。

2、規范化

規范化就是剔除掉變量量綱上的影響，比如：直接比較身高和體重的差異，單位的不同和取值范圍的不同讓這件事不能直接比較。

最小-最大規范化：也叫離差標準化，對數據進行線性變換，將其范圍變成[0,1]
零-均值規范化：也叫標準差標準化，處理后的數據均值等于0，標準差為1
小數定標規范化：移動屬性值的小數位數，將屬性值映射到[-1,1]

3、連續屬性離散化

將連續屬性變量轉化成分類屬性，就是連續屬性離散化，特別是某些分類算法要求數據是分類屬性，如：ID3算法。

常用的離散化方法有如下幾種：

等寬法：將屬性的值域分成具有相同寬度的區間，類似制作頻率分布表；
等頻法：將相同的記錄放到每個區間；
一維聚類：兩個步驟，首先將連續屬性的值用聚類算法，然后將聚類得到的集合合并到一個連續性值并做同一標記。

四、數據歸約

數據歸約是指在對挖掘任務和數據本身內容理解的基礎上、尋找依賴于發現目標的數據的有用特征，以縮減數據規模，從而在盡可能保持數據原貌的前提下，最大限度地精簡數據量。

數據規歸能夠降低無效錯誤的數據對建模的影響、縮減時間、降低存儲數據的空間。

1、屬性歸約

屬性歸約是尋找最小的屬性子集并確定子集概率分布接近原來數據的概率分布。

合并屬性：將一些舊的屬性合并一個新的屬性；
逐步向前選擇：從一個空屬性集開始，每次在原來屬性集合選一個當前最優屬性添加到當前子集中，一直到無法選擇最優屬性或滿足一個約束值為止；
逐步先后選擇：從一個空屬性集開始，每次在原來屬性集合選一個當前最差屬性并剔除當前子集中，一直到無法選擇最差屬性或滿足一個約束值為止；
決策樹歸納：沒有出現在這個決策樹上的屬性從初始集合中刪除，獲得一個較優的屬性子集；
主成份分析：用較少的變量去解釋原始數據中大部分變量（用相關性高的變量轉化成彼此相互獨立或不相關的變量）。

2、數值歸約

通過減少數據量，包括有參數和無參數方法，有參數如線性回歸和多元回歸，無參數法如直方圖、抽樣等。

以上是“數據預處理的四個步驟分別是什么”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

數據預處理的四個步驟分別是什么

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

數據預處理的四個步驟分別是什么

猜你喜歡

最新資訊

相關推薦

相關標簽