您好,登錄后才能下訂單哦!
這篇文章主要介紹計算機中數據的預處理包括哪些內容,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
數據的預處理內容:1、數據審核,可以分為準確性審核、適用性審核、及時性審核和一致性審核四個方面;2、數據篩選,對審核過程中發現的錯誤應盡可能予以糾正;3、數據排序,按照一定順序將數據進行排列。
本教程操作環境:windows7系統、Dell G3電腦。
數據預處理(data preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。
預處理內容
1、數據審核
從不同渠道取得的統計數據,在審核的內容和方法上有所不同。
對于原始數據應主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。準確性審核主要是包括兩個方面:一是檢查數據資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查數據是否有錯誤,計算是否正確等。審核數據準確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)數據的審核。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤,主要用于對定量(數值型)數據的審核。
對于通過其他渠道取得的二手資料,除了對其完整性和準確性進行審核外,還應該著重審核數據的適用性和時效性。二手資料可以來自多種渠道,有些數據可能是為特定目的通過專門調查而獲得的,或者是已經按照特定目的需要做了加工處理。對于使用者來說,首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數據的時效性進行審核,對于有些時效性較強的問題,如果取得的數據過于滯后,可能失去了研究的意義。一般來說,應盡可能使用最新的統計數據。數據經審核后,確認適合于實際需要,才有必要做進一步的加工整理。
數據審核的內容主要包括以下四個方面:
準確性審核。主要是從數據的真實性與精確性角度檢查資料,其審核的重點是檢查調查過程中所發生的誤差。
適用性審核。主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。
及時性審核。主要是檢查數據是否按照規定時間報送,如未按規定時間報送,就需要檢查未及時報送的原因。
一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。
2、數據篩選
對審核過程中發現的錯誤應盡可能予以糾正。調查結束后,當數據發現的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,就需要對數據進行篩選。數據篩選包括兩方面的內容:一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除;二是將符合某種特定條件的數據篩選出來,對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。
3、數據排序
數據排序是按照一定順序將數據排列,以便于研究者通過瀏覽數據發現一些明顯的特征或趨勢,找到解決問題的線索。除此之外,排序還有助于對數據檢查糾錯,為重新歸類或分組等提供依據。在某些場合,排序本身就是分析的目的之一。排序可借助于計算機很容易的完成。
對于分類數據,如果是字母型數據,排序有升序與降序之分,但習慣上升序使用得更為普遍,因為升序與字母的自然排列相同;如果是漢字型數據,排序方式有很多,比如按漢字的首位拼音字母排列,這與字母型數據的排序完全一樣,也可按筆畫排序,其中也有筆畫多少的升序降序之分。交替運用不同方式排序,在漢字型數據的檢查糾錯過程中十分有用。
對于數值型數據,排序只有兩種,即遞增和遞減。排序后的數據也稱為順序統計量。
以上是“計算機中數據的預處理包括哪些內容”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。