python如何清洗數據

在Python中，可以使用各種庫和工具來清洗數據。下面是一些常用的方法：

數據去重：使用pandas庫的drop_duplicates()函數可以去除重復的數據行。

import pandas as pd
df = pd.DataFrame({'col1': ['A', 'B', 'A', 'C', 'B'],
'col2': [1, 2, 3, 4, 5]})
df.drop_duplicates()

缺失值處理：使用pandas庫的fillna()函數可以填充缺失值，使用dropna()函數可以刪除含有缺失值的行。

import pandas as pd
df = pd.DataFrame({'col1': [1, 2, None, 4],
'col2': [None, 2, 3, 4]})
df.fillna(0)  # 填充缺失值為0
df.dropna()  # 刪除含有缺失值的行

數據轉換：使用pandas庫的apply()函數可以對數據進行轉換，通過自定義的函數可以實現各種數據清洗操作。

import pandas as pd
df = pd.DataFrame({'col1': ['a', 'b', 'c', 'd'],
'col2': [1, 2, 3, 4]})
def convert_to_uppercase(x):
return x.upper()
df['col1'] = df['col1'].apply(convert_to_uppercase)  # 將col1列的值轉換為大寫

數據格式轉換：使用pandas庫的astype()函數可以將數據的類型轉換為指定的格式。

import pandas as pd
df = pd.DataFrame({'col1': [1, 2, 3, 4],
'col2': [1.1, 2.2, 3.3, 4.4]})
df['col2'] = df['col2'].astype(int)  # 將col2列的值轉換為整型

數據標準化：使用sklearn庫的StandardScaler類可以對數據進行標準化處理。

from sklearn.preprocessing import StandardScaler
data = [[1, 2], [3, 4], [5, 6]]
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)  # 對數據進行標準化處理

這些只是一些常見的數據清洗方法，實際上，數據清洗的具體操作和步驟根據不同的數據類型和需求可能會有所差異，可以根據具體情況選擇合適的方法來進行數據清洗。

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

最新問答

相關標簽