數據清洗是數據預處理的一個重要步驟,可以使用Python中的pandas庫來進行數據清洗。下面是一個簡單的數據清洗示例:
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
print(data.isnull().sum())
刪除缺失值:
data.dropna(inplace=True)
填充缺失值:
data.fillna(data.mean(), inplace=True)
data.drop_duplicates(inplace=True)
data['column'] = data['column'].astype(int)
data = data[(data['column'] >= min_value) & (data['column'] <= max_value)]
data.to_csv('cleaned_data.csv', index=False)
通過以上步驟,可以使用Python進行數據清洗,使數據更加準確和可靠。