Python交互命令窗口(如Python的IDLE或Jupyter Notebook)提供了多種數據分析功能。以下是一些常見的數據分析操作:
數據導入與導出:
import pandas as pd
導入CSV、Excel、JSON等格式的數據。df.to_csv()
, df.to_excel()
, df.to_json()
等方法導出數據。數據清洗與預處理:
print(df.head())
, print(df.info())
, print(df.describe())
。df.dropna()
, df.fillna()
。df['column_name'] = df['column_name'].astype('type')
。df.rename(columns={'old_name': 'new_name'}, inplace=True)
。df.drop('column_name', axis=1, inplace=True)
。df.loc[row_indexer, col_indexer]
。數據探索性分析:
df.describe()
。import matplotlib.pyplot as plt; df['column_name'].hist()
。plt.boxplot(x='column_name', data=df)
。plt.scatter(x='column_name1', y='column_name2', data=df)
。plt.plot(x='column_name', y='column_name', data=df)
。數據聚合與分組:
groupby()
方法對數據進行分組。agg()
方法對分組后的數據進行聚合操作,如求和、計數、平均值等。數據合并與連接:
pd.concat()
將多個DataFrame合并。pd.merge()
根據某個鍵值對兩個DataFrame進行合并。數據透視表:
pd.pivot_table()
創建數據透視表,以便對數據進行更復雜的分析和匯總。時間序列分析:
pd.to_datetime()
將其轉換為日期時間格式。resample()
方法對時間序列數據進行重采樣。shift()
方法生成時間序列的滯后數據。數據可視化庫:
請注意,上述功能僅作為示例,實際數據分析可能涉及更復雜的操作和技巧。在進行數據分析時,建議根據具體需求選擇合適的方法和工具。