亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

pandas常規操作有哪些

發布時間:2022-02-25 14:55:03 來源:億速云 閱讀:115 作者:小新 欄目:開發技術

這篇文章主要介紹了pandas常規操作有哪些,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

一 聚合函數

1. numpy、pandas使用的統計方式
在數組中經常使用的聚合方式
data[['counts', 'ches_name']].agg([np.mean, np.std])
agg({'xx':np.mean, 'xx2':[np.sum, np.std]})
2. 在pandas或者numpy中沒有現成的函數可以使用,可以使用transform自定義函數

如: 將指定列的全部數據 * 2

方式一
data['counts'].transform(lambda x: x*2)
方式二:按照函數內既定的規則,進行指定數據的操作
def transform_func(values):
	"""自定義函數,定義數據操作規則"""
	return values*2
data['counts'].transform(transform_func)   # 一維
data1 = data.groupby(by='品牌')['銷售額'].transform(tran_func)  # 分組之后自定義聚合

推薦好課:Python 自動化辦公

二 透視表 - pivot_table

源碼參數分析
def pivot_table(
    data,             # Dataframe,對哪張表進行操作
    values=None,      # 顯示的字段
    index=None,       # 行分組鍵,可以是數組,列表,如果是數組,必須有一樣的長度
    columns=None,      # 列分組鍵
    aggfunc="mean",    # 聚合函數, 默認是mean
    fill_value=None,   # 填充空值, 將為Nan的值填充為對應的值
    margins=False,     # 匯總開關,默認是False
    dropna=True, 
    margins_name="All", # 匯總的列或者行的bolumns,可以指定修改名稱
    observed=False,
1、index: 行分組鍵,分完組后,分組鍵的取值在行索引的位置上
pd.pivot_table(data, index=['order_id', 'dishes_name'], aggfunc=[np.mean, np.sum], values=['add_inprice', 'counts'])
                                mean                sum       
                         add_inprice counts add_inprice counts
order_id dishes_name                                          
137      農夫山泉NFC果汁100%           0      1           0      1
         涼拌菠菜                      0      1           0      1
         番茄燉牛腩\r\n                 0      1           0      1
         白飯/小碗                     0      4           0      4
         西瓜胡蘿卜沙拉                   0      1           0      1
...                              ...    ...         ...    ...
1323     番茄燉秋葵                     0      1           0      1
         芝士燴波士頓龍蝦                  0      1           0      1
         芹黃鱔絲                      0      1           0      1
         蒜蓉生蠔                      0      1           0      1
         谷稻小莊                      0      1           0      1
[2778 rows x 4 columns]
2、columns: 列分組鍵,分完組后,分組鍵的取值在列索引上
pd.pivot_table(data, columns= ['order_id', 'amounts'], aggfunc=[np.mean, np.sum], values=['add_inprice', 'counts'])
# 列分組鍵,可以說是行分組鍵的轉置
            mean                                ...  sum                        
order_id    137                           165   ... 1323                        
amounts      1    6    26   27   35   99   9    ...  39  49  58  65  78  80  175
add_inprice  0.0  0.0  0.0  0.0  0.0  0.0  0.0  ...    0   0   0   0   0   0   0
counts       4.0  1.0  1.0  1.0  1.0  1.0  1.5  ...    1   1   1   1   1   1   1
[2 rows x 4956 columns]
3、結合使用
# aggfunc 聚合函數
# fill_value 為空的,怎么顯示,默認為Nan
# margins 匯總,默認是不匯總
# margins_name 匯總列或者行字段名稱,默認為all
pd.pivot_table(data, index=['dishes_name'], columns='order_id', values='counts', aggfunc=np.sum, fill_value=0, margins=True, margins_name='總')
dishes_name   42度海之藍   北冰洋汽水   38度劍南春   50度古井貢酒  ...  黃油曲奇餅干  黃花菜炒木耳  黑米戀上葡萄     總
order_id                                         ...                              
137                0        0        0        0  ...       0       0       0     9
165                0        0        1        0  ...       0       1       0    21
166                0        0        0        0  ...       0       0       0     7
171                0        0        0        0  ...       0       0       0    10
177                0        0        0        0  ...       0       0       0     4
...              ...      ...      ...      ...  ...     ...     ...     ...   ...
1314               0        0        1        0  ...       0       0       0    12
1317               0        0        0        0  ...       0       0       0    18
1319               0        0        0        0  ...       0       0       0     9
1323               0        0        1        0  ...       0       0       0    15
總                  5       45        6        5  ...       5      15      18  3088

推薦好課:Python 自動化管理

三 交叉表-crosstab

def crosstab(
    index,   # 行分組鍵
    columns,  # 列分組鍵
    values=None,   # 顯示的字段
    rownames=None,    # 行name
    colnames=None,     # 列name
    aggfunc=None,      # 聚合函數
    margins=False,      # 匯總
    margins_name: str = "All",   # 匯總列或者行的名稱
    dropna: bool = True,
    normalize=False,
基本語法
pd.crosstab(index = data['dishes_name'], columns=data['order_id'], values=data['counts'], aggfunc = np.sum)
dishes_name   42度海之藍   北冰洋汽水   38度劍南春   ...  黃油曲奇餅干  黃花菜炒木耳  黑米戀上葡萄
order_id                                ...                        
137              NaN      NaN      NaN  ...     NaN     NaN     NaN
165              NaN      NaN      1.0  ...     NaN     1.0     NaN
166              NaN      NaN      NaN  ...     NaN     NaN     NaN
171              NaN      NaN      NaN  ...     NaN     NaN     NaN
177              NaN      NaN      NaN  ...     NaN     NaN     NaN
...              ...      ...      ...  ...     ...     ...     ...
1309             NaN      NaN      NaN  ...     NaN     NaN     NaN
1314             NaN      NaN      1.0  ...     NaN     NaN     NaN
1317             NaN      NaN      NaN  ...     NaN     NaN     NaN
1319             NaN      NaN      NaN  ...     NaN     NaN     NaN
1323             NaN      NaN      1.0  ...     NaN     NaN     NaN
[278 rows x 156 columns]

四 表格合并

1、每個表的列都相同,pd.concat((df1, df2, df3 … ))

axis = 0 : 縱向合并axis = 1:橫向合并,索引對應合并

函數源碼
def concat(
    objs: Union[Iterable["NDFrame"], Mapping[Label, "NDFrame"]], # 傳入的是Df格式
    axis=0,          # 進行合并的方向
    join="outer",    # 默認使用的外連接
    ignore_index: bool = False,  # 重置排序索引
    keys=None,
    levels=None,
    names=None,
    verify_integrity: bool = False,
    sort: bool = False,
    copy: bool = True,
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K3'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                         'A': ['A0', 'A1', 'A2', 'A3'],
                         'B': ['B0', 'B1', 'B2', 'B3']})right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],                       'key2': ['K0', 'K0', 'K0', 'K0'],                          'C': ['C0', 'C1', 'C2', 'C3'],                          'D': ['D0', 'D1', 'D2', 'D3']}) pd.concat((left, right), axis = 0, join = 'inner') # 指定使用內連接,進行合并,默認使用的是outer pd.concat((left, right), axis = 1, join = 'inner')
2、 表合并,解決行索引沒有意義情況下,數據行不匹配問題(解決concat橫向拼接問題)
def merge(
    left,                # 左表
    right,               # 右表
    how: str = "inner",    # 默認是內連接,
    on=None,               # 必須是兩張表中有公共的主鍵,才能作為主鍵
    left_on=None,          # 左表主鍵
    right_on=None,         # 右表主鍵
    left_index: bool = False,
    right_index: bool = False,
    sort: bool = False,
    suffixes=("_x", "_y"),
    copy: bool = True,
    indicator: bool = False,
    validate=None,

(1) 兩表中有相同的主鍵

on 連接的主鍵,兩表中共有的主鍵
how 連接的方式,默認使用的是內連接
outer外連接,返回全部     inner內連接返回等值連接     left以左表為主     right以右表為主
pd.merge(left, right, on='key1', how='outer')
  key1 key2_x    A    B key2_y    C    D
0   K0     K0   A0   B0     K0   C0   D0
1   K0     K1   A1   B1     K0   C0   D0
2   K1     K0   A2   B2     K0   C1   D1
3   K1     K0   A2   B2     K0   C2   D2
4   K3     K1   A3   B3    NaN  NaN  NaN
5   K2    NaN  NaN  NaN     K0   C3   D3
多個相同主鍵連接
pd.merge(left, right, on=['key1', 'key2'], how='outer')
  key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K3   K1   A3   B3  NaN  NaN
5   K2   K0  NaN  NaN   C3   D3

(2) 兩表中沒有相同的主鍵

left_on   : 指定左表中的主鍵
right_on  : 指定右表中的主鍵
pd.merge(left, right, left_on = 'key1', right_on = 'key2', how='outer')
  key1_x key2_x   A   B key1_y key2_y    C    D
0     K0     K0  A0  B0     K0     K0   C0   D0
1     K0     K0  A0  B0     K1     K0   C1   D1
2     K0     K0  A0  B0     K1     K0   C2   D2
3     K0     K0  A0  B0     K2     K0   C3   D3
4     K0     K1  A1  B1     K0     K0   C0   D0
5     K0     K1  A1  B1     K1     K0   C1   D1
6     K0     K1  A1  B1     K1     K0   C2   D2
7     K0     K1  A1  B1     K2     K0   C3   D3
8     K1     K0  A2  B2    NaN    NaN  NaN  NaN
9     K3     K1  A3  B3    NaN    NaN  NaN  NaN

(3) 更改表格名稱的方法

left.rename(columns={'key1': 'key11111'}, inplace=True)
print(left)
  key11111 key2   A   B

(4) 重疊合并,目的是將殘缺的表,合并為完整的表df1.combine_first(df2)

主表.combine_first(附表)
dict1 = {'ID':[1,2,3,4,5,6,7,8,9],
    'System':['W10','w10',np.nan,'w10',np.nan,np.nan,'w7','w7','w8']}dict2 = {'ID':[1,2,3,4,5,6,7,8,9],     'System':[np.nan,np.nan,'w7','w7','w7','w7','w8',np.nan,np.nan]} df1 = pd.DataFrame(dict1) df2 = pd.DataFrame(dict2) print(df1,df2) # 誰在前,為主表,主表中沒有的補全,有的值,不動 print(df1.combine_first(df2))     ID System 0 1 W10 1 2 w10 2 3 w7 3 4 w10 4 5 w7 5 6 w7 6 7 w7 7 8 w7 8 9 w8

感謝你能夠認真閱讀完這篇文章,希望小編分享的“pandas常規操作有哪些”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

济宁市| 宜兰县| 三江| 容城县| 甘肃省| 清苑县| 和龙市| 安平县| 留坝县| 准格尔旗| 陇西县| 仙游县| 彩票| 昌邑市| 凤山市| 社旗县| 达日县| 屏边| 厦门市| 汉寿县| 乌什县| 务川| 玛纳斯县| 漳浦县| 莲花县| 安庆市| 临朐县| 桂阳县| 化州市| 朝阳县| 山丹县| 六枝特区| 石棉县| 泌阳县| 崇明县| 陵川县| 雷山县| 根河市| 商南县| 额尔古纳市| 荆州市|