您好,登錄后才能下訂單哦!
本篇內容主要講解“Pandas怎么進行數據框增、刪、改、查、去重、抽樣等基本操作 ”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Pandas怎么進行數據框增、刪、改、查、去重、抽樣等基本操作 ”吧!
pandas的索引函數主要有三種:
loc 標簽索引,行和列的名稱
iloc 整型索引(絕對位置索引),絕對意義上的幾行幾列,起始索引為0
ix 是 iloc 和 loc的合體
at是loc的快捷方式
iat是iloc的快捷方式
建立測試數據集:
import pandas as pd df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'],'c': ["A","B","C"]}) print(df) a b c0 1 a A1 2 b B2 3 c C
print(df.loc[1,:]) a 2b b c BName: 1, dtype: object
print(df.loc[1:2,:])#選擇1:2行,slice為1 a b c1 2 b B2 3 c C print(df.loc[::-1,:])#選擇所有行,slice為-1,所以為倒序 a b c2 3 c C1 2 b B0 1 a A print(df.loc[0:2:2,:])#選擇0至2行,slice為2,等同于print(df.loc[0:2:2,:])因為只有3行 a b c0 1 a A2 3 c C
print(df.loc[:,"a"]>2)#原理是首先做了一個判斷,然后再篩選0 False1 False2 TrueName: a, dtype: boolprint(df.loc[df.loc[:,"a"]>2,:]) a b c2 3 c C
另外條件篩選還可以集邏輯運算符 | for or, & for and, and ~for not
In [129]: s = pd.Series(range(-3, 4))In [132]: s[(s < -1) | (s > 0.5)]Out[132]: 0 -31 -24 15 26 3dtype: int64
In [141]: s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')In [143]: s.isin([2, 4, 6])Out[143]: 4 False3 False2 True1 False0 Truedtype: boolIn [144]: s[s.isin([2, 4, 6])]Out[144]: 2 20 4dtype: int64
In [145]: s[s.index.isin([2, 4, 6])] Out[145]: 4 02 2dtype: int64 # compare it to the following In [146]: s[[2, 4, 6]]Out[146]: 2 2.04 0.06 NaN dtype: float64
In [151]: df = pd.DataFrame({'vals': [1, 2, 3, 4], 'ids': ['a', 'b', 'f', 'n'], .....: 'ids2': ['a', 'n', 'c', 'n']}) .....: In [156]: values = {'ids': ['a', 'b'], 'ids2': ['a', 'c'], 'vals': [1, 3]} In [157]: row_mask = df.isin(values).all(1) In [158]: df[row_mask] Out[158]: ids ids2 vals0 a a 1
In [1]: dates = pd.date_range('1/1/2000', periods=8)In [2]: df = pd.DataFrame(np.random.randn(8, 4), index=dates, columns=['A', 'B', 'C', 'D'])In [3]: dfOut[3]: A B C D2000-01-01 0.469112 -0.282863 -1.509059 -1.1356322000-01-02 1.212112 -0.173215 0.119209 -1.0442362000-01-03 -0.861849 -2.104569 -0.494929 1.0718042000-01-04 0.721555 -0.706771 -1.039575 0.2718602000-01-05 -0.424972 0.567020 0.276232 -1.0874012000-01-06 -0.673690 0.113648 -1.478427 0.5249882000-01-07 0.404705 0.577046 -1.715002 -1.0392682000-01-08 -0.370647 -1.157892 -1.344312 0.844885In [162]: df.where(df < 0, -df)Out[162]: A B C D2000-01-01 -2.104139 -1.309525 -0.485855 -0.2451662000-01-02 -0.352480 -0.390389 -1.192319 -1.6558242000-01-03 -0.864883 -0.299674 -0.227870 -0.2810592000-01-04 -0.846958 -1.222082 -0.600705 -1.2332032000-01-05 -0.669692 -0.605656 -1.169184 -0.3424162000-01-06 -0.868584 -0.948458 -2.297780 -0.6847182000-01-07 -2.670153 -0.114722 -0.168904 -0.0480482000-01-08 -0.801196 -1.392071 -0.048788 -0.808838
DataFrame.where() differs from numpy.where()的區別
In [172]: df.where(df < 0, -df) == np.where(df < 0, df, -df)
當series對象使用where()時,則返回一個序列
In [141]: s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')In [159]: s[s > 0]Out[159]: 3 12 21 30 4dtype: int64In [160]: s.where(s > 0)Out[160]: 4 NaN3 1.02 2.01 3.00 4.0dtype: float64
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
當在有權重篩選時,未賦值的列權重為0,如果權重和不為1,則將會將每個權重除以總和。random_state可以設置抽樣的種子(seed)。axis可是設置列隨機抽樣。
In [105]: df2 = pd.DataFrame({'col1':[9,8,7,6], 'weight_column':[0.5, 0.4, 0.1, 0]})In [106]: df2.sample(n = 3, weights = 'weight_column')Out[106]: col1 weight_column1 8 0.40 9 0.52 7 0.1
df.loc[3,:]=4 a b c0 1.0 a A1 2.0 b B2 3.0 c C3 4.0 4 4
pandas里并沒有直接指定索引的插入行的方法,所以要自己設置
line = pd.DataFrame({df.columns[0]:"--",df.columns[1]:"--",df.columns[2]:"--"},index=[1]) df = pd.concat([df.loc[:0],line,df.loc[1:]]).reset_index(drop=True)#df.loc[:0]這里不能寫成df.loc[0],因為df.loc[0]返回的是series a b c0 1.0 a A1 -- -- --2 2.0 b B3 3.0 c C4 4.0 4 4
df.loc[[1,2],:]=df.loc[[2,1],:].values a b c0 1 a A1 3 c C2 2 b B
df.drop(0,axis=0,inplace=True) print(df) a b c1 2 b B2 3 c C
在以時間作為索引的數據框中,索引是以整形的方式來的。
In [39]: dfl = pd.DataFrame(np.random.randn(5,4), columns=list('ABCD'), index=pd.date_range('20130101',periods=5))In [40]: dflOut[40]: A B C D2013-01-01 1.075770 -0.109050 1.643563 -1.4693882013-01-02 0.357021 -0.674600 -1.776904 -0.9689142013-01-03 -1.294524 0.413738 0.276662 -0.4720352013-01-04 -0.013960 -0.362543 -0.006154 -0.9230612013-01-05 0.895717 0.805244 -1.206412 2.565646In [41]: dfl.loc['20130102':'20130104']Out[41]: A B C D2013-01-02 0.357021 -0.674600 -1.776904 -0.9689142013-01-03 -1.294524 0.413738 0.276662 -0.4720352013-01-04 -0.013960 -0.362543 -0.006154 -0.923061
print(df.loc[:,"a"])0 11 22 3Name: a, dtype: int64
print(df.loc[:,"a":"b"]) a b0 1 a1 2 b2 3 c
df.loc[:,"d"]=4 a b c d0 1 a A 41 2 b B 42 3 c C 4
df.loc[:,['b', 'a']] = df.loc[:,['a', 'b']].valuesprint(df) a b c0 a 1 A1 b 2 B2 c 3 C
1)直接del DF[‘column-name’]
2)采用drop方法,有下面三種等價的表達式:
DF= DF.drop(‘column_name’, 1);
DF.drop(‘column_name’,axis=1, inplace=True)
DF.drop([DF.columns[[0,1,]]], axis=1,inplace=True)
df.drop("a",axis=1,inplace=True) print(df) b c0 a A1 b B2 c C
還有一些其他的功能:
切片df.loc[::,::]
選擇隨機抽樣df.sample()
去重.duplicated()
查詢.lookup
到此,相信大家對“Pandas怎么進行數據框增、刪、改、查、去重、抽樣等基本操作 ”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。