亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python實現從PDF中提取數據

發布時間:2020-11-02 15:39:26 來源:億速云 閱讀:174 作者:Leah 欄目:開發技術

python實現從PDF中提取數據?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

使用Python從PDF文件中提取一個表格

a)將表復制到Excel并保存為table_1_raw.csv

python實現從PDF中提取數據

數據以一維格式存儲,必須進行重塑、清理和轉換。

b)導入必要的庫

import pandas as pd
import numpy as np

c)導入原始數據,重新定義數據

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python實現從PDF中提取數據

d)使用字符串處理工具進行數據糾纏

我們從上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我們需要去掉percent(%)符號:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)將數據轉換為數字形式

我們注意到列x5、x6和x7的列值數據類型為string,因此我們需要將它們轉換為數值數據,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看轉換數據的最終形式

df4.head(n=5)

python實現從PDF中提取數據

g)導出最終數據到一個csv文件

df4.to_csv('table_1_final.csv',index=False)

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

上林县| 东海县| 吉安市| 南昌市| 大姚县| 阆中市| 清远市| 东海县| 洛川县| 和平县| 馆陶县| 桐梓县| 临汾市| 中江县| 密云县| 南昌县| 金川县| 新平| 松江区| 新野县| 夏河县| 江阴市| 洪雅县| 泸州市| 江孜县| 武安市| 宁晋县| 麻阳| 阜阳市| 孟州市| 彰武县| 邯郸县| 贡山| 海盐县| 子洲县| 若尔盖县| 葫芦岛市| 富蕴县| 玉树县| 沐川县| 鄂伦春自治旗|