使用 Python 處理3萬多條數據只要幾秒鐘

發布時間：2020-09-12 19:09:48 來源：腳本之家閱讀：186 作者：數據森麟欄目：開發技術

應用場景：工作中經常遇到大量的數據需要整合、去重、按照特定格式導出等情況。如果用 Excel 操作，不僅費時費力，還不準確，有么有更高效的解決方案呢？

本文以17個 txt 文本，3萬多條數據為例，使用 Python 連接 MySQL 數據庫，實現快速操作。

別人加班干的活，我的 Python 小助手幾秒鐘就搞定了！

本文主要包括以下三方面內容：

數據寫入
數據去重
數據導出

將數據寫入 MySQL 數據庫

下圖所示文件是本文的數據源：

使用 Python 處理3萬多條數據只要幾秒鐘

我們的設想是：編寫一個小程序，扔在這個文件夾里，雙擊后就可以自動讀取每個 txt 文檔中的數據，并寫入數據庫。

代碼如下：

import pymysql
import os
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
cur = conn.cursor()
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));")
conn.commit()
path = os.getcwd()
files = os.listdir(path)
i = 0
for file in files:
 f = open(file,'r',encoding = 'UTF-8')
 next(f)
 for line in f:
 i += 1
 #print(line)
 sql = "insert into qq(qq) values(%s);"
 cur.execute(sql,line)
 print("插入第", i, "條數據！")
 conn.commit()
 f.close()
cur.close()
conn.close()

運行效果：

使用 Python 處理3萬多條數據只要幾秒鐘

重點代碼解釋：

這段代碼用到了 pymysql 和 os 兩個庫。

pymysql：用來操作 MySQL 數據庫；
os：用來遍歷所在文件夾下的所有文件。

現將主要代碼解釋如下：

1、遍歷任意文件夾下所有文件名稱
程序寫好后，使用 pyinstaller 打包成 exe 程序，并放在要操作的文件夾下面。

通過 path = os.getcwd() 命令，獲取該 exe 文件所在目錄。

通過 files = os.listdir(path) 命令，獲取 exe 文件所在目錄下的所有文件名稱，并存入 files 列表中。

這樣我們就獲得了所有的 txt 文件名稱，你可以任意命名你的 txt 文件名，程序都能讀出來。

2、將數據寫入數據庫

（1）連接數據庫，并在數據庫中創建新表

A. 連接到我的 qq 數據庫

conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')

B. 創建新表 qq

在 qq 數據庫中創建新表，表名稱為 qq ，包含 2 個字段：id 字段為主鍵、自動遞增；qq 字段為字符型，用于存儲數據。

cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id))")

（2）將數據寫入數據庫

這里使用了兩層循環：

for file in files:
 f = open(file,'r',encoding = 'UTF-8')
 next(f)
 for line in f:
 i += 1
 #print(line)
 sql = "insert into qq(qq) values(%s);"
 cur.execute(sql,line)
 print("插入第", i, "條數據！")
 conn.commit()
 f.close()

第一層循環是用來依次打開上述 17 個 txt 文件。

第二層循環是依次讀取每個 txt 文件的每一行，并將改行數據插入數據庫表 qq 的 qq字段。

至此就完成了數據的導入，總共32073條數據。

使用 Python 處理3萬多條數據只要幾秒鐘

數據清洗

這里以去除重復值為例，簡單介紹一下數據清洗。

1、創建一個新表，用來存儲清洗后的數據

可以在 cmd 窗口下登陸 MySQL，打開 qq 數據庫，執行下列操作：

CREATE TABLE qq_dist ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));

這樣就創建了新表 qq_dist ,用來存儲清洗后的數據，便于后期調用。

2、清洗數據

登陸 MySQL 后，執行下列操作：

insert into qq_dis(qq) select distinct qq from qq;

將從 qq 表中查找出的不重復的 qq 字段內容，插入到 qq_dist 表中的 qq 字段。

將數據按照特定格式導出

案例：將清洗后的數據的第101-200行導出到新的 txt 文本中。

代碼如下：

import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', db='wxid', charset='utf8')
print("寫入中，請等待……")
cur = conn.cursor()
sql = "select wxid from wd_dis limit 100,100;"
cur.execute(sql)
conn.commit()
alldata = cur.fetchall()
f = open('data101-200.txt','a')
i = 0
for data in alldata:
 i += 1
 f.write(data[0])
 f.flush()
f.close
cur.close()
conn.close()
print("寫入完成,共寫入{}條數據！".format(i))

重點代碼解釋：

1、 limit

MySQL 中 limit m,n 函數的含義是：從第 m+1 行開始讀取 n 行。

所以，本案例中讀取第101-200行，就是 limit 100,100

2、flush()

flush() 函數一定要加上，它可以將緩沖區的數據寫入文件中。否則就會出現生成的 txt 文檔為空白的錯誤。

總結

以上所述是小編給大家介紹的使用 Python 處理3萬多條數據只要幾秒鐘，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對億速云網站的支持！
如果你覺得本文對你有幫助，歡迎轉載，煩請注明出處，謝謝！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

使用 Python 處理3萬多條數據只要幾秒鐘

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

使用 Python 處理3萬多條數據只要幾秒鐘

猜你喜歡

最新資訊

相關推薦

相關標簽