python爬蟲相關庫的安裝配置

發布時間：2020-06-10 09:58:43 來源：億速云閱讀：341 作者：Leah 欄目：編程語言

這篇文章給大家分享的是python爬蟲相關庫的詳細安裝教程，相信大部分人都還不知道怎么安裝，為了讓大家學會，給大家總結了以下內容，話不多說，一起往下看吧。

世界上80%的爬蟲是基于Python開發的，學好爬蟲技能，可為后續的大數據分析、挖掘、機器學習等提供重要的數據源。

python爬蟲需要安裝相關庫：

python爬蟲涉及的庫：

請求庫，解析庫，存儲庫，工具庫

1. 請求庫：urllib/re/requests

（1） urllib/re是python默認自帶的庫，可以通過以下命令進行驗證：

python爬蟲相關庫的安裝配置

沒有報錯信息輸出，說明環境正常

（2） requests安裝

2.1 打開CMD，輸入

pip3 install requests

2.2 等待安裝后，驗證

python爬蟲相關庫的安裝配置

（3） selenium安裝（驅動瀏覽器進行網站訪問行為）

3.1 打開CMD，輸入

pip3 install selenium

3.2 安裝chromedriver

網址：https://npm.taobao.org/

把下載完成后的壓縮包解壓，把exe放到D:\Python3.6.0\Scripts\

這個路徑只要在PATH變量中就可以

3.3 等待安裝完成后，驗證

python爬蟲相關庫的安裝配置

回車后彈出chrome瀏覽器界面

3.4 安裝其他瀏覽器

無界面瀏覽器phantomjs

下載網址：http://phantomjs.org/

下載完成后解壓，把整個目錄放到D:\Python3.6.0\Scripts\，把bin目錄的路徑添加到PATH變量

驗證：

打開CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source

2. 解析庫：

2.1 lxml (XPATH)

打開CMD

pip3 install lxml

或者從https://pypi.python.org下載，例如，lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下載whl文件

pip3 install 文件名.whl

2.2 beautifulsoup

打開CMD，需要先安裝好lxml

pip3 install beautifulsoup4

驗證

python
from bs4 import BeautifulSoup
soup = BeautifulSoup('<html></html>','lxml')

2.3 pyquery（類似jquery語法）

打開CMD

pip3 install pyquery

驗證安裝結果

python
from pyquery import PyQuery as pq
doc = pq('<html>hi</html>')
result = doc('html').text()
result

python爬蟲相關庫的安裝配置

3. 存儲庫

3.1 pymysql（操作MySQL，關系型數據庫）

安裝：

pip3 install pymysql

安裝后測試：

python爬蟲相關庫的安裝配置

3.2 pymongo（操作MongoDB，key-value）

安裝

pip3 install pymongo

驗證

python
import pymongo
client = pymongo.MongoClient('localhost')
db = client['testdb']
db['table'].insert({'name':'bob'})
db['table'].find_one({'name':'bob'})

python爬蟲相關庫的安裝配置

3.3 redis（分布式爬蟲，維護爬取隊列）

安裝：

pip3 install redis

驗證：

python爬蟲相關庫的安裝配置

4.工具庫

4.1 flask（WEB庫）

pip3 install flask

python爬蟲相關庫的安裝配置

4.2 Django（分布式爬蟲維護系統）

pip3 install django

4.3 jupyter（運行在網頁端的記事本，支持markdown，可以在網頁上運行代碼）

pip3 install jupyter

驗證：

打開CMD

jupyter notebook

之后就可以在網頁直接創建記事本，代碼塊和Markdown塊，支持打印

以上就是python爬蟲相關庫安裝配置的詳細內容了，看完之后是否有所收獲呢？如果想了解更多相關內容，歡迎關注億速云行業資訊！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python爬蟲相關庫的安裝配置

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

python爬蟲相關庫的安裝配置

猜你喜歡

最新資訊

相關推薦

相關標簽