亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何爬取實習僧招聘網站

發布時間:2021-11-25 14:19:37 來源:億速云 閱讀:222 作者:小新 欄目:大數據

這篇文章主要為大家展示了“Python如何爬取實習僧招聘網站”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“Python如何爬取實習僧招聘網站”這篇文章吧。

本次任務背景:

https://www.shixiseng.com

爬取一下實習僧IT互聯網的Python實習信息

Python如何爬取實習僧招聘網站

Python如何爬取實習僧招聘網站

如上圖所示,該字段的數據看不見,可能它不希望你很簡單的就獲得它網站的這些數據,這些數據對他來說比較重要,所以啟用了反爬技巧

如果直接運行,這些數據是爬取不下來的,如下圖:

Python如何爬取實習僧招聘網站

如上圖,相關數據已經以“utf-8”編碼的方式呈現出來

創建函數hack_number(),用于解碼數字

Python如何爬取實習僧招聘網站

編寫好相關代碼之后,查看運行結果

完整代碼如下:

import requests
from bs4 import BeautifulSoup

headers = {"user-agent":"Mozilla/5.0"}

def hack_number(text):
  text = text.encode('utf-8')
  text = text.replace(b'\xef\x82\x9d', b'0')
  text = text.replace(b'\xee\xa6\x88', b'1')
  text = text.replace(b'\xee\xa8\xb4', b'2')
  text = text.replace(b'\xef\x91\xbe', b'3')
  text = text.replace(b'\xee\x88\x9d', b'4')
  text = text.replace(b'\xef\x97\x80', b'5')
  text = text.replace(b'\xee\x85\x9f', b'6')
  text = text.replace(b'\xee\x98\x92', b'7')
  text = text.replace(b'\xef\x80\x95', b'8')
  text = text.replace(b'\xef\x94\x9b', b'9')
  text = text.decode()

  return text

def detail_page(url):
  req = requests.get(url,headers=headers)
  html = req.text
  
  soup = BeautifulSoup(html,'lxml')
  job_name = soup.select('.new_job_name')[0].text.strip()
  job_money = hack_number(soup.select('.job_money')[0].text.strip())
  job_position = soup.select('.job_position')[0].text.strip()
  job_academic = soup.select('.job_academic')[0].text.strip()
  job_detail = soup.select('.job_detail')[0].text.strip()
  job_week = hack_number(soup.select('.job_week')[0].text.strip())
  job_time = hack_number(soup.select('.job_time')[0].text.strip())

  print(job_name,job_money,job_position,job_academic,job_week,job_time)
  print(job_detail)


#detail_page('https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList')
#detail_page('https://www.shixiseng.com/intern/inn_uk1lm380lngh?pcm=pc_SearchList')
#detail_page('https://www.shixiseng.com/intern/inn_fr1o1nii5knw?pcm=pc_SearchList')
for pages in range(1,3):
  url = f'https://www.shixiseng.com/interns?page={pages}&keyword=Python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E8%B4%B5%E9%98%B3&internExtend='
  req = requests.get(url,headers=headers)
  html = req.text

  soup = BeautifulSoup(html,'lxml')
  for item in soup.select('a.title ellipsis font'):
    detail_url = f"https://www.shixiseng.com{item.get('href')}"
    detail_page(detail_url)

以上是“Python如何爬取實習僧招聘網站”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

池州市| 虞城县| 汉中市| 潞西市| 宜兴市| 青田县| 浦东新区| 苏尼特右旗| 梓潼县| 革吉县| 兴海县| 兴业县| 长治县| 双桥区| 商都县| 双流县| 乳源| 公主岭市| 临清市| 东明县| 治多县| 鲜城| 建宁县| 易门县| 泸西县| 长海县| 苍南县| 新化县| 渝中区| 柳林县| 巩留县| 独山县| 河南省| 西乡县| 平远县| 交城县| 筠连县| 宿松县| 水富县| 长海县| 长乐市|