亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python實現爬蟲爬取NBA數據功能

發布時間:2021-04-09 12:59:10 來源:億速云 閱讀:249 作者:小新 欄目:開發技術

小編給大家分享一下如何使用Python實現爬蟲爬取NBA數據功能,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

具體如下:

爬取的網站為:stat-nba.com,這里爬取的是NBA2016-2017賽季常規賽至2017年1月7日的數據

改變url_header和url_tail即可爬取特定的其他數據。

源代碼如下:

#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import time
import urllib
from bs4 import BeautifulSoup
import re
from pyExcelerator import *
def getURLLists(url_header,url_tail,pages):
  """
  獲取所有頁面的URL列表
  """
  url_lists = []
  url_0 = url_header+'0'+url_tail
  print url_0
  url_lists.append(url_0)
  for i in range(1,pages+1):
    url_temp = url_header+str(i)+url_tail
    url_lists.append(url_temp)
  return url_lists
def getNBAAllData(url_lists):
  """
  獲取所有2017賽季NBA常規賽數據
  """
  datasets = ['']
  for item in url_lists:
    data1 = getNBASingleData(item)
    datasets.extend(data1)
  #去掉數據里的空元素
  for item in datasets[:]:
    if len(item) == 0:
      datasets.remove(item)
  return datasets
def getNBASingleData(url):
  """
  獲取1個頁面NBA常規賽數據
  """
  # url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
  # html = requests.get(url).text
  html = urllib.urlopen(url).read()
  # print html
  soup = BeautifulSoup(html)
  data = soup.html.body.find('tbody').text
  list_data = data.split('\n')
  # with open('nba_data.txt','a') as fp:
  #   fp.write(data)
  # for item in list_data[:]:
  #   if len(item) == 0:
  #     list_data.remove(item)
  return list_data
def saveDataToExcel(datasets,sheetname,filename):
  book = Workbook()
  sheet = book.add_sheet(sheetname)
  sheet.write(0,0,u'序號')
  sheet.write(0,1,u'球隊')
  sheet.write(0,2,u'時間')
  sheet.write(0,3,u'結果')
  sheet.write(0,4,u'主客')
  sheet.write(0,5,u'比賽')
  sheet.write(0,6,u'投籃命中率')
  sheet.write(0,7,u'命中數')
  sheet.write(0,8,u'出手數')
  sheet.write(0,9,u'三分命中率')
  sheet.write(0,10,u'三分命中數')
  sheet.write(0,11,u'三分出手數')
  sheet.write(0,12,u'罰球命中率')
  sheet.write(0,13,u'罰球命中數')
  sheet.write(0,14,u'罰球出手數')
  sheet.write(0,15,u'籃板')
  sheet.write(0,16,u'前場籃板')
  sheet.write(0,17,u'后場籃板')
  sheet.write(0,18,u'助攻')
  sheet.write(0,19,u'搶斷')
  sheet.write(0,20,u'蓋帽')
  sheet.write(0,21,u'失誤')
  sheet.write(0,22,u'犯規')
  sheet.write(0,23,u'得分')
  num = 24
  row_cnt = 0
  data_cnt = 0
  data_len = len(datasets)
  print 'data_len:',data_len
  while(data_cnt< data_len):
    row_cnt += 1
    print '序號:',row_cnt
    for col in range(num):
        # print col
        sheet.write(row_cnt,col,datasets[data_cnt])
        data_cnt += 1
  book.save(filename)
def writeDataToTxt(datasets):
  fp = open('nba_data.txt','w')
  line_cnt = 1
  for i in range(len(datasets)-1):
    #球隊名稱對齊的操作:如果球隊名字過短或者為76人隊是 球隊名字后面加兩個table 否則加1個table
    if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'費城76人':
      fp.write(datasets[i]+'\t\t')
    else:
      fp.write(datasets[i]+'\t')
    line_cnt += 1
    if line_cnt % 24 == 1:
      fp.write('\n')
  fp.close()
if __name__ == "__main__":
  pages = int(1132/150)
  url_header = 'http://stat-nba.com/query_team.php?page='
  url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
  url_lists = getURLLists(url_header,url_tail,pages)
  datasets = getNBAAllData(url_lists)
  writeDataToTxt(datasets)
  sheetname = 'nba normal data 2016-2017'
  str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))
  filename = 'nba_normal_data'+str_time+'.xls'
  saveDataToExcel(datasets,sheetname,filename)

看完了這篇文章,相信你對“如何使用Python實現爬蟲爬取NBA數據功能”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

武穴市| 萨嘎县| 信阳市| 体育| 红桥区| 常州市| 赣榆县| 搜索| 合作市| 高要市| 黑河市| 永德县| 吉水县| 车险| 邵东县| 陵水| 祁连县| 腾冲县| 黑山县| 蒙山县| 文水县| 德化县| 衡山县| 景泰县| 武川县| 北票市| 济阳县| 南城县| 界首市| 嫩江县| 沙田区| 龙陵县| 连州市| 朝阳市| 偏关县| 长海县| 遂宁市| 鄱阳县| 宣武区| 商水县| 北川|