您好,登錄后才能下訂單哦!
題目:
一個txt文件中已知數據格式為:
C4D
C4D/maya
C4D
C4D/su
C4D/max/AE
統計每個字段出現的次數,比如C4D、maya
先讀取文件,將文件中的數據抽取出來:
def getWords(filepath): file = open(filepath) wordOne=[] while(file): line = file.readline() word = line.split('/') wordOne.extend(word) if(not line): #若讀取結束了 break wordtwo=[] for i in wordOne: wordtwo.extend(i.split()) return wordtwo
說明:這個有一個要注意的地方是文件是被”\n”,”/”兩種格式分割而來的,因此需要split兩次。
然后定義一個dict,遍歷數據,代碼如下所示:
def getWordNum(words): dictWord={} for i in words: if(i not in dictWord): dictWord[i]=0 dictWord[i]+=1 return dictWord
主函數的調用:
filepath='data/new.txt' words = getWords(filepath) dictword = getWordNum(words) print(dictword)
結果:
{'C4D': 9, 'max': 1, 'su': 1, 'maya': 1, 'AE': 3}
說明:
1,
print(type(word)) print(type(splitData[0]))
輸出為:
<class 'list'> <class 'str'>
就是當splitData.extend()執行之后就將原本是list類型的數據轉換成str類型的存儲起來。只有對str類型的數據才能用split函數
2,
import os print(os.getcwd())
這個可以輸出當前所在位置,對于讀取文件很有用。
在讀入文件并對文件進行切分的時候,若是含有的切分詞太多,那么使用re.split()方法是最方便的,如下所示:
filepath='data/new.txt' file = open(filepath) #讀取文件 wordOne=[] symbol = '\n/' #定義分隔符 symbol = "["+symbol+"]" #拼接正則表達式 while(file): line = file.readline() word = re.split(symbol,line) wordOne.extend(word) if(not line): break #通過上式得到的list中會含有很多的空字符串,所以要去空 wordOne = [x for x in wordOne if x]
以上這篇python 統計文件中的字符串數目示例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。