亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python英文文本分詞(無空格)模塊wordninja的使用實例

發布時間:2020-08-31 23:40:00 來源:腳本之家 閱讀:353 作者:Together_CZ 欄目:開發技術

在NLP中,數據清洗與分詞往往是很多工作開始的第一步,大多數工作中只有中文語料數據需要進行分詞,現有的分詞工具也已經有了很多了,這里就不再多介紹了。英文語料由于其本身存在空格符所以無需跟中文語料同樣處理,如果英文數據中沒有了空格,那么應該怎么處理呢?

今天介紹一個工具就是專門針對上述這種情況進行處理的,這個工具叫做:wordninja,地址在這里。

下面簡單以實例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

結果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

從簡單的結果上來看,效果還是不錯的,之后在實際的使用中會繼續評估。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

得荣县| 湾仔区| 郁南县| 安阳市| 达孜县| 龙井市| 汝阳县| 尤溪县| 皮山县| 云梦县| 邢台市| 龙里县| 金寨县| 蒲城县| 改则县| 平遥县| 西林县| 深水埗区| 桂阳县| 安平县| 庐江县| 达尔| 万全县| 景德镇市| 游戏| 张北县| 青浦区| 绥阳县| 屏山县| 沅江市| 应城市| 抚州市| 武夷山市| 钦州市| 宁海县| 庆安县| 绿春县| 江门市| 元朗区| 普兰店市| 周至县|