Python如何使用比較文本相似性的方法difflib和Levenshtein

發布時間：2021-08-12 13:39:38 來源：億速云閱讀：191 作者：小新欄目：開發技術

這篇文章主要介紹Python如何使用比較文本相似性的方法difflib和Levenshtein，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

最近工作需要用到序列匹配，檢測相似性，不過有點復雜的是輸入長度是不固定的，舉例為：

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中國', '美麗']

其中，需要從input_and_output 中選取不固定長度的一段作為輸入，且順序不定，然后去與總體進行比較，找出最符合的，開始是對漢字進行數值化編碼，不過后來由于出現漢字越來越多，遂放棄該方法，轉向別的方式，查找資料發現了兩個python包廣被推薦，從下面來看各有優缺點，記錄之~

1、difflib

import difflib #python 自帶庫，不需額外安裝

In [49]: test1
Out[49]: ['你好', '我是誰']

In [50]: test2
Out[50]: ['你好啊', '我誰']

In [51]: test3
Out[51]: [12, 'nihao']

In [52]: test4
Out[52]: ['你好', 'woshi']

In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()
Out[53]: 0.0

In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()
Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshtein

import Levenshtein


In [56]: Levenshtein.distance(','.join(test1), ','.join(test2))
Out[56]: 2

In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))
Out[57]: 5

簡單來說，difflib使用時不一定為字符串，但匹配時只有單個元素完全匹配才計入，

而Levenshtein則需要輸入為字符串，匹配時是整體匹配

以上是“Python如何使用比較文本相似性的方法difflib和Levenshtein”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python如何使用比較文本相似性的方法difflib和Levenshtein

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Python如何使用比較文本相似性的方法difflib和Levenshtein

猜你喜歡

最新資訊

相關推薦

相關標簽