亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么查重python文本相似性計算simhash源碼

發布時間:2022-02-11 14:57:25 來源:億速云 閱讀:315 作者:iii 欄目:開發技術

今天小編給大家分享一下怎么查重python文本相似性計算simhash源碼的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

場景:

1.計算SimHash值,及Hamming距離。
2.SimHash適用于較長文本(大于三五百字)的相似性比較,文本越短誤判率越高。

Python實現:

代碼如下

# -*- encoding:utf-8 -*-
import math
import jieba
import jieba.analyse
class SimHash(object):
    def getBinStr(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** 128 - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            x = bin(x).replace('0b', '').zfill(64)[-64:]
            return str(x)
    def getWeight(self, source):
        return ord(source)
    def unwrap_weight(self, arr):
        ret = ""
        for item in arr:
            tmp = 0
            if int(item) > 0:
                tmp = 1
            ret += str(tmp)
        return ret
    def sim_hash(self, rawstr):
        seg = jieba.cut(rawstr)
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=100, withWeight=True)
        ret = []
        for keyword, weight in keywords:
            binstr = self.getBinStr(keyword)
            keylist = []
            for c in binstr:
                weight = math.ceil(weight)
                if c == "1":
                    keylist.append(int(weight))
                else:
                    keylist.append(-int(weight))
            ret.append(keylist)
        # 降維
        rows = len(ret)
        cols = len(ret[0])
        result = []
        for i in range(cols):
            tmp = 0
            for j in range(rows):
                tmp += int(ret[j][i])
            if tmp > 0:
                tmp = "1"
            elif tmp <= 0:
                tmp = "0"
            result.append(tmp)
        return "".join(result)
    def distince(self, hashstr1, hashstr2):
        length = 0
        for index, char in enumerate(hashstr1):
            if char == hashstr2[index]:
                continue
            else:
                length += 1
        return length
if __name__ == "__main__":
    simhash = SimHash()
    str1 = '咱哥倆誰跟誰啊'
    str2 = '咱們倆誰跟誰啊'
    hash2 = simhash.sim_hash(str1)
    print(hash2)
    hash3 = simhash.sim_hash(str2)
    distince = simhash.distince(hash2, hash3)
    value = 5
    print("simhash", distince, "距離:", value, "是否相似:", distince<=value)

以上就是“怎么查重python文本相似性計算simhash源碼”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

县级市| 山阳县| 南和县| 临海市| 东山县| 甘泉县| 银川市| 葫芦岛市| 庆云县| 阳新县| 安化县| 郯城县| 和政县| 彰武县| 沙雅县| 增城市| 枞阳县| 潞城市| 香格里拉县| 轮台县| 鹤壁市| 当阳市| 正阳县| 武山县| 宜兰县| 楚雄市| 西丰县| 台中县| 长治市| 乐昌市| 抚远县| 和林格尔县| 云梦县| 托克托县| 中宁县| 高雄县| 芜湖市| 微博| 武陟县| 汽车| 彭泽县|