您好,登錄后才能下訂單哦!
本篇內容介紹了“怎么實現ES IK分詞器添加遠程詞組”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
<entry key="remote_ext_dict">URLS</entry> <entry key="remote_ext_stopwords">URLS</entry>
將URLS替換成遠程字典地址,多個地址使用分號 (;) 分隔.
每條url,比如http://127.0.0.1/dict/my.txt ,該請求只需滿足以下兩點即可完成分詞熱更新:
1)響應需要返回兩個頭部(header),一個是Last-Modified,一個是ETag,這兩者都是字符串類型,只要有一個發生變化,該插件就會去抓取新的分詞進而更新詞庫。
2)返回的內容格式是一行一個分詞,換行符用\n
即可。
滿足上面兩點要求可實現熱更新分詞,不需要重啟 ES 實例。
可以將需自動更新的熱詞放在一個 UTF-8 編碼的 .txt 文件里,放在 nginx 或其他簡易 http server 下,當 .txt 文件修改時,http server 會在客戶端請求該文件時自動返回相應的 Last-Modified 和 ETag,或者可以另外做一個工具來從業務系統提取相關詞匯,并更新這個 .txt 文件。
http server的方式比較簡單 下面舉一個通過SpringMVC響應的方式的實現
// 字典文件所在文件路徑 private static final String EXT_DICT_PATH = "/data/soft/mydic"; @RequestMapping(value="/getCustomDict.htm") public void getCustomDict(HttpServletRequest request, HttpServletResponse response){ try { // 讀取字典文件 String path = EXT_DICT_PATH; File file = new File(path); String content = ""; if(file.exists()){ // 讀取文件內容 FileInputStream fi = new FileInputStream(file); byte[] buffer = new byte[(int) file.length()]; int offset = 0, numRead = 0; while (offset < buffer.length && (numRead = fi.read(buffer, offset, buffer.length - offset)) >= 0) { offset += numRead; } fi.close(); content = new String(buffer, "UTF-8"); } // 返回數據 OutputStream out= response.getOutputStream(); // Head需要帶上 Last-Modified ETag 屬性 // 此處是輸出的文件內容大小,不一定是這個樣子,只要保證當文件發生變化時,Last-Modified和ETag也是變化的就OK ,比如也可以是文件的MD5 response.setHeader("Last-Modified", String.valueOf(content.length())); response.setHeader("ETag",String.valueOf(content.length())); response.setContentType("text/plain; charset=utf-8"); out.write(content.getBytes("utf-8")); out.flush(); logger.info(content+"這是讀取數據值"); } catch (Exception e) { e.printStackTrace(); } }
“怎么實現ES IK分詞器添加遠程詞組”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。