淺談機器翻譯的兩種工作原理

發布時間：2020-08-13 16:51:09 來源：ITPUB博客閱讀：400 作者：數據星河欄目：互聯網科技

機器翻譯（MT）即是自動翻譯，是使用計算機軟件將文本從一種自然語言翻譯成另一種語言的過程。

淺談機器翻譯的兩種工作原理

無論是人工翻譯還是機器翻譯，必須在目標語言即翻譯中完全恢復源語言中文本的含義。雖然從表面上看這似乎很簡單，但實際要復雜得多。翻譯不僅僅是逐字替換，翻譯人員必須解釋和分析文本中的所有元素，并了解單詞之間的關系。這需要在源語言和目標語言中具備語法（句子結構）、語義（含義）等方面的廣泛專業知識，以及對每個語言區域十分熟悉。

人工翻譯，機器翻譯各具挑戰。例如，任何兩個獨立的翻譯者對同一語言的相同文本，并不能生成一致的翻譯，翻譯完后可能需要幾輪修訂才能滿足客戶。顯然，機器翻譯更難生產出讓客戶滿意度高的高質量翻譯。

基于規則的機器翻譯技術

基于規則的機器翻譯依賴于無數的內置語言規則，及每對語言的數百萬雙語詞匯。

這種技術解析文本，并創建一種過渡表達，從中生成目標語言中的文本。這個過程需要廣泛的詞義，包括形態、句法和語義信息以及大量規則。該技術使用這些復雜的語法集，然后將源語言的語法結構轉換為目標語言。

淺談機器翻譯的兩種工作原理

“曲線救國“的基于規則MT?

翻譯建立在巨大的詞匯量和復雜的語法規則之上。用戶可以通過在翻譯過程中添加術語來提高翻譯質量。用戶可以自定義詞匯量，覆蓋系統的默認設置。

大多數情況下有兩個步驟：公司初始投資以有限的成本顯著提高質量，持續投資以逐步提高質量。雖然基于規則的MT使公司達到質量門檻以及更高，但質量改進過程可能是漫長且昂貴的。

統計機器翻譯技術

統計機器翻譯利用統計翻譯模型，其參數源于對單語和雙語語料庫的分析。構建統計翻譯模型是一個快速的過程，但該技術在很大程度上依賴于現有的多語言語料庫。特定語言至少需要200萬個單詞，一般語言需要更多。從理論上講，有可能達到質量門檻，但大多數公司沒有如此大量的現有多語言語料庫來構建必要的翻譯模型。此外，統計機器轉換是CPU密集型的，并且需要廣泛的硬件配置來運行平均性能級別的轉換模型。

基于規則MT與統計MT對比

基于規則的MT提供了良好的域外質量，并且本質上是可預測的。可定制詞匯確保了提高質量并符合公司術語。但翻譯結果可能缺乏讀者期望的流暢性。在成本方面，達到質量閾值所需的定制周期可能很長且成本高。

淺談機器翻譯的兩種工作原理

統計MT在大型語料庫可用時能提供良好的質量。翻譯流暢，易讀性高，因此符合用戶的期望。但是，翻譯既不可預測也很難前后一致。優秀語料庫是自動生成且便宜的。但是對一般語言語料庫的培訓，即指定域以外的文本，效果堪憂。此外，統計MT需要大量硬件來構建和管理大型翻譯模型。

本文轉載自數據星河平臺：https://www.bdgstore.com.cn/portal/article/index/id/167.html

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

淺談機器翻譯的兩種工作原理

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

淺談機器翻譯的兩種工作原理

猜你喜歡

最新資訊

相關推薦

相關標簽