您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關TableBank如何理解,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
TableBank:高質量的標注表格數據集
雖然人類在視覺上可以很容易地判斷出一個表格,但由于表格的布局、樣式多種多樣,對于機器而言判斷“何為表格”以及表格中內容之間的關系卻并不容易。傳統的基于規則的表格識別方式,一旦換一份文檔就需要大量在文檔后臺的手工操作;而現有的機器學習方法,又無法獲得大量有效的標注數據,很難支持實際場景中的應用。于是,TableBank應運而生。
TableBank是一個表格檢測與識別的數據集,基于公開的、大規模的Word文檔和LaTex文檔,通過弱監督方法創建而來。與傳統的弱監督訓練集不同,TableBank不僅數據質量高,而且數據規模比之前的人工標記的表格分析數據集大幾個數量級,其表格數據量達到了41.7萬。
然而要讓機器讀懂表格,首先要能夠從文檔中識別哪些是表格,隨后再去識別表格區域內的信息。
看完上述內容,你們對TableBank如何理解有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。