-
合合信息突破“版面分析”技術難點,提升智能文檔處理識別精度
2023/4/27 15:26:09 來源:新華報業網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:在數字化時代,越來越多的文檔正在被拍照、掃描成電子文檔,但這個過程中時常出現漏字、錯位等問題,這些問題的背后原因,是一個看似“冷門”的技術點——版面分析。在數字化時代,越來越多的文檔正在被拍照、掃描成電子文檔,但這個過程中時常出現漏字、錯位等問題,這些問題的背后原因,是一個看似“冷門”的技術點——版面分析。版面分析是文檔識別技術的重要環節,它可以幫助確定文檔中的文字位置、字體、大小和排版方式等信息。然而,由于版面復雜多變、文本內容多樣化等原因,版面分析技術仍存在著一系列的難題和挑戰。
為了解決以上問題,合合信息持續突破版面分析技術在版面分割、區域間的邏輯關系處理等方面的難題,通過智能文字識別、智能圖像處理等核心技術,助力使用者從各類復雜的圖片文檔中精準獲取信息。
從上世紀80年代開始,較多專門研究版面分析的工作成果開始涌現,此后經歷了多番理念方法迭代。傳統的版面分析方法在進行版面布局分析和表格處理時會明顯受制于版式差異,在應對不同場景下的文檔圖片時泛化效果存在缺陷,而深度神經網絡的引入有效解決了這些問題。
合合信息技術人員在采訪中提到,得益于全卷積神經網絡(FCN)和圖神經網絡(GNN) 的突破,文檔版面分析的方法和性能得到了很大發展。公司基于深度學習的方法,結合文本區域的幾何坐標、視覺特征、文本語義等多種模態信息對文本閱讀順序進行預測,顯著提升分類結果。
同時,合合信息表格結構解析方法在邏輯版面分析中也發揮了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端圖像到標記的方法等。在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%;無線表識別中,在保證表格區域內容的完整性的同時,檢測準確率較傳統方法顯著提升。
合合信息智能文字識別服務平臺對存在圖片、表格的復雜文檔進行識別
目前,版面分析與OCR技術的結合在教育、商務和文化保護領域有著廣泛的應用價值。它能自動識別和提取各種文檔中的文本、圖像、公式、表格等元素,幫助實現數字化處理和數據分析,簡化相關工作流程。
然而,目前對于復雜版面文檔和拍照變形文檔的分析識別仍存在性能不足的問題,需要更多研究機構和科技企業的共同努力推動技術的理論研究和應用突破。合合信息將繼續致力于版面分析相關技術的研究和開發,不斷提高技術性能,為各領域的數字化處理和數據分析提供更加高效、準確的解決方案。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:[email protected]。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行
- 慧博科技「抖音互動2.0」全新升級!618大促拉新、復購、轉化一鍵閉環,引爆抖音店鋪銷量
- 中糧餐飲美食地圖青島站發布團膳油新品,為行業提供健康用油的定制化解決方案
- 10萬公里、1947億元、3.5億噸……多領域“硬核”成績單支撐經濟發展穩步向前
- 5月13日晚8點京東心動購物季開啟 家電家居以舊換新“補上加補”
- “四好農村路”帶火“鄉村游” “白加黑”多業態融合點亮鄉村旅游新消費
- 調味品開啟“鹽值”調控
- 值得買消費產業研究院發布《2025年一季度消費數據報告》:提振消費、場景賦能、品質升級
- 從零食品牌到社區生活樞紐,故事良品省錢超市開啟零售新篇
- 中寧枸杞:千年道地瑰寶,一“杞”奔赴未來
- 2025長三角應急展會丨CTRLPA肯卓 推動聲防技術替代傳統預警技術