-
百萬次調(diào)用!合合信息破解表格識別難題
2022/10/8 20:54:31 來源:財訊網(wǎng) 【字體:大 中 小】【收藏本頁】【打印】【關(guān)閉】
核心提示:表格大小、種類與樣式復(fù)雜多樣,例如表格中存在不同的背景填充,不同的行列合并方法,不同的內(nèi)容文本類型等。表格大小、種類與樣式復(fù)雜多樣,例如表格中存在不同的背景填充,不同的行列合并方法,不同的內(nèi)容文本類型等。并且現(xiàn)有文檔既包括現(xiàn)代的、電子的文檔,也有歷史的、掃描的手寫文檔,它們的文檔樣式、所處光照環(huán)境以及紋理等都有比較大的差異。因此,表格識別一直是文檔識別領(lǐng)域的研究難點。好在,合合信息智能文字識別技術(shù)讓高精度表格識別成為現(xiàn)實。在16年領(lǐng)域深耕中,合合信息智能文字識別技術(shù)覆蓋了圖片、PDF格式文檔中多種類的表格識別需求,包括有線表,三線表,無線表等,并且支持合并單元格、多表格并存等復(fù)雜情況的識別。
基于分治思想,合合信息引入深度學(xué)習(xí)技術(shù),將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術(shù)方案還原有線表,在財報相關(guān)表格識別測試中,有線表識別單元格結(jié)構(gòu)準(zhǔn)確率高于98%。無線表識別則采用序列模型、規(guī)則匹配等方案,通過自研模型直接預(yù)測表格的邏輯結(jié)構(gòu),再得到表格的物理結(jié)構(gòu),在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準(zhǔn)確率較傳統(tǒng)方法顯著提升。
現(xiàn)階段,合合信息智能文字識別技術(shù)中的表格識別技術(shù)已被應(yīng)用于以“掃描全能王”為代表的C端APP中,通過“文件轉(zhuǎn)換excel”功能服務(wù)于大眾生活和辦公需求。近半年來,“文件轉(zhuǎn)換excel”相關(guān)功能累計被調(diào)用百萬次。
B端領(lǐng)域中,作為合合信息智能文字識別引擎中的重要模塊,表格識別技術(shù)已落地在保險、銀行、證券等行業(yè)中,應(yīng)用于合同、銀行流水、物流單據(jù)識別等多個場景。
據(jù)悉,合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),從2006年創(chuàng)立至今,堅持深耕智能文字識別應(yīng)用及商業(yè)大數(shù)據(jù)核心技術(shù)領(lǐng)域,通過C端、B端產(chǎn)品以及行業(yè)解決方案,為全球百余個國家和地區(qū)的億級用戶及近30個行業(yè)的企業(yè)客戶提供創(chuàng)新的數(shù)字化、智能化服務(wù)。
近三年來,合合信息先后在ICDAR、ICPR等人工智能國際競賽中斬獲15項冠軍,學(xué)術(shù)成果在CVPR、AAAI、ACL、ACM MM等頂會上發(fā)表,相關(guān)項目獲中國圖象圖形學(xué)學(xué)會(CSIG)科技進步獎二等獎。在今年8月的CSIG圖像圖形技術(shù)挑戰(zhàn)賽中,合合信息參與的賽隊奪得總冠軍。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,郵箱:cidr@chinaidr.com。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行


