智慧檔案管理與大數(shù)據(jù)解決方案的領(lǐng)航者,讓信息價值超越期待
電 話:18937133779
網(wǎng) 址:http://www.gycxdjzzl.com
郵 箱:zboao@qq.com
濟南市別稱泉城,是我國山東省下轄地級市,山東省省會、國家歷史文化名城,環(huán)渤海地區(qū)南翼的中心城市。作為國家歷史文化名城和旅游勝地,濟南市積累了較為豐富的檔案資源,并積極開展檔案數(shù)字化掃描轉(zhuǎn)型工作。
濟南檔案掃描服務(wù)過程中,光學(xué)字符識別(OCR)是其中一項非常重要的步驟,是數(shù)字化檔案后續(xù)管理、利用和快速檢索定位的基礎(chǔ)。因此,做好OCR工作十分重要。
傳統(tǒng)OCR 工作的不足:
一是傳統(tǒng)OCR處理流程的工序太多,且多串行,導(dǎo)致錯誤不斷被傳遞放大。如,在OCR處理流程中,假如每一步都是90%的正確率,看似很高,但是經(jīng)過5步的錯誤疊加之后,結(jié)果就已經(jīng)不合格了。
二是傳統(tǒng)OCR處理流程涉及較多人工設(shè)計,并不一定能夠抓住問題的本質(zhì)。例如,在文字的二值化這一預(yù)處理過程中,二值化的閾值在一些情況下很難調(diào)整好。由于這個模型的復(fù)雜度較低且無法充分?jǐn)M合全部數(shù)據(jù),在實際處理過程中不得不過濾掉很多有用的信息。
三是在一些背景稍微復(fù)雜或者存在變體文字的情況下,傳統(tǒng)OCR基本會失效,處理模型的適應(yīng)性較弱。版面分析以及行切分的方式只能處理相對簡單的場景,一旦面臨復(fù)雜排版等情況,就很難實現(xiàn)準(zhǔn)確處理。
四是對單字的識別,傳統(tǒng)OCR無法考慮到上下文的語義關(guān)聯(lián)。為了解決這個問題,傳統(tǒng)OCR進行了很多組合,如,對識別的結(jié)果進行動態(tài)路徑搜索。在路徑尋優(yōu)過程中,經(jīng)常需要結(jié)合文字的外觀特征以及語言模型進行處理,存在較多的耦合,導(dǎo)致在識別系統(tǒng)中堆砌了較多的算法。即便如此,傳統(tǒng)OCR也存在很多無法處理的問題,如,手寫字體等存在較多的筆畫粘連,傳統(tǒng)OCR很難進行切分。
人工智能OCR技術(shù)還能應(yīng)用于具有多樣性和復(fù)雜性的識別場景。如,不同大小、字體、顏色、亮度、對比度的文字,排列和對齊方式不相同的文字,圖像的非文字區(qū)域與文字區(qū)域存在相似的紋理,低對比度、模糊斷裂、殘缺文字等。因此,人工智能OCR不僅能應(yīng)用于文檔的識別,還可應(yīng)用于自然場景文字圖像的識別。此外,人工智能OCR還能提高工作效率、節(jié)省大量成本。
基于此,將人工智能OCR應(yīng)用在檔案工作中,具有重要的作用和意義,必將成為支撐檔案行業(yè)數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新的重要基礎(chǔ)。
人工智能OCR工作流程主要包括圖像輸入、文本檢測、文本識別、人工確認(rèn)、人工干預(yù)等。
首先,將需要識別的紙質(zhì)檔案數(shù)字化副本圖像單個或批量導(dǎo)入OCR系統(tǒng)中。
其次,進行文本檢測。文本檢測主要是定位文字在數(shù)字圖像中的位置,并進行位置標(biāo)注。文本檢測的方法主要有基于候選框的文本檢測、基于語義分割的文本檢測,以及基于兩種方法的混合方法等?;诤蜻x框的文本檢測是先預(yù)生成若干候選框,之后再回歸坐標(biāo)和分類,最后經(jīng)過NMS(非極大抑制)算法得到最終的檢測結(jié)果;基于語義分割的文本檢測是通過FPN(特征金字塔網(wǎng)絡(luò))直接進行像素級別的語義分割,并處理得到相關(guān)的坐標(biāo)。再次,進行文本識別。文本識別主要是針對定位好的文字區(qū)域,識別文本的具體內(nèi)容,并將圖像中的一串文字轉(zhuǎn)換為對應(yīng)的字符。文本識別的算法可分為基于CTC(連接時序分類)技術(shù)的方法和基于注意力機制的網(wǎng)絡(luò)模型兩大類。其中,基于CTC技術(shù)的方法可以有效地捕獲輸入序列的下文依賴關(guān)系,同時能夠很好地解決圖像和文本字符對不齊的問題,但在自由度較大的手寫場景下會出現(xiàn)識別錯誤?;谧⒁饬C制的網(wǎng)絡(luò)模型主要應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)特征權(quán)重的分配上,并提高強特征的權(quán)重、降低弱特征的權(quán)重,在由圖像到文字的解碼過程中有天然的語義捕獲能力。
然后,進行人工確認(rèn)。對OCR識別后的結(jié)果進行確認(rèn),判斷是否出錯。在人工確認(rèn)過程中,可以采用后期批量處理等靈活性較強的方式。
最后,進行人工干預(yù),修正OCR識別結(jié)果中可能存在的錯誤。
綜上所述,濟南檔案掃描服務(wù)的廣泛應(yīng)用,標(biāo)志著檔案管理從傳統(tǒng)紙質(zhì)模式向現(xiàn)代化、智能化模式的轉(zhuǎn)變。通過專業(yè)的掃描技術(shù)和規(guī)范的整理流程,檔案信息得以高效存儲、快速檢索和安全共享,極大地提升了檔案管理的效率和安全性。未來,隨著人工智能、大數(shù)據(jù)分析、云計算等前沿技術(shù)的不斷融入,檔案掃描服務(wù)將更加智能化、高效化。