電 話:18937133779
網(wǎng) 址:http://www.gycxdjzzl.com
郵 箱:zboao@qq.com
2019年12月16日,檔案行業(yè)標(biāo)準(zhǔn)《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》(DA/T 77—2019)(以下簡(jiǎn)稱《規(guī)范》)由國(guó)家檔案局正式發(fā)布,并將于2020年5月1日起實(shí)施?!兑?guī)范》規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作的組織、實(shí)施和管理要求,確定了開展檔案OCR工作的總體原則、工作流程、質(zhì)量規(guī)定等內(nèi)容,尤其是對(duì)歸檔章、文件處理單、公章等具有檔案特征的內(nèi)容提出了識(shí)別要求,并明確評(píng)價(jià)指標(biāo),對(duì)于引導(dǎo)并規(guī)范檔案OCR工作、進(jìn)一步提升檔案信息化工作水平具有重要意義。
一、編制背景
檔案OCR是指通過信息技術(shù)對(duì)紙質(zhì)檔案數(shù)字圖像文件中的字符形狀進(jìn)行識(shí)別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。一方面,檔案OCR是檔案信息化工作的重要內(nèi)容。隨著紙質(zhì)檔案數(shù)字化的普遍開展和電子檔案管理的日漸成熟,檔案OCR對(duì)于運(yùn)用電子檔案管理思路推動(dòng)紙質(zhì)檔案管理、實(shí)現(xiàn)紙質(zhì)檔案與電子檔案融合管理具有很強(qiáng)的現(xiàn)實(shí)意義。同時(shí),檔案OCR是檔案從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)化的重要步驟,是檔案數(shù)據(jù)化工作的重要環(huán)節(jié)。另一方面,檔案OCR也是提升檔案工作水平的重要手段。《規(guī)范》第9.2條明確了OCR成果應(yīng)用的3個(gè)場(chǎng)景,即通過數(shù)字檔案館(室)應(yīng)用系統(tǒng)實(shí)現(xiàn)全文檢索,提高檔案信息檢索效率;輔助開展檔案自動(dòng)著錄、目錄質(zhì)量核查,以及紙質(zhì)檔案數(shù)字復(fù)制件掛接準(zhǔn)確性核查等業(yè)務(wù)工作;結(jié)合數(shù)據(jù)挖掘技術(shù)開展數(shù)據(jù)分析、知識(shí)管理、詞庫(kù)建設(shè)等工作,提出了檔案OCR工作在推動(dòng)檔案工作方面的重要價(jià)值。
《規(guī)范》列入2016年檔案行業(yè)標(biāo)準(zhǔn)制修訂項(xiàng)目計(jì)劃,由國(guó)家檔案局檔案館(室)業(yè)務(wù)指導(dǎo)司、青島市檔案館起草。2017年2月,形成標(biāo)準(zhǔn)征求意見稿,向各地、各部門征求并采納意見后形成標(biāo)準(zhǔn)送審稿。2017年4月,標(biāo)準(zhǔn)送審稿通過專家評(píng)審。2019年5月,標(biāo)準(zhǔn)送審稿提交檔標(biāo)會(huì)審查通過。
二、工作思路
檔案OCR不是一項(xiàng)孤立的工作,需要與數(shù)字檔案館(室)建設(shè)、檔案數(shù)字化工作等切結(jié)合起來實(shí)施,并遵循以下工作原則:一是檔案OCR應(yīng)當(dāng)納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?,逐步?shí)現(xiàn)常態(tài)化。二是檔案OCR應(yīng)當(dāng)科學(xué)開展,以有利于實(shí)現(xiàn)檔案信息檢索和計(jì)算機(jī)輔助編目、編研開發(fā)、數(shù)據(jù)挖掘?yàn)樵瓌t。三是檔案OCR應(yīng)當(dāng)基于檔案數(shù)字化工作,檔案OCR成果與紙質(zhì)檔案數(shù)字復(fù)制件之間應(yīng)建立準(zhǔn)確、可靠的關(guān)聯(lián)關(guān)系。四是應(yīng)當(dāng)采取有效的管理和技術(shù)手段,加強(qiáng)檔案OCR過程管理和質(zhì)量控制,確保檔案OCR過程規(guī)范、成果可靠、數(shù)據(jù)安全。五是紙質(zhì)檔案數(shù)字復(fù)制件的OCR工作,應(yīng)符合檔案相關(guān)管理和技術(shù)要求。
三、工作組織
檔案OCR工作組織主要包括機(jī)構(gòu)及人員、流程控制、工作文件與元數(shù)據(jù)要求等。
(1)機(jī)構(gòu)及人員要求
檔案OCR工作要求建立機(jī)構(gòu)配備相應(yīng)素質(zhì)和技術(shù)水平的工作人員,組織開展檔案OCR工作的統(tǒng)籌規(guī)劃、組織實(shí)施、協(xié)調(diào)管理、技術(shù)保障、安全保障、監(jiān)督檢查、成果驗(yàn)收和長(zhǎng)期保存等?!兑?guī)范》建議與紙質(zhì)檔案數(shù)字化工作統(tǒng)籌配置工作機(jī)構(gòu)和人員。檔案OCR工作實(shí)行服務(wù)外包的,應(yīng)從企業(yè)性質(zhì)、股東組成、安全保、企業(yè)規(guī)模、注冊(cè)資金情況等方面嚴(yán)格審查檔案OCR服務(wù)供方的相關(guān)資質(zhì);從規(guī)章制度的建立健全程度等方面考察服務(wù)供方的管理能力,建立權(quán)責(zé)明確、覆蓋工作全過程的監(jiān)督機(jī)制和安全防范機(jī)制,確保檔案信息安全。對(duì)外聘的工作人員,應(yīng)進(jìn)行安全審查,按規(guī)定進(jìn)行保教育。
(2)流程控制要求
應(yīng)依據(jù)相關(guān)技術(shù)標(biāo)準(zhǔn),對(duì)檔案OCR圖像導(dǎo)入、圖像預(yù)處理、比對(duì)識(shí)別、修改校正、成果整理輸出等業(yè)務(wù)環(huán)節(jié)全過程進(jìn)行有效控制。應(yīng)加強(qiáng)對(duì)檔案OCR工作全流程的質(zhì)量管理和安全管理,建立完善的質(zhì)量、安全問題發(fā)現(xiàn)、修正機(jī)制,確保OCR成果質(zhì)量和檔案信息安全。
(3)工作文件與元數(shù)據(jù)要求
應(yīng)建立檔案OCR工作方案、技術(shù)方案、工作審批材料、流程控制材料、數(shù)據(jù)驗(yàn)收材料、項(xiàng)目驗(yàn)收?qǐng)?bào)告、成果移交材料等管理工作文件,采取服務(wù)外包的還應(yīng)包括項(xiàng)目招標(biāo)文件、投標(biāo)文件、中標(biāo)通知書、項(xiàng)目合同、保協(xié)議、操作規(guī)程、監(jiān)管記錄等,加強(qiáng)對(duì)檔案OCR工作的管理。應(yīng)參照相關(guān)標(biāo)準(zhǔn),提出檔案OCR工作流程中相關(guān)元數(shù)據(jù)設(shè)計(jì)、捕獲、著錄和管理的基本要求,與對(duì)應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件管理過程元數(shù)據(jù)實(shí)施融合管理,并納入數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)。
四、工作流程
檔案OCR主要包括圖像導(dǎo)入、圖像預(yù)處理、比對(duì)識(shí)別、修改校正、成果整理輸出5個(gè)業(yè)務(wù)環(huán)節(jié)。其中,圖像預(yù)處理包括二值化、圖像降噪、傾斜校正、圖像監(jiān)測(cè)。對(duì)比識(shí)別包括版式分析、檔案特征分析、識(shí)別與匹配。成果整理輸出包括成果整理、成果輸出、成果驗(yàn)收等(如圖所示)。《規(guī)范》規(guī)定的是較為傳統(tǒng)的OCR工作流程,有條件的也可以運(yùn)用機(jī)器學(xué)習(xí)(ML)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等技術(shù)開展OCR工作。
在5個(gè)業(yè)務(wù)環(huán)節(jié)中,比對(duì)識(shí)別是關(guān)鍵環(huán)節(jié),《規(guī)范》要求針對(duì)檔案特征進(jìn)行分析、識(shí)別和匹配。其主要內(nèi)容包括:
檔案OCR工作流程圖
(1)歸檔章分析
要求建立歸檔章式樣庫(kù),自動(dòng)識(shí)別圖像中的歸檔章,并根據(jù)歸檔章樣式,識(shí)別出全宗號(hào)、年度、機(jī)構(gòu)、保管期限、件號(hào)、頁數(shù)等字段位置。
(2)公文要素分析
要求建立公文格式庫(kù),可準(zhǔn)確識(shí)別公文的版頭、主體、版記3部分,識(shí)別公章、簽章等區(qū)域,比照公文樣式,識(shí)別公文正本的級(jí)和保期限、緊急程度、發(fā)文字號(hào)、簽發(fā)人、標(biāo)題、主送機(jī)關(guān)、正文、附件說明、發(fā)文機(jī)關(guān)署名、成文日期、附注、附件、抄送機(jī)關(guān)等公文要素,但份號(hào)、發(fā)文機(jī)關(guān)標(biāo)志、印章、簽發(fā)人簽名章、印發(fā)機(jī)關(guān)和印發(fā)日期、頁碼等公文要素不需要識(shí)別。
(3)表格分析
要求建立單獨(dú)表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識(shí)別表格中的字段位置。對(duì)于文件處理單或發(fā)文稿紙,要求識(shí)別起草人、簽發(fā)人、起草時(shí)間、簽發(fā)時(shí)間、閱辦意見、批辦意見、辦理結(jié)果等內(nèi)容。
(4)印章分析
要求識(shí)別印章圖像位置,存儲(chǔ)印章圖像,建立印章名稱與印章圖像的關(guān)系庫(kù),用于版式恢復(fù)。
五、質(zhì)量規(guī)定
《規(guī)范》從識(shí)別準(zhǔn)確率、強(qiáng)抗噪能力、識(shí)別速度、版面還原度4個(gè)方面對(duì)檔案OCR質(zhì)量提出了要求(如表所示)。需要特別說明的是,在檔案OCR質(zhì)量要求中,識(shí)別速度指標(biāo)與識(shí)別準(zhǔn)確率指標(biāo)應(yīng)當(dāng)同時(shí)適用。
六、成果要求
(1)成果形式
《規(guī)范》要求,檔案OCR成果應(yīng)同時(shí)保存為純文本形式和雙層PDF/OFD文件形式。保存純文本形式的,應(yīng)以紙質(zhì)檔案的件或頁為單位輸出檔案OCR成果,即紙質(zhì)檔案數(shù)字復(fù)制件保存為一個(gè)文件的,檔案OCR成果保存為一個(gè)TXT文件;紙質(zhì)檔案數(shù)字復(fù)制件按收發(fā)文處理單、正文、定稿等保存為多個(gè)文件的,檔案OCR成果分別保存多個(gè)TXT文件;紙質(zhì)檔案數(shù)字復(fù)制件按頁保存為多個(gè)文件的,檔案OCR成果每頁保存一個(gè)TXT文件。保存為雙層PDF/OFD的,應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復(fù)制件版式文件格式,自動(dòng)形成支持全文檢索的雙層PDF或OFD文件。
(2)保存要求
《規(guī)范》要求,以純文本形式保存的檔案OCR成果應(yīng)使用檔號(hào)作為文件名,可在存儲(chǔ)載體中以按照檔號(hào)構(gòu)成項(xiàng)逐級(jí)建立文件夾單獨(dú)保存,也可與紙質(zhì)檔案數(shù)字復(fù)制件統(tǒng)一保存。支持全文檢索的雙層PDF或OFD文件可與對(duì)應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件統(tǒng)一存儲(chǔ)。對(duì)于檔案OCR成果中的黨政機(jī)關(guān)公文要素,應(yīng)按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)中。
作者單位:國(guó)家檔案局
文章來源:《中國(guó)檔案》2020年第2期
圖表來源:作者提供
(全國(guó)總部)河南省鄭州市金水區(qū)博雅廣場(chǎng)4號(hào)樓1104
+18937133779
zboao@qq.com
中博奧技術(shù)有限公司& 版權(quán)所有
工信部備案號(hào):豫ICP備11015869號(hào)-8