電 話:18937133779
網(wǎng) 址:http://www.gycxdjzzl.com
郵 箱:zboao@qq.com
鍵盤錄入語音識(shí)別輸入光學(xué)字符識(shí)別輸入。用數(shù)字鍵盤輸入文字信息的辦法。
鍵盤錄入。選定我們要處理的單元格,再點(diǎn)擊菜單欄里的數(shù)值,找到數(shù)值點(diǎn)小三角,從下拉選項(xiàng)中找到文本轉(zhuǎn)數(shù)字,就完成了。
文字信息處理的實(shí)質(zhì),是先把文字信息數(shù)字化,即用一個(gè)固定的數(shù)碼代表一個(gè)字母或文字。例如,在英文信息中,以26個(gè)字母作為文字信息處理的單位,因此要對(duì)26個(gè)字母逐個(gè)地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個(gè)整字作為文字信息處理的單位,因此要對(duì)每一個(gè)整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計(jì)算機(jī)內(nèi)部處理文字信息時(shí),就像處理數(shù)據(jù)一樣對(duì)待。處理完畢后,再把替代的數(shù)碼還原成相應(yīng)的字母或文字。利用計(jì)算機(jī)能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計(jì)算機(jī)技術(shù)的這一獨(dú)特優(yōu)點(diǎn),從而實(shí)現(xiàn)文字信息處理的高效化。
計(jì)算機(jī)之所以能有較高的運(yùn)算和處理能力,是由于它利用了電子處理技術(shù)以及二進(jìn)制數(shù)運(yùn)算這一法則。計(jì)算機(jī)中的運(yùn)算器,利用半導(dǎo)體器件的兩個(gè)狀態(tài)(通和斷)的變化,代表二進(jìn)制數(shù)字串中的一個(gè)二進(jìn)制數(shù)位上的“1”或“0”的變化,從而能夠高速地執(zhí)行二進(jìn)制數(shù)的數(shù)值或邏輯運(yùn)算。實(shí)際上,計(jì)算機(jī)無論做數(shù)值的或任何種類信息的運(yùn)算或處理,最基本的運(yùn)算操作就是這種二進(jìn)制數(shù)的演算。
一、文字資料數(shù)字化原則
現(xiàn)存的航空物探資料是中心開展航空物探50年來勘查和科研成果的積累,真實(shí)記錄了中心航空物探技術(shù)進(jìn)步和發(fā)展歷程,反映了航空物探在地質(zhì)找礦等方面的先行作用和突出貢獻(xiàn)。為實(shí)現(xiàn)航空物探資料的信息化管理和永久利用,擴(kuò)大航空物探服務(wù)領(lǐng)域,航空物探文字資料數(shù)字化和信息化原則是“尊重歷史,忠實(shí)原著,保持原貌,統(tǒng)一要求,加強(qiáng)監(jiān)控,確保質(zhì)量”。
二、文字資料數(shù)字化流程
航空物探資料文字資料數(shù)字化是把航空物探勘查和科研項(xiàng)目紙質(zhì)文字資料錄入成電子文檔,同時(shí)把手寫、油印的文字資料掃描成圖像格式保存,并編寫項(xiàng)目成果簡介(圖8-5)。
圖8-5 文字資料數(shù)字化流程圖
三、文字資料數(shù)字化方法
文字資料數(shù)字化實(shí)質(zhì)是對(duì)中心現(xiàn)存的航空物探勘查和科研成果報(bào)告采用掃描識(shí)別和人工錄入兩種方法輸入計(jì)算機(jī)中,并按航空物探信息系統(tǒng)規(guī)定的格式和版式重新編輯,形成Word文檔(DOC格式)和Adobe Acrobat文檔(PDF格式)以滿足入庫要求。
(一)文字資料介質(zhì)質(zhì)量分類
為采取合理的數(shù)字化方法進(jìn)行文字資料數(shù)字化,通過對(duì)中心庫存的文字資料進(jìn)行較詳細(xì)的調(diào)查,按紙質(zhì)資料介質(zhì)質(zhì)量好壞、字跡和插圖清晰程度等將639份勘查和科研成果文字資料(報(bào)告)劃分為較差、中等、較好、良好4類(表8-4)。其中,1973年前資料均較差,較差和中等質(zhì)量的資料都出現(xiàn)在20世紀(jì)80年代中期以前。20世紀(jì)80年代中期以后的項(xiàng)目資料質(zhì)量均屬較好和良好。
表8-4 文字資料介質(zhì)質(zhì)量分類統(tǒng)計(jì)表
(二)文字資料數(shù)字化方法
以資料分類為基礎(chǔ),根據(jù)文字資料數(shù)字化原則,確定了文字資料數(shù)字化具體方法。
1.人工錄入法
由于較差和中等類資料多數(shù)是手寫、復(fù)寫或油印本,少數(shù)是鉛印本;存放時(shí)間長,幾經(jīng)輾轉(zhuǎn)搬遷,破損嚴(yán)重,字跡模糊;無法采用掃描、識(shí)別方法輸入,只能人工錄入。對(duì)錄入工作提出了具體要求,以保證人工錄入質(zhì)量。
2.掃描識(shí)別輸入法
較好和良好類資料都是正規(guī)鉛印或Word文檔(DOC格式)印刷出版,字跡清晰,可用掃描識(shí)別方法予以輸入,與人工錄入方法相比效率較高。
人工錄入、編輯航空物探勘查項(xiàng)目文字報(bào)告608份,約2739.6751萬字;人工錄入、編輯航空物探科研項(xiàng)目文字306份,約839.0241萬字。
為了保證中心資料獲得長久保存,同時(shí)對(duì)已人工錄入的全部較差和中等類617份約9719頁的文字資料(其中,勘查115份,約3240頁;科研502份,約6479頁)進(jìn)行了掃描輸入,以PDF格式直接刻制光盤保存。
四、校對(duì)和檢查
文字資料由人工錄入或掃描識(shí)別,經(jīng)自檢形成的Word電子文檔全部校樣必須通過二校和部分三?;虺闄z,才能進(jìn)入編輯排版,最終生成統(tǒng)一的DOC格式的Word文檔。
由于歷史原因,在早期原稿(包括文字和插圖)中存在著其他一些錯(cuò)誤或不規(guī)范等現(xiàn)象。在保持原稿真實(shí)性的前提下,盡可能地在校樣中對(duì)問題予以糾正和變通處理,有些則因本身遺漏或模糊無法彌補(bǔ),留下空缺。按原文字資料所附的勘誤表對(duì)文字逐一進(jìn)行了更正,原有勘誤表基本已失去存在意義了。
五、插圖掃描矢量化
使用MapGIS軟件對(duì)原文字報(bào)告中的測區(qū)示意圖、剖面圖、地質(zhì)解釋圖等1260幅插圖按照原插圖進(jìn)行矢量化,原插圖比例尺使用數(shù)字比例尺表示的換算成線性比例尺,單剖面圖加上剖面比例尺,統(tǒng)一了地質(zhì)圖中的地質(zhì)符號(hào)等,提高文字報(bào)告的插圖質(zhì)量(圖8-6)。
六、編輯排版
除勘查項(xiàng)目與科研項(xiàng)目文字報(bào)告在內(nèi)容上客觀存在的不同外,既使是同一類報(bào)告在報(bào)告內(nèi)容、排版編輯上也都有較大的差別。這是航空物探技術(shù)進(jìn)步必然的反映,也與以往文字資料缺乏統(tǒng)一標(biāo)準(zhǔn)和要求有關(guān)。在本次文字資料數(shù)字化過程中,根據(jù)項(xiàng)目統(tǒng)一要求,便于計(jì)算機(jī)管理和服務(wù),在保持報(bào)告內(nèi)容不變的前提下,將所有錄入的文字成果報(bào)告采用Word編輯排版軟件按規(guī)定的編輯模版自動(dòng)生成目錄,并在報(bào)告封面等形式上力求做到統(tǒng)一(校樣最終稿與原稿在報(bào)告封面、目錄級(jí)別、插圖和頁碼位置等方面都存在著差別,但報(bào)告內(nèi)容沒有改變)。按此要求完成了799份約47645頁文字資料的排版工作,并把文字資料格式由DOC格式轉(zhuǎn)換為PDF格式。
圖8-6a 矢量化前的插圖
圖8-6b 矢量化后插圖
七、項(xiàng)目簡介編寫
為了使用戶不閱讀項(xiàng)目成果報(bào)告全文,能夠快速地了解該項(xiàng)目概貌,獲得該成果報(bào)告的主要內(nèi)容和信息,按照航空物探信息系統(tǒng)建庫要求,編寫了航空物探勘查和科研項(xiàng)目簡介455份,約28萬字。其中,航空物探勘查成果報(bào)告423份,約26萬字;科研成果報(bào)告32份,約2萬字。以濃縮的形式概括項(xiàng)目成果的主要內(nèi)容,包括工作方法或研究方法、質(zhì)量評(píng)價(jià),取得的主要成果和最終結(jié)論。
多種信息的數(shù)字化不可以采取同一種加工處理方法。多媒體技術(shù)能夠把文本、聲音、圖形、圖像、視頻等信息在計(jì)算機(jī)中進(jìn)行數(shù)字化處理。多媒體技術(shù)是計(jì)算機(jī)技術(shù)融合音頻、視頻和通信技術(shù)的產(chǎn)物。
張海蘭 王瑞紅
(國土資源部實(shí)物地質(zhì)資料中心,北京 101149)
摘要 本文簡要闡述了實(shí)物相關(guān)文本資料數(shù)字化工作的重要性,提出要根據(jù)文本資料原貌選擇掃描方式,依照具體情況進(jìn)行分辨率、亮度和對(duì)比度的調(diào)整。
關(guān)鍵詞 文本資料;數(shù)字化
實(shí)物地質(zhì)資料的相關(guān)資料是成果地質(zhì)資料與原始地質(zhì)資料的原件或復(fù)制件,是說明實(shí)物產(chǎn)生的地質(zhì)背景及其保管價(jià)值的重要材料,是實(shí)物地質(zhì)資料的重要組成部分。
為了適應(yīng)現(xiàn)代化管理與服務(wù)的需要,同時(shí)為了配合實(shí)物地質(zhì)資料數(shù)字化,解決圖文地質(zhì)資料信息長期保存問題,國土資源部實(shí)物地質(zhì)資料中心開展了相關(guān)地質(zhì)資料數(shù)字化工作。實(shí)物地質(zhì)資料相關(guān)的圖文資料包括兩大類:文本資料和圖紙資料,數(shù)字化工作也是針對(duì)這兩部分內(nèi)容而言的。本文僅就資料的數(shù)字化工作進(jìn)行探討。
一、文本資料數(shù)字化工作流程
文本資料數(shù)字化工作是通過掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進(jìn)行文件組織的過程。主要工作過程包括資料準(zhǔn)備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個(gè)方面(見圖1)。
圖1 文本資料數(shù)字化工作流程圖
二、掃描工作方法
1.掃描前的資料準(zhǔn)備工作
做好文本資料的準(zhǔn)備工作是十分必要的。資料的單冊(cè)厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時(shí),可將文本拆開進(jìn)行掃描,掃描工作結(jié)束后再按照檔案管理的標(biāo)準(zhǔn)進(jìn)行重新裝訂。在進(jìn)行若干份單頁的文件掃描時(shí),掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進(jìn)行多頁文件掃描之前,要對(duì)文本資料進(jìn)行去除靜電處理。
2.掃描
(1)選擇掃描方式
對(duì)于文本資料紙質(zhì)較好,又不超過標(biāo)準(zhǔn)A4版面大小的時(shí)候,可以采用專用的多頁文檔掃描儀進(jìn)行滾動(dòng)掃描,以節(jié)省掃描時(shí)間提高工作效率。其他的文本資料使用平板掃描儀逐頁進(jìn)行掃描。
(2)選擇掃描參數(shù)
掃描類型 掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確的選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來確定的。常用文本資料的掃描類型有:黑白二值、RGB、灰階三種。黑白二值方式,當(dāng)文字或表格質(zhì)量都非常高時(shí),采用這種方式掃描,掃描效果較好?;译A方式,當(dāng)文本資料字跡不清楚或是表格時(shí),使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會(huì)斷斷續(xù)續(xù),此時(shí)可選用灰階方式掃描,但這種方式掃描的圖像會(huì)有較多的灰色印跡,需在后期做圖像處理,使圖像達(dá)到最佳效果。RGB方式,對(duì)文本資料中的彩色圖件一般采用這種方式進(jìn)行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,掃描時(shí)可進(jìn)行亮度、對(duì)比度及色度的調(diào)整,通過反復(fù)對(duì)比,使圖件色彩達(dá)到最佳的效果。
參數(shù)選擇 在掃描前進(jìn)行預(yù)掃描,可進(jìn)行掃描分辨率的選擇、亮度和對(duì)比度調(diào)整。掃描分辨率、亮度及對(duì)比度調(diào)整與文本資料的質(zhì)量有一定的關(guān)系,當(dāng)一冊(cè)文本資料質(zhì)量變化不大時(shí),選擇一頁或幾頁進(jìn)行掃描實(shí)驗(yàn),結(jié)合掃描工作經(jīng)驗(yàn)選擇適合的分辨率、亮度及對(duì)比度。當(dāng)文本質(zhì)量有明顯變化時(shí),每頁資料的亮度及對(duì)比度都要分別進(jìn)行調(diào)整。每次掃描時(shí)若不進(jìn)行掃描區(qū)域的選擇,掃描區(qū)域就會(huì)與上次的掃描區(qū)域相同,這樣有可能會(huì)漏掉文本內(nèi)容。若掃描區(qū)域過大,掃描時(shí)間就會(huì)延長,文件所占的空間也會(huì)增大,后期圖像處理的工作量亦會(huì)增大。
存儲(chǔ)格式的選擇 根據(jù)選擇掃描類型的不同,文件存儲(chǔ)格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進(jìn)行糾斜和旋轉(zhuǎn),存儲(chǔ)格式為tiff;灰階和RGB方式掃描存儲(chǔ)格式都為jpg,這種格式是經(jīng)過壓縮的。
(3)確定文件名稱及路徑
當(dāng)掃描參數(shù)調(diào)整完成時(shí),就要選擇路徑將掃描文件進(jìn)行保存。這個(gè)文件最好是放置在一個(gè)獨(dú)立的位置上,以免與其他文件混淆。文件的名稱是要能反映其中文本資料的主要內(nèi)容的。與此同時(shí),還要給每頁文件確定一個(gè)適當(dāng)?shù)拿Q,最好以文件的頁碼為文件的名稱,以便對(duì)文件進(jìn)行排版時(shí)不會(huì)出順序上的錯(cuò)誤。同時(shí)保證以后再對(duì)文件進(jìn)行處理時(shí)能很快識(shí)別此文件是屬于哪個(gè)類別的、哪個(gè)地區(qū)的、哪個(gè)鉆孔的等,如圖2所示。
圖2 文件存儲(chǔ)結(jié)構(gòu)示意圖
(4)掃描并保存
在掃描方式、掃描參數(shù)、存儲(chǔ)格式、存儲(chǔ)路徑和文件名都已設(shè)定好之后,就可以進(jìn)行掃描了。當(dāng)頁面大于A4版面時(shí),可以用A3大幅度掃描儀進(jìn)行掃描,對(duì)于超過A3幅度的文本資料可以分次掃描,掃描完成后再進(jìn)行拼接。掃描是整個(gè)數(shù)字化工作中最基礎(chǔ)、最關(guān)鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時(shí)間、人力和物力。
3.圖像處理
當(dāng)完成一冊(cè)文本資料的掃描工作后,此文本資料的電子文件已經(jīng)保存在一個(gè)固定的文件夾內(nèi)。但此時(shí)的文件只是一個(gè)個(gè)獨(dú)立的圖片,還需要一系列的圖像調(diào)整處理,才能達(dá)到文本數(shù)字化的真正目的。在Photoshop中打開掃描圖像,逐個(gè)進(jìn)行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對(duì)比度等的調(diào)整。經(jīng)過幾次這樣的調(diào)整,使圖像達(dá)到真實(shí)反映文本資料原貌的目的。
4.生成電子文件
將調(diào)整好的單個(gè)圖像文件逐個(gè)插入到Word文檔中,首先形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每冊(cè)文本資料的名稱相同或相近,如秦嶺、大巴山地應(yīng)力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表”。
5.文檔組織與保存
當(dāng)完成一個(gè)礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,并編制PDF格式的目錄索引,鏈接整個(gè)礦區(qū)的PDF文件。最后將完整的電子文件進(jìn)行備份保存。一般情況下同一礦區(qū)的電子文檔保存在同一張光盤中,并在光盤盒上貼標(biāo)簽,注明文件目錄、形成時(shí)間及責(zé)任人等有關(guān)信息。若一張光盤存不下時(shí),要將電子文件分成若干個(gè)分冊(cè),一個(gè)分冊(cè)放在一個(gè)光盤中。電子文檔應(yīng)保存一式三套,并且要實(shí)行異地保存。
三、影響文本資料掃描效果的幾個(gè)因素分析
將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不拆開,進(jìn)行掃描時(shí)掃描人員應(yīng)用手緊壓文本資料,盡可能地緊貼掃描面板,以保證較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個(gè)環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動(dòng),將掃描板劃傷,這樣將直接影響掃描的效果。
我們采集來的一些實(shí)物資料是20世紀(jì)80年代初期產(chǎn)出的,隨著時(shí)間的推移,文本資料字跡已經(jīng)很模糊了,而收集來的又多以復(fù)印件為主,還有野外記錄表或整理資料這部分多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。
有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過程中就越不容易壓平,一側(cè)的資料就非常不清楚。因此在掃描較厚的文本資料時(shí),需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見這樣掃描自然會(huì)降低掃描的效率,因此在掃描這種較厚的文本資料時(shí),要求工作人員必須有耐心,將每一頁資料都能充分地?cái)[正放平,使每一部分信息都能掃描得非常清晰。
四、結(jié)語
文本資料數(shù)字化是一項(xiàng)艱巨、繁瑣而責(zé)任重大的工作,是實(shí)現(xiàn)實(shí)物地質(zhì)資料現(xiàn)代化管理的一項(xiàng)重要基礎(chǔ)工作。由于這項(xiàng)工作開展時(shí)間不長,沒有更多的經(jīng)驗(yàn)可以借鑒,目前此項(xiàng)工作還在不斷的探索和試驗(yàn)中。
Digitization of Relevant Text Information of Geologicalsamples
Hailan Zhang,Ruihong Wang
(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)
Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.
Key words text information;digitization
(全國總部)河南省鄭州市金水區(qū)博雅廣場4號(hào)樓1104
+18937133779
zboao@qq.com
中博奧技術(shù)有限公司& 版權(quán)所有
工信部備案號(hào):豫ICP備11015869號(hào)-8