電 話:18937133779
網(wǎng) 址:http://www.gycxdjzzl.com
郵 箱:zboao@qq.com
鍵盤錄入。選定我們要處理的單元格,再點擊菜單欄里的數(shù)值,找到數(shù)值點小三角,從下拉選項中找到文本轉(zhuǎn)數(shù)字,就完成了。
鍵盤錄入語音識別輸入光學字符識別輸入。用數(shù)字鍵盤輸入文字信息的辦法。
用掃描儀,數(shù)碼相機。拍攝儀都可以,要根據(jù)檔案的種類,選取合適的設備。另外,還要配備相關的軟件;譬如:掃描病案資料,建議采用《智慧數(shù)字化病案綜合管理系統(tǒng)》軟件。其他行業(yè)要求不同,軟件也不同。
一、文字資料數(shù)字化原則
現(xiàn)存的航空物探資料是中心開展航空物探50年來勘查和科研成果的積累,真實記錄了中心航空物探技術進步和發(fā)展歷程,反映了航空物探在地質(zhì)找礦等方面的先行作用和突出貢獻。為實現(xiàn)航空物探資料的信息化管理和永久利用,擴大航空物探服務領域,航空物探文字資料數(shù)字化和信息化原則是“尊重歷史,忠實原著,保持原貌,統(tǒng)一要求,加強監(jiān)控,確保質(zhì)量”。
二、文字資料數(shù)字化流程
航空物探資料文字資料數(shù)字化是把航空物探勘查和科研項目紙質(zhì)文字資料錄入成電子文檔,同時把手寫、油印的文字資料掃描成圖像格式保存,并編寫項目成果簡介(圖8-5)。
圖8-5 文字資料數(shù)字化流程圖
三、文字資料數(shù)字化方法
文字資料數(shù)字化實質(zhì)是對中心現(xiàn)存的航空物探勘查和科研成果報告采用掃描識別和人工錄入兩種方法輸入計算機中,并按航空物探信息系統(tǒng)規(guī)定的格式和版式重新編輯,形成Word文檔(DOC格式)和Adobe Acrobat文檔(PDF格式)以滿足入庫要求。
(一)文字資料介質(zhì)質(zhì)量分類
為采取合理的數(shù)字化方法進行文字資料數(shù)字化,通過對中心庫存的文字資料進行較詳細的調(diào)查,按紙質(zhì)資料介質(zhì)質(zhì)量好壞、字跡和插圖清晰程度等將639份勘查和科研成果文字資料(報告)劃分為較差、中等、較好、良好4類(表8-4)。其中,1973年前資料均較差,較差和中等質(zhì)量的資料都出現(xiàn)在20世紀80年代中期以前。20世紀80年代中期以后的項目資料質(zhì)量均屬較好和良好。
表8-4 文字資料介質(zhì)質(zhì)量分類統(tǒng)計表
(二)文字資料數(shù)字化方法
以資料分類為基礎,根據(jù)文字資料數(shù)字化原則,確定了文字資料數(shù)字化具體方法。
1.人工錄入法
由于較差和中等類資料多數(shù)是手寫、復寫或油印本,少數(shù)是鉛印本;存放時間長,幾經(jīng)輾轉(zhuǎn)搬遷,破損嚴重,字跡模糊;無法采用掃描、識別方法輸入,只能人工錄入。對錄入工作提出了具體要求,以保證人工錄入質(zhì)量。
2.掃描識別輸入法
較好和良好類資料都是正規(guī)鉛印或Word文檔(DOC格式)印刷出版,字跡清晰,可用掃描識別方法予以輸入,與人工錄入方法相比效率較高。
人工錄入、編輯航空物探勘查項目文字報告608份,約2739.6751萬字;人工錄入、編輯航空物探科研項目文字306份,約839.0241萬字。
為了保證中心資料獲得長久保存,同時對已人工錄入的全部較差和中等類617份約9719頁的文字資料(其中,勘查115份,約3240頁;科研502份,約6479頁)進行了掃描輸入,以PDF格式直接刻制光盤保存。
四、校對和檢查
文字資料由人工錄入或掃描識別,經(jīng)自檢形成的Word電子文檔全部校樣必須通過二校和部分三校或抽檢,才能進入編輯排版,最終生成統(tǒng)一的DOC格式的Word文檔。
由于歷史原因,在早期原稿(包括文字和插圖)中存在著其他一些錯誤或不規(guī)范等現(xiàn)象。在保持原稿真實性的前提下,盡可能地在校樣中對問題予以糾正和變通處理,有些則因本身遺漏或模糊無法彌補,留下空缺。按原文字資料所附的勘誤表對文字逐一進行了更正,原有勘誤表基本已失去存在意義了。
五、插圖掃描矢量化
使用MapGIS軟件對原文字報告中的測區(qū)示意圖、剖面圖、地質(zhì)解釋圖等1260幅插圖按照原插圖進行矢量化,原插圖比例尺使用數(shù)字比例尺表示的換算成線性比例尺,單剖面圖加上剖面比例尺,統(tǒng)一了地質(zhì)圖中的地質(zhì)符號等,提高文字報告的插圖質(zhì)量(圖8-6)。
六、編輯排版
除勘查項目與科研項目文字報告在內(nèi)容上客觀存在的不同外,既使是同一類報告在報告內(nèi)容、排版編輯上也都有較大的差別。這是航空物探技術進步必然的反映,也與以往文字資料缺乏統(tǒng)一標準和要求有關。在本次文字資料數(shù)字化過程中,根據(jù)項目統(tǒng)一要求,便于計算機管理和服務,在保持報告內(nèi)容不變的前提下,將所有錄入的文字成果報告采用Word編輯排版軟件按規(guī)定的編輯模版自動生成目錄,并在報告封面等形式上力求做到統(tǒng)一(校樣最終稿與原稿在報告封面、目錄級別、插圖和頁碼位置等方面都存在著差別,但報告內(nèi)容沒有改變)。按此要求完成了799份約47645頁文字資料的排版工作,并把文字資料格式由DOC格式轉(zhuǎn)換為PDF格式。
圖8-6a 矢量化前的插圖
圖8-6b 矢量化后插圖
七、項目簡介編寫
為了使用戶不閱讀項目成果報告全文,能夠快速地了解該項目概貌,獲得該成果報告的主要內(nèi)容和信息,按照航空物探信息系統(tǒng)建庫要求,編寫了航空物探勘查和科研項目簡介455份,約28萬字。其中,航空物探勘查成果報告423份,約26萬字;科研成果報告32份,約2萬字。以濃縮的形式概括項目成果的主要內(nèi)容,包括工作方法或研究方法、質(zhì)量評價,取得的主要成果和最終結論。
實物相關資料數(shù)字化是對實物相關的文字、圖件、表格等文件的數(shù)字化以及電子文件的制作。目的是配合實物數(shù)字化,形成完整的實物地質(zhì)資料圖文圖像系統(tǒng),進而建立數(shù)字化實物地質(zhì)資料閱覽室,提高實物地質(zhì)資料利用率,并有效地保護館藏圖文資料,為實物地質(zhì)資料信息共享提供基礎。
實物地質(zhì)資料相關的圖文資料包括文本資料和圖紙資料,數(shù)字化工作也是針對這兩類資料而言的。
(一)文本資料數(shù)字化
1.工作流程及方法
文本資料數(shù)字化是通過掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進行文件組織的過程。主要工作過程包括資料準備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個方面(圖7-25)。
圖7-25 文本資料數(shù)字化工作流程
(1)掃描前的準備工作:做好文本資料的準備工作是十分必要的。資料的單冊厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時,應將文本拆開進行掃描,掃描工作結束后再按照檔案管理的要求進行重新裝訂。在進行若干份單頁的文件掃描時,掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進行多頁文件掃描之前,要對文本資料進行除靜電處理。
(2)圖像掃描:對于文本資料紙質(zhì)較好,又不超過標準A4版面的時候,為節(jié)省掃描時間,提高工作效率可以采用專用的多頁文檔掃描儀進行連續(xù)掃描,其他的文本資料使用平板掃描儀逐頁進行掃描。掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確地選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來確定的。常用文本資料的掃描類型有黑白二值、RGB、灰階3種:①黑白二值方式,當文字或表格質(zhì)量都非常高時,采用這種方式掃描,掃描效果較好;②灰階方式,當文本資料字跡不清楚或是表格時,使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會斷斷續(xù)續(xù),此時可選用灰階方式掃描,但這種方式掃描的圖像有較多的灰色印跡,需在后期進行圖像處理時,使圖像達到最佳效果;③RGB方式,對文本資料中的彩色圖件一般采用這種方式進行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,在掃描時應進行亮度、對比度及色度的調(diào)整,通過反復對比,使圖件色彩達到最佳的效果。在掃描前應進行預掃描,目的是選擇掃描分辨率及調(diào)整亮度和對比度。掃描分辨率、亮度及對比度調(diào)整與文本資料的質(zhì)量有一定的關系,當一冊文本資料質(zhì)量變化不大時,選擇一頁或幾頁進行掃描實驗,結合掃描工作經(jīng)驗選擇適合的分辨率、亮度及對比度;當文本質(zhì)量有明顯變化時,每頁資料的亮度及對比度都要分別進行調(diào)整。每次掃描時若不進行掃描區(qū)域的選擇,掃描區(qū)域就與上次的掃描區(qū)域相同,這樣有可能漏掉文本內(nèi)容。掃描區(qū)域過大,掃描時間就延長,文件所占的空間增大,增加后期圖像處理的工作量。根據(jù)選擇掃描類型的不同,文件存儲格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進行糾斜和旋轉(zhuǎn),存儲格式為 TIFF;灰階和RGB方式掃描存儲格式均為JPG,這種格式是經(jīng)過壓縮的。當掃描參數(shù)調(diào)整完成時,就要選擇路徑將掃描文件進行保存。掃描文件最好是放置在一個獨立的位置上,以免與其他文件混淆。文件的名稱能反映其中文本資料的主題內(nèi)容。與此同時,還要給每頁文件確定一個適當?shù)拿Q,最好以文件的頁碼為文件的名稱,以便對文件進行排版時不會出順序上的錯誤。同時保證以后再對文件進行處理時能很快識別此文件是屬于哪個類別的、哪個地區(qū)的、哪個鉆孔的等。如圖7 26所示。在掃描方式、掃描參數(shù)、存儲格式、存儲路徑和文件名都已設定好之后,就可以進行掃描了。當頁面大于A4幅面時,可以用A3大幅面掃描儀進行掃描,對于超過A3 幅面的文本資料可以分次掃描,掃描完成后再進行拼接。掃描是整個數(shù)字化工作中最基礎、最關鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時間、人力和物力。
圖7-26 文件存儲結構示意
(3)圖像處理:當完成一冊文本資料的掃描工作后,此文本資料以一系列圖像形式的文件保存在一個固定的文件夾內(nèi)。這些圖像需調(diào)整處理,才能達到文本數(shù)字化的要求。在Photoshop中打開掃描圖像,逐個進行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對比度等的調(diào)整。經(jīng)過幾次這樣的調(diào)整,使圖像達到真實反映文本資料原貌。
(4)生成電子文件:將調(diào)整好的單個圖像文件逐個插入到Word文檔中,形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每冊文本資料的名稱相同或相近,如大巴山地應力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表.PDF”。
(5)文檔組織與保存:當完成了一個礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,生成具有目錄索引特征的單個PDF文件,其格式見圖7-27。
圖7-27 PDF電子文件界面
2.影響文本資料掃描效果的主要因素
將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不需拆開,進行掃描時掃描人員用手緊壓文本資料,盡可能地緊貼掃描面板,以保證有較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動,劃傷掃描板,直接影響掃描的效果。
目前收集來的一些實物相關資料是20世紀80年代初期產(chǎn)生的,隨著時間的推移,許多文本資料字跡已經(jīng)很模糊,這些資料又多以復印件為主,特別是野外記錄本和一些整理資料多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。
有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過程中就越不容易壓平,掃描后非常不清楚。因此在掃描較厚的文本資料時,需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見,這樣掃描會降低掃描的效率,因此在掃描這種較厚的文本資料時,要求工作人員必須有耐心,將每一頁資料都能充分地擺正放平,使每一部分信息都能掃描得非常清晰。
(二)圖紙的掃描
在實物地質(zhì)資料中,有一部分資料是地形圖、剖面圖、地質(zhì)圖、柱狀圖等,其幅面一般都超過A3。這部分圖紙使用A0工程掃描儀掃描。
1.掃描儀參數(shù)的設定
通過實驗,圖紙掃描分辨率采用200dpi,掃描方式采用灰度,圖像保存格式為tif,基本能夠滿足資料利用的需要。
2.影響圖紙掃描效果的幾個因素及處理方法
(1)掃描儀的校準:在試掃描過程中發(fā)現(xiàn),在每張圖紙的左側,總是有一條直線,有上下錯位的現(xiàn)象發(fā)生,為了不影響圖像的質(zhì)量,筆者請教了熟悉掃描儀操作的同志,之所以出現(xiàn)這種現(xiàn)象,是由于掃描儀的3個鏡頭在掃描過程中發(fā)生了錯位,導致一條直線出現(xiàn)“折斷”的現(xiàn)象。為了解決這一問題,每次掃描前,首先進行掃描校準。
(2)圖紙的質(zhì)量:有的柱狀圖由于太長,在平常的保存過程中一直是卷成筒狀的,并用棉線輕輕捆綁著。因此在圖紙的邊緣部分,常出現(xiàn)磨痕或裂口。這樣的圖紙在滾動掃描時,稍不注意就會出現(xiàn)不同步現(xiàn)象,使掃描圖像發(fā)生偏斜扭曲。處理這種情況的方法是對圖紙進行修復,方法是在圖紙的邊緣用乳膠粘上一層薄紙,再用熨斗熨平。
文字信息處理的實質(zhì),是先把文字信息數(shù)字化,即用一個固定的數(shù)碼代表一個字母或文字。例如,在英文信息中,以26個字母作為文字信息處理的單位,因此要對26個字母逐個地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個整字作為文字信息處理的單位,因此要對每一個整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計算機內(nèi)部處理文字信息時,就像處理數(shù)據(jù)一樣對待。處理完畢后,再把替代的數(shù)碼還原成相應的字母或文字。利用計算機能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計算機技術的這一獨特優(yōu)點,從而實現(xiàn)文字信息處理的高效化。
計算機之所以能有較高的運算和處理能力,是由于它利用了電子處理技術以及二進制數(shù)運算這一法則。計算機中的運算器,利用半導體器件的兩個狀態(tài)(通和斷)的變化,代表二進制數(shù)字串中的一個二進制數(shù)位上的“1”或“0”的變化,從而能夠高速地執(zhí)行二進制數(shù)的數(shù)值或邏輯運算。實際上,計算機無論做數(shù)值的或任何種類信息的運算或處理,最基本的運算操作就是這種二進制數(shù)的演算。