无码日韩精品一区二区免费_国产精品原创视频一区二区_97超视频国产免费_日本亚洲欧美在线AⅤ

歡迎來到中博奧技術有限公司官網(wǎng)

檔案實務|人工智能技術如何應用于音視頻檔案的整理、利用:創(chuàng)新與成效

時間:2022-04-06 作者: 來源:網(wǎng)絡 點擊量:

本文看點

音視頻檔案整理、利用的難點?

音視頻檔案智慧利用系統(tǒng)功能?

浙江省檔案館取得了哪些成效?

引言

信息時代,人們對數(shù)據(jù)的利用提出了更高的要求,對音視頻檔案的利用也越來越普遍。但目前音視頻檔案的整理工作,往往僅限于著錄一些簡單的主題、責任者、文件格式等條目信息,無法涵蓋音視頻檔案的核心要素,更不用說全部信息內(nèi)容,無法實現(xiàn)真正意義上的數(shù)據(jù)化。用戶通過計算機檢索音視頻檔案時,僅能看到有限的著錄信息,要想真正了解內(nèi)容則需要打開音視頻檔案逐一觀看、收聽,這無疑給音視頻檔案的采集、整理、著錄和利用工作造成了極大不便。


目前國內(nèi)各省市檔案館在音視頻檔案的整理、利用方面,普遍存在以下主要問題:

1.音視頻文件整理過程中,需要打開文件逐一聽取或觀看才能區(qū)分內(nèi)容;大量音視頻相同屬性封裝格式編碼、碼率等重復填寫;

2.音視頻文件著錄過程中,題名著錄項至少需要完整觀看或聽取一遍才能判定,處理效率低、速度慢;

3.音視頻檔案利用過程中,音視頻的內(nèi)容無法通過有限著錄條目得以體現(xiàn);

4.在查找特定人物的視頻檔案時,存在只能通過人工查閱進行定位、分類、整理的困難。


據(jù)悉,浙江省檔案館目前館藏數(shù)字音視頻檔案129GB、錄音錄像檔案數(shù)字化成果736GB,音視頻檔案的高效整理、便捷利用一直是個難題。業(yè)內(nèi)專家一致認為,實現(xiàn)音視頻檔案的文本化,是盤活音視頻檔案最有效且可行的途徑。而人工智能在音視頻領域的發(fā)展應用,使得音視頻檔案的文字離線轉寫、檔案征集實時轉寫、規(guī)范化著錄成為可能。

人工智能技術在音視頻檔案

整理利用中的應用研究

2019年8月6日,國家檔案局科技項目《人工智能技術在音視頻檔案整理利用中的應用研究》在浙江正式啟動。該課題由科大訊飛與浙江省檔案館共同組建項目組開展合作研究。歷時一年,于2020年6月底完成產(chǎn)品研發(fā)館內(nèi)應用部署。9月3日,項目成果由課題負責人浙江省檔案館副館長鄭金月、科大訊飛智慧檔案業(yè)務部總經(jīng)理張海劍正式在浙江發(fā)布。


該課題結合人工智能技術在音視頻的應用,利用科大訊飛基于RNN(循環(huán)神經(jīng)網(wǎng)絡模型)獨創(chuàng)的深度全序列卷積神經(jīng)網(wǎng)絡(Deep Fully Convolutional Neural Network,DFCNN)語音識別框架研究對音視頻檔案的整理、利用展開研究,圍繞以下三個方面進行攻關:

1.實現(xiàn)音視頻檔案采集的實時識別與轉譯,形成音視頻文件和對應的數(shù)字全文內(nèi)容;針對館藏離線歷史音視頻檔案,研究如何將長時語音轉譯為文字、以數(shù)字形式輸出全文內(nèi)容;

2.輔助人工對音視頻檔案進行整理、著錄,自動識別內(nèi)容中的相關著錄項;

3.實現(xiàn)字幕文件與音視頻同步播放,播放時實時顯示字幕;管理利用時,點擊每一段文字,便能夠播放對應的原始音頻,輔助音視頻檔案的檢索。

目前,浙江省檔案館正在利用“訊飛音視頻檔案智慧利用系統(tǒng)”對館藏口述史、新聞聯(lián)播、會議檔案等音視頻內(nèi)容進行編輯整理。該系統(tǒng)將作為浙江省首個應用人工智能技術的專業(yè)聲像檔案管理平臺融入浙江省智慧檔案館建設中。

訊飛音視頻檔案

智慧利用系統(tǒng)的功能特色

1.音視頻檔案全文數(shù)據(jù)化,開啟數(shù)字記錄管理新模式。

音視頻檔案智慧利用系統(tǒng)可根據(jù)預先設置的規(guī)則與條件,自動將音頻、視頻拆分成主題不同的片段,利用音頻轉寫技術及文本分析技術,實現(xiàn)對音視頻檔案數(shù)據(jù)化結果的內(nèi)容要素的自動提取、人工標注、完成部分著錄項的著錄,同時還具備視頻打點、拆條等功能。

音視頻檔案的全文數(shù)據(jù)化,主要通過語音識別、自然語言理解NLP等人工智能技術來解決當前音視頻檔案的管理難點,滿足檔案管理人員對音視頻內(nèi)容自動編目的需求。

該系統(tǒng)同時實現(xiàn)了對視頻進行人像數(shù)據(jù)提取,為后期檔案查詢利用奠定基礎。最終形成一套聲像檔案智慧管理模塊,方便音視頻檔案的快捷歸檔利用。

2.建立關鍵人物庫,實現(xiàn)檔案數(shù)據(jù)的智能挖掘聚合。

在檔案數(shù)據(jù)保存上,音視頻檔案智慧利用系統(tǒng)打破了傳統(tǒng)音視頻文件單一存儲模式,實現(xiàn)音視頻檔案的有序存儲。

針對傳統(tǒng)的目錄+原文的存儲方式,新增了人物信息存儲,通過預置相關人物人臉數(shù)據(jù),在后臺視頻處理時進行比對,輸出視頻人物信息標注,打造“視頻+音頻+文字+人臉+目錄”創(chuàng)新存儲模式。

利用人臉識別技術,在館藏聲像檔案存儲過程中,檢測提取人臉,建立視頻人臉庫。通過對比政要/明星人臉庫,完成視頻人物標注,同時支持“1vN”人臉檢測,關聯(lián)視頻所在事件文本信息。人臉庫的建立,加速視頻文件內(nèi)容的快速檢索利用。

3.音視頻檔案智慧利用,實現(xiàn)文字+圖像檢索。

在音視頻檔案的檢索利用方面,音視頻檔案智慧利用系統(tǒng)實現(xiàn)了“文字+圖像”的雙重檢索。

傳統(tǒng)的文字檢索僅能查詢到檔案題名、標簽等目錄信息,音視頻檔案智慧利用系統(tǒng)則在全文數(shù)據(jù)化的基礎上,實現(xiàn)了音視頻轉寫后文本信息的定位,真正做到全文檢索、內(nèi)容檢索。

而圖像檢索則可以自動根據(jù)上傳圖片匹配人物人臉信息,并在視頻中給予出現(xiàn)次數(shù)與時間軸標記,視頻轉寫后可自動提取標注人物信息,人物信息會自動定位到視頻片段,再次對視頻圖像進行結構化處理,結構化存儲。

結語

音視頻檔案智慧利用系統(tǒng)針對音視頻檔案的特殊性,以突出特色為重點,利用最新聲像技術、手段和方法,提高聲像檔案管理利用水平,保存最直觀的歷史發(fā)展和建設成果的永久記憶,為政府和社會大眾提供更高效、優(yōu)質(zhì)的信息共享利用服務。

浙江省檔案館副館長鄭金月認為,將人工智能應用于音視頻檔案的整理、利用,最顯著的成效體現(xiàn)在:音視頻檔案文本化輸出、通過文本內(nèi)容檢索音視頻、通過人臉識別檢索音視頻,大大提高了可用性和檢索效率。1小時的音視頻檔案如果人工整理成文本,需要4-5個小時;而使用人工智能語音識別技術,只需10分鐘!

撰文:孟修竹

編輯:安新宇

標簽

|
我是中博奧客服:小奧
中博奧技術有限公司& 版權所有工信部備案號:豫ICP備11015869號-8 Copyright ? 2023-2024

檔案整理檔案數(shù)字化

檔案掃描檔案管理軟件系統(tǒng)

TEL:18937133779

To Top