可以想見,由于公益、公共安全、國(guó)家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,在不久的將來,AI讀唇語(yǔ)有望實(shí)現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期。
——閆懷志 北京理工大學(xué)計(jì)算機(jī)學(xué)院副教授、網(wǎng)絡(luò)與安全研究所所長(zhǎng)
雖然電視劇《狂飆》已經(jīng)迎來了大結(jié)局,但熱度仍然沒有絲毫減弱,有的網(wǎng)友利用劇中人物創(chuàng)作娛樂視頻,也有的網(wǎng)友剪輯其中精彩片段。不過,還有一些“較真”的網(wǎng)友,發(fā)現(xiàn)《狂飆》中的一些人物對(duì)話,配音和嘴型對(duì)不上,于是便想通過人工智能進(jìn)行唇語(yǔ)識(shí)別,還原最初的劇本情節(jié)。
(相關(guān)資料圖)
然而,AI讀唇語(yǔ)并非只能被用于破譯“隱藏劇情”。據(jù)統(tǒng)計(jì),我國(guó)聽力殘障人口超過2054萬(wàn),除了主要的手語(yǔ)交流外,讀唇語(yǔ)也是他們重要的溝通方式。但人工解讀唇語(yǔ)容易受到個(gè)人經(jīng)驗(yàn)、視覺感受能力、語(yǔ)言理解能力等因素影響,在正確率方面差強(qiáng)人意,于是人們開始嘗試?yán)肁I技術(shù)來解讀唇語(yǔ)。
比唇語(yǔ)專家更懂唇語(yǔ)
“所謂AI讀唇語(yǔ),即人工智能唇語(yǔ)識(shí)別,其核心技術(shù)框架為視覺識(shí)別和自然語(yǔ)言處理。”北京理工大學(xué)計(jì)算機(jī)學(xué)院副教授、網(wǎng)絡(luò)與安全研究所所長(zhǎng)閆懷志介紹道,具體而言,就是利用機(jī)器視覺技術(shù),將人臉從圖像中連續(xù)識(shí)別出來,并提取其中連續(xù)的口型變化特征,輸入至唇語(yǔ)識(shí)別模型,辨識(shí)出該人物口型對(duì)應(yīng)的發(fā)音,進(jìn)而輸出可能性最大的表達(dá)語(yǔ)句。
“視覺識(shí)別和自然語(yǔ)言處理分別有著龐大的技術(shù)體系和不同的技術(shù)路線,但究其本質(zhì),都是通過大量的唇語(yǔ)數(shù)據(jù)來訓(xùn)練AI模型,力求文本輸出的準(zhǔn)確性。”閆懷志補(bǔ)充道。
近幾年,不斷有AI巨頭開始在唇語(yǔ)識(shí)別賽道上作出嘗試。谷歌旗下Deep Mind公司就與英國(guó)牛津大學(xué)合作,研發(fā)出了一款A(yù)I讀唇語(yǔ)軟件,通過讓AI讀唇語(yǔ)軟件“收看”數(shù)千小時(shí)的電視節(jié)目來訓(xùn)練其唇語(yǔ)識(shí)別能力。有意思的是,在隨機(jī)抽取200個(gè)視頻片段的讀唇語(yǔ)測(cè)試中,AI讀唇語(yǔ)軟件的準(zhǔn)確率達(dá)到了46.8%,而經(jīng)過專業(yè)訓(xùn)練的人類讀唇語(yǔ)專家,準(zhǔn)確率僅為12.4%。
為何AI讀唇語(yǔ)能夠悄然興起?閆懷志給出了自己的分析:一是強(qiáng)烈的需求牽引,二是巨大的技術(shù)推動(dòng)。從需求牽引來說,唇語(yǔ)識(shí)別不僅可為部分殘障人士提供方便,更可以在公共安防等諸多領(lǐng)域發(fā)揮巨大作用;從技術(shù)推動(dòng)來說,由于AI算法、算力以及數(shù)據(jù)瓶頸被不斷突破,使得AI技術(shù)在唇語(yǔ)識(shí)別領(lǐng)域取得較大成功成為現(xiàn)實(shí)。
眾多難題有待突破
不過,閆懷志也表示,目前我國(guó)人工智能唇語(yǔ)識(shí)別技術(shù)尚處于起步階段,若想利用人工智能準(zhǔn)確地識(shí)別唇語(yǔ),還有很長(zhǎng)的路要走。
從語(yǔ)言本身來看,人類語(yǔ)言具有較高的復(fù)雜性,在人類話語(yǔ)所涉及的所有音標(biāo)中,僅有30%左右是直接由人類嘴唇來控制的,70%是難以通過肉眼,甚至是機(jī)器視覺區(qū)分的齒音、舌音以及喉音。而且,不同人說話的語(yǔ)氣、方言、連詞、口音,乃至胡須遮蓋等因素,都會(huì)導(dǎo)致嘴型的細(xì)微變化,而恰恰是這種細(xì)微變化,會(huì)嚴(yán)重影響人工智能對(duì)于唇語(yǔ)的識(shí)別和判斷。
從技術(shù)層面來看,人工智能采集唇語(yǔ)的環(huán)境通常較為復(fù)雜,若想精準(zhǔn)識(shí)別難度很高。以目前的人工智能技術(shù)而言,對(duì)于長(zhǎng)句、復(fù)雜句式等的識(shí)別水平不盡如人意,更不用說還存在著多場(chǎng)景識(shí)別、多人像唇語(yǔ)識(shí)別等問題。
閆懷志表示,只有解決了上述問題,AI讀唇語(yǔ)才能得到突破性提升,邁向成熟發(fā)展階段。
人類不同語(yǔ)種之間千差萬(wàn)別,AI能讀懂每個(gè)語(yǔ)種的唇語(yǔ)嗎?
閆懷志介紹,此前較為成功的AI讀唇語(yǔ)系統(tǒng)大多僅限于英語(yǔ)模型,這是因?yàn)槎鄶?shù)AI模型都是基于英語(yǔ)數(shù)據(jù)訓(xùn)練而得。但是,從技術(shù)框架上來說,不同語(yǔ)種的訓(xùn)練模型是基本一致的,或者說可以依賴于同一類技術(shù)手段來實(shí)現(xiàn)。
當(dāng)然,為了適應(yīng)不同語(yǔ)種的唇語(yǔ)識(shí)別,也需要作一些適應(yīng)性調(diào)整:一方面要選擇對(duì)應(yīng)語(yǔ)種的數(shù)據(jù)進(jìn)行有針對(duì)性的訓(xùn)練;另一方面,還需要對(duì)AI模型進(jìn)行調(diào)整,比如納入時(shí)間屏蔽、優(yōu)化語(yǔ)言模型以及改進(jìn)超參數(shù)等。
此外,同一語(yǔ)種也會(huì)有不同口型,即便口型類似,也可能代表著完全不同的意思。因此,成熟的AI讀唇語(yǔ)系統(tǒng)需要大量的唇語(yǔ)特征樣本數(shù)據(jù),并盡可能地覆蓋多種應(yīng)用場(chǎng)景、多類型的說話人群,借此來提升訓(xùn)練后的唇語(yǔ)識(shí)別模型的泛化能力,提高AI讀唇語(yǔ)對(duì)于不同口型和不同表意語(yǔ)言的識(shí)別準(zhǔn)確率。
亟須監(jiān)管的技術(shù)雙刃劍
盡管存在種種難題,但仍有越來越多的AI企業(yè)開始涉足并計(jì)劃深耕人工智能唇語(yǔ)識(shí)別賽道。目前來看,各大AI巨頭的選擇不盡相同,具體可分為唇語(yǔ)數(shù)據(jù)、唇語(yǔ)視頻識(shí)別、唇語(yǔ)理解等。
閆懷志也表示,目前許多人工智能唇語(yǔ)識(shí)別技術(shù)領(lǐng)域已實(shí)現(xiàn)初步突破,全鏈條集成前景可期,產(chǎn)業(yè)集群正在逐步形成。
從應(yīng)用場(chǎng)景來看,AI讀唇語(yǔ)在社會(huì)公益、公共安全等領(lǐng)域都已開始嶄露頭角。從目前各大巨頭的布局以及相關(guān)技術(shù)的發(fā)展趨勢(shì)來看,AI讀唇語(yǔ)預(yù)期可在身份識(shí)別、國(guó)家安全、智慧系統(tǒng)等方面具有廣闊的應(yīng)用前景。“可以想見,由于公益、公共安全、國(guó)家安全等領(lǐng)域巨大的潛在需求的牽引,以及AI技術(shù)飛速發(fā)展的強(qiáng)力推動(dòng)作用,在不久的將來,AI讀唇語(yǔ)有望實(shí)現(xiàn)快速推廣與深度普及,產(chǎn)業(yè)前景十分可期。”閆懷志說。
例如,在安防安監(jiān)領(lǐng)域,很多安監(jiān)場(chǎng)景噪音較大或僅有視頻信號(hào),無法準(zhǔn)確捕捉聲音,人工智能唇語(yǔ)識(shí)別技術(shù)就能派上用場(chǎng);在身份識(shí)別領(lǐng)域,可以利用AI讀唇語(yǔ)來實(shí)現(xiàn)口型支付密碼輸入,“動(dòng)動(dòng)嘴唇”就能實(shí)現(xiàn)身份識(shí)別和支付交易;在公共安全領(lǐng)域,利用AI讀唇語(yǔ),可以在各類視頻中分析案件當(dāng)事人的唇語(yǔ)信息,輔助案件偵查工作;在智慧系統(tǒng)領(lǐng)域,可利用AI讀唇語(yǔ)來實(shí)現(xiàn)“無聲勝有聲”——只依靠口型來控制智能設(shè)備,比如智能家電等。
當(dāng)然,技術(shù)應(yīng)用是把雙刃劍。很多人擔(dān)心,AI讀唇語(yǔ)會(huì)使人們對(duì)話中的隱私內(nèi)容遭到泄露,無論當(dāng)事人是公開發(fā)言、竊竊私語(yǔ)或是自言自語(yǔ)。“張張嘴”就被別人竊取聊天內(nèi)容,仔細(xì)想來確實(shí)可怕。
閆懷志表示,這種擔(dān)心并非杞人憂天。AI讀唇語(yǔ)導(dǎo)致的隱私泄露,一方面可能是有人惡意進(jìn)行唇語(yǔ)獲取識(shí)別,另一方面也可能是正常使用的AI讀唇語(yǔ)系統(tǒng),但其中的存儲(chǔ)、使用等環(huán)節(jié)保護(hù)不當(dāng),導(dǎo)致相關(guān)數(shù)據(jù)被竊取或?yàn)E用,進(jìn)而對(duì)個(gè)人權(quán)益造成損害。而且,由于涉及到當(dāng)事人的對(duì)話內(nèi)容,具有明顯的方向性,這種隱私泄露的危害性可能要比普通的個(gè)人信息泄露更為嚴(yán)重。
因此,閆懷志建議,應(yīng)從隱私安全保護(hù)的角度,在管理層面加強(qiáng)相關(guān)法律法規(guī)的制定,嚴(yán)格規(guī)范和約束AI讀唇語(yǔ)的應(yīng)用場(chǎng)景、范圍和目的,加大對(duì)技術(shù)惡意利用的監(jiān)管和懲戒力度。此外,還要在技術(shù)層面加強(qiáng)AI讀唇語(yǔ)系統(tǒng)的安全保護(hù)體系建設(shè),以技術(shù)手段提高系統(tǒng)的識(shí)別精準(zhǔn)度,避免技術(shù)濫用,切實(shí)保障用戶對(duì)話的內(nèi)容安全。(記者 翟冬冬)
關(guān)鍵詞:
凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。
- “報(bào)復(fù)性”加盟來了2023-03-01
- “動(dòng)動(dòng)嘴皮子”AI就能知道你在說啥,當(dāng)心隱2023-03-01
- 新版國(guó)家醫(yī)保藥品目錄今起實(shí)施 優(yōu)化日常用2023-03-01
- 劉封被劉備殺死 三國(guó)劉封最后為什么會(huì)被劉2023-03-01
- 伍子胥的故事 伍子胥有關(guān)的故事簡(jiǎn)介2023-03-01
- 杭州是幾線城市?杭州有什么好玩的?2023-03-01
- 淘寶無法購(gòu)買 淘寶無法購(gòu)買該怎么辦?2023-03-01
- 張居正與李太后有非比尋常的關(guān)系 李太后會(huì)2023-03-01
- 凄凄切切說句謝謝_凄凄切切2023-03-01
- 注冊(cè)資本與實(shí)收資本不同的概念 注冊(cè)資本與2023-03-01
- 魯銀投資公司怎么樣 魯銀投資集團(tuán)股份公司2023-03-01
- 步練師是誰(shuí) 《三國(guó)志》步練師簡(jiǎn)介2023-03-01
- 北京首創(chuàng)生態(tài)環(huán)保公司怎么樣 北京首創(chuàng)生態(tài)2023-03-01
- 飛鶴乳業(yè)勢(shì)頭強(qiáng)勁 飛鶴乳業(yè)上市時(shí)間是什么2023-03-01
- 少年的你胡小蝶是誰(shuí)演的 少年的你胡小蝶2023-03-01
- 《儒林外史》的范進(jìn)為何叫范進(jìn)?范進(jìn)中舉文2023-03-01
- 97版天龍八部重聚 97版天龍八部阿紫蕭峰相2023-03-01
- 西鄭高鐵為什么票價(jià)高 西鄭高鐵票價(jià)多少?2023-03-01
- 比爾蓋茨捐了多少錢 簡(jiǎn)單回顧一下比爾蓋茨2023-03-01
- 趙飛燕是何出身 趙飛燕個(gè)人資料簡(jiǎn)介2023-03-01
- 國(guó)內(nèi)成品油價(jià)格調(diào)整 新一輪國(guó)內(nèi)成品油價(jià)格2023-03-01
- 上海申通地鐵怎么樣 上海申通地鐵股份有限2023-03-01
- 無錫威孚高科技集團(tuán)公司怎么樣 無錫威孚高2023-03-01
- 河南省高速公路網(wǎng)規(guī)劃怎么樣?高速公路網(wǎng)規(guī)2023-03-01
- 誅仙電影票房怒破七千萬(wàn) 誅仙電影票房算高2023-03-01
- 薏仁能健脾 薏仁能美白嗎?2023-03-01
- 黑臉娃娃和白瓷娃娃的區(qū)別 黑臉娃娃和白瓷2023-03-01
- 黑臉娃娃要做幾次 黑臉娃娃的原理決定了次2023-03-01
- Rivian(RIVN.US)Q4業(yè)績(jī)喜憂參半 電動(dòng)汽車2023-03-01
- AMC院線(AMC.US)Q4營(yíng)收同比下降15.3% 觀2023-03-01
- 智慧城市試點(diǎn)名單公布情況 全國(guó)智慧城市試點(diǎn)名單公布情況怎么樣?
- 中國(guó)人口最少的民族 中國(guó)人口最少的民族是哪個(gè)?
- 清朝皇帝的行宮花園北京頤和園 北京頤和園是什么?
- 排行前十的禁養(yǎng)犬類 十大兇犬排行榜圖片
- 豇豆怎么讀 豇豆是什么?
- 港龍航空簡(jiǎn)介 港龍航空和國(guó)泰港龍航空是什么關(guān)系?
- 如何申請(qǐng)法醫(yī)鑒定?法醫(yī)鑒定費(fèi)用需要多少呢?
- 關(guān)于趙州橋的資料 關(guān)于趙州橋的資料介紹
- 茅臺(tái)酒有著很多的優(yōu)勢(shì) 茅臺(tái)酒優(yōu)勢(shì)匯總
- 深圳高樓排名前十 深圳高樓排名前十的建筑是哪些?
資訊
- 伍子胥的故事 伍子胥有關(guān)的故事簡(jiǎn)介
- 【焦點(diǎn)熱聞】李千娜是誰(shuí)?李千娜詳細(xì)資料介紹?
- 向鼎是誰(shuí)?向鼎詳細(xì)資料介紹?_世界信息
- 全球播報(bào):帕麗斯·希爾頓是誰(shuí)?帕麗斯·希爾頓詳細(xì)資料介紹?
- 金豐是誰(shuí)?金豐詳細(xì)資料介紹? 天天快播
- 金智勛是誰(shuí)?金智勛詳細(xì)資料介紹?|當(dāng)前要聞
- 李霄云是誰(shuí)?李霄云詳細(xì)資料介紹?-獨(dú)家焦點(diǎn)
- 環(huán)球觀速訊丨胡宇威是誰(shuí)?胡宇威詳細(xì)資料介紹?
- 王菀之是誰(shuí)?王菀之詳細(xì)資料介紹?-視訊
- 天天觀天下!徐劍秋是誰(shuí)?徐劍秋詳細(xì)資料介紹?
焦點(diǎn)
- 利比亞的主要城市 利比亞有哪些主要城市?
- 世界上最大的內(nèi)陸國(guó) 世界上最大的內(nèi)陸國(guó)是哪里?
- 歐盟27國(guó)介紹 歐盟27國(guó)哪些國(guó)家?
- 富士山主人是誰(shuí) 富士山淺間神社的主人是誰(shuí)?
- 富士山主人是誰(shuí) 富士山淺間神社的主人是誰(shuí)?
- 韓國(guó)或成世界上首個(gè)消失的國(guó)家 什么原因?qū)е碌模?/a>
- 我國(guó)少數(shù)民族最多的省是哪個(gè)省?少數(shù)民族分布人口如何?
- 歐元集團(tuán)會(huì)議4日在盧森堡舉行 今年歐元區(qū)經(jīng)濟(jì)將放緩
- 迪拜最高建筑是什么 迪拜最高建筑建造過程
- 美國(guó)失業(yè)率高不高 美國(guó)失業(yè)率介紹