
智能識別技術(shù)讓計算機看懂世界
隨著(zhù)互聯(lián)網(wǎng)多模態(tài)數據的大量出現和傳播,“管不住”和“用不好”兩大問(wèn)題也日益突出?!肮懿蛔 笔侵付嗄B(tài)大數據中隱藏著(zhù)大量涉恐、涉暴等有害信息,極大地危害著(zhù)國家安全和社會(huì )穩定,目前還缺乏自動(dòng)的分析與識別技術(shù)?!坝貌缓谩笔侵脯F有技術(shù)一般是單模態(tài)分析與識別,僅針對信息有限的單模態(tài)數據,難以對多模態(tài)數據進(jìn)行有效利用。如何讓計算機看懂世界,實(shí)現對互聯(lián)網(wǎng)多模態(tài)大數據的有效監管與利用,是目前急需解決的重大問(wèn)題。
針對上述問(wèn)題,北京大學(xué)彭宇新教授團隊在國家自然科學(xué)基金、國家863計劃、國家科技支撐計劃等支持下,歷經(jīng)10余年技術(shù)攻關(guān),在圖像視頻概念檢測、視覺(jué)目標檢測、多模態(tài)數據分析與識別、互聯(lián)網(wǎng)輿情監測四個(gè)方面取得了多項重大技術(shù)突破和發(fā)明創(chuàng )新。在2016年北京市科學(xué)技術(shù)獎評選中,“互聯(lián)網(wǎng)多模態(tài)內容分析與識別關(guān)鍵技術(shù)及應用”項目榮獲一等獎。
突破單模態(tài)分析與識別技術(shù)
單模態(tài)分析與識別是突破互聯(lián)網(wǎng)多模態(tài)內容識別的基礎和關(guān)鍵技術(shù)。圖像、視頻和文本是單模態(tài)信息的重要形式,如何使計算機能夠自動(dòng)分析與識別圖像、視頻和文本的內容便成為了研究與應用的難點(diǎn)問(wèn)題。
圖像、視頻中一般包含某種語(yǔ)義概念,如籃球比賽、奧運會(huì )等;同時(shí)也包含視覺(jué)目標,如行人、汽車(chē)、旗幟等。
“雖然人類(lèi)能夠很容易地識別與理解這些概念與目標,但在計算機看來(lái),數字圖像就是由一個(gè)個(gè)像素點(diǎn)構成,這樣人類(lèi)的語(yǔ)義概念及視覺(jué)目標與計算機看到的二進(jìn)制數值之間就存在難以逾越的‘語(yǔ)義鴻溝’?!北本┐髮W(xué)彭宇新說(shuō)。
由于圖像、視頻的語(yǔ)義概念比較抽象、視覺(jué)目標復雜多變,如“奧運會(huì )”這一概念很難從視覺(jué)上準確定義,而“旗幟”等目標不具有固定的形態(tài),導致計算機自動(dòng)分析與識別的難度很大。
彭宇新團隊針對圖像視頻概念檢測難題,發(fā)明了基于注意力模型和增量深度學(xué)習的分類(lèi)方法,一方面注意力模型能夠定位圖像的顯著(zhù)性區域以提高檢測精度;另一方面增量學(xué)習在新概念增加過(guò)程中,能夠利用已經(jīng)學(xué)習到的知識加速新知識學(xué)習,同時(shí)通過(guò)動(dòng)態(tài)擴容以支持新概念的檢測。該方法使得特定概念的檢測精度突破90%。針對復雜場(chǎng)景下視覺(jué)目標檢測問(wèn)題,發(fā)明了級聯(lián)分類(lèi)器與極角拓撲約束相結合的判別方法,一方面通過(guò)級聯(lián)分類(lèi)器從海量數據中快速篩選出可能包含特定目標的候選區域,加快檢測速度;另一方面通過(guò)極角拓撲約束對候選區域進(jìn)行二次判別,提高檢測精度。該方法提高了低分辨率、形變、仿射變換等復雜情況下的檢測效果,使得特定視覺(jué)目標檢測精度突破90%?;谏鲜鲅芯砍晒?,彭宇新教授團隊參加了國際權威評測TRECVID的視頻高層概念檢測比賽,獲得第一名,參賽隊伍包括卡內基梅隆大學(xué)、牛津大學(xué)、IBMWatson研究中心等國際著(zhù)名大學(xué)和研究機構。
在文本內容分析上,熱點(diǎn)話(huà)題檢測與敏感信息發(fā)現是互聯(lián)網(wǎng)輿情監測的兩個(gè)主要應用需求。熱點(diǎn)話(huà)題與敏感信息通常包含特定的人名、地名、機構名等實(shí)體信息,有效地識別實(shí)體信息是文本內容分析的關(guān)鍵。針對上述問(wèn)題,項目團隊發(fā)明了基于知識元的多模態(tài)語(yǔ)義分析方法和基于情感觀(guān)點(diǎn)的話(huà)題追蹤方法,有效解決了互聯(lián)網(wǎng)內容的語(yǔ)言規范性差、噪音大、時(shí)效性高導致實(shí)體難以識別和利用的問(wèn)題。在國際權威評測TREC2014年和2015年的微博信息檢索比賽中獲得第一名。
多模態(tài)內容的語(yǔ)義協(xié)同
“與互聯(lián)網(wǎng)數據的發(fā)展趨勢一樣,我們的研究思路也是從‘單’到‘多’,以單模態(tài)內容的分析與識別技術(shù)為基礎,重點(diǎn)研究多模態(tài)內容的分析與識別技術(shù)?!迸碛钚抡f(shuō)到。
多模態(tài)數據在語(yǔ)義表達上具有“共通性”,在內容上也是互相關(guān)聯(lián)的。據此,項目團隊提出了基于多模態(tài)分解與融合的語(yǔ)義協(xié)同方法,綜合分析圖像、視頻、文本等多模態(tài)內容以獲得更加全面準確的識別結果,并通過(guò)跨模態(tài)語(yǔ)義互補性實(shí)現多模態(tài)數據的綜合分析與有效利用。
項目團隊首先提出了多模態(tài)分解方法,能夠對包含一種或多種模態(tài)的輸入數據,按照模態(tài)的不同自動(dòng)分發(fā)到對應的分析與識別模塊。例如,對于視頻,首先進(jìn)行鏡頭分割和關(guān)鍵幀提取,然后分發(fā)到鏡頭檢索、片斷檢索、概念檢測、視覺(jué)目標檢測、人臉識別和視頻字幕識別等模塊?;诙嗄B(tài)信息的分發(fā)結果,對各模態(tài)內容分別進(jìn)行分析與識別,提取文本、圖像、視頻鏡頭、視頻片斷、視覺(jué)對象(如視覺(jué)目標、人臉)等語(yǔ)義描述信息。進(jìn)一步對多模態(tài)數據進(jìn)行關(guān)聯(lián)分析,構建多模態(tài)關(guān)聯(lián)圖來(lái)融合不同模態(tài)的分析結果,從跨模態(tài)關(guān)聯(lián)層面糾正單模態(tài)語(yǔ)義描述中的錯誤結果,以實(shí)現多模態(tài)信息的語(yǔ)義協(xié)同優(yōu)化。
基于上述成果,項目團隊于2009年—2016年多次參加國際權威評測TRECVID的視頻語(yǔ)義搜索比賽,均獲得第一名。
管住與用好互聯(lián)網(wǎng)大數據
“除了‘科技頂天’,在關(guān)鍵核心技術(shù)上取得突破,我們也追求‘市場(chǎng)立地’,將我們的技術(shù)實(shí)現產(chǎn)業(yè)化,服務(wù)于社會(huì )。這也是我們北大計算機研究所的創(chuàng )立者王選院士對我們的要求?!迸碛钚抡f(shuō)道。
瞄準互聯(lián)網(wǎng)大數據“管不住”和“用不好”這兩大難題,項目團隊以上述技術(shù)為核心,形成了互聯(lián)網(wǎng)多模態(tài)內容分析與識別系統、方正智思互聯(lián)網(wǎng)輿情監測分析系統、方正智思智能分析系統等系列產(chǎn)品,實(shí)現了對互聯(lián)網(wǎng)文本、圖像、視頻等多模態(tài)內容的全面監測與數據利用。
項目團隊的系統和產(chǎn)品已成功應用于國家相關(guān)部門(mén)等上百家重要單位,涵蓋多個(gè)行業(yè)領(lǐng)域,在維護我國互聯(lián)網(wǎng)內容安全、促進(jìn)網(wǎng)絡(luò )文化健康發(fā)展等方面發(fā)揮了巨大作用。