
每天我們都在報道人工智能又解決了哪些問(wèn)題,今天我們做一次逆向思考,人工智能尚未解決的問(wèn)題有哪些?
想要理解AI欠缺什么,最好的辦法是描述一個(gè)需要將各種人類(lèi)習以為常的認知能力結合在一起的場(chǎng)景。當代的人工智能和機器學(xué)習方法可以處理需要單一能力的問(wèn)題(當然,處理效果各不相同),但整合這些能力卻仍然是一個(gè)遙不可及的目標。
想象一下你和你的朋友剛買(mǎi)了一個(gè)復雜的新棋類(lèi)游戲,有一塊精致的板子和各種各樣的棋子、卡片以及復雜的規則。還沒(méi)有人知道怎么玩它,所以你們拿出說(shuō)明書(shū)。讀完之后你們開(kāi)始玩起來(lái)。有些人可能會(huì )犯一些錯誤,但幾輪下來(lái),每個(gè)人都學(xué)會(huì )了游戲規則,至少可以嘗試贏(yíng)得比賽。
在學(xué)習這個(gè)游戲的過(guò)程中發(fā)生了什么?
1.語(yǔ)言解析:讀游戲規則的玩家必須將符號轉換成口語(yǔ)。聽(tīng)游戲規則的玩家必須分析口語(yǔ)。
2.模式識別:玩家必須把所朗讀的單詞和游戲中的物體連接起來(lái)?!甘骥蛔印购汀讣t方士兵」必須基于語(yǔ)言線(xiàn)索被識別出來(lái)。如果該說(shuō)明書(shū)有插圖,那么它們必須與現實(shí)中的物體相匹配。在游戲中,玩家必須識別出旗子和卡片的錯綜組合,以及事件發(fā)生的關(guān)鍵序列。優(yōu)秀的玩家還會(huì )學(xué)習去識別其他玩家的游戲模式,從而有效建立起有關(guān)他人心理狀態(tài)的模型。
3.運動(dòng)控制:玩家必須能夠將棋子和卡片移動(dòng)到棋盤(pán)上的正確位置。
4.規則遵守與規則推斷:玩家必須理解規則并檢查規則是否得到了正確的應用。在掌握了基本的規則之后,優(yōu)秀的玩家還應該能夠發(fā)現更高級別的規則或有助于他們取得勝利的傾向。這種推論能力與塑造他人思維模型的能力密切相關(guān)。(這在心理學(xué)中被稱(chēng)為心智理論,theoryofmind)。
5.社交禮儀:玩家之間是朋友伙伴的關(guān)系,即使有些玩家犯了錯誤或擾亂了游戲進(jìn)程,也應當友好相處。(當然,我們知道這并不總會(huì )發(fā)生。)
6.處理干擾:如果門(mén)鈴響了,外賣(mài)到了,玩家們必須能夠從比賽中抽身,與送貨人打交道,然后再投入到比賽中,回憶起游戲的進(jìn)展,譬如輪到誰(shuí)了。
在所有這些子問(wèn)題中,AI至少取得了一些進(jìn)展。但目前這一輪人工智能/機器學(xué)習領(lǐng)域的爆發(fā)主要還是模式識別技術(shù)進(jìn)步的成果。
在當前的某些特定領(lǐng)域,人工智能的模式識別水平已經(jīng)優(yōu)于人類(lèi)。但也有各種各樣識別失敗的情況發(fā)生。人工智能方法識別物體和序列的能力還不如人類(lèi)模式識別那樣魯棒。
人類(lèi)有能力創(chuàng )造出各類(lèi)不變性表示。例如,即使視角不同、存在遮擋物、光照條件變幻莫測,人類(lèi)仍然能夠識別出特定的視覺(jué)模式(譯者注:比如可以在黑暗里憑借眼睛認出一只貓,看到被建筑物遮擋到只剩一個(gè)尾燈的車(chē),仍然能自動(dòng)識別出車(chē)在建筑物后的位置)。我們的聽(tīng)覺(jué)模式識別技能或許更加出彩,能夠在噪音干擾以及速度、音高、音色和節奏的起伏中識別出樂(lè )句。
毫無(wú)疑問(wèn),人工智能將在這一領(lǐng)域取得穩步進(jìn)展,但我們不知道隨著(zhù)單個(gè)領(lǐng)域識別能力的不斷進(jìn)步,將已習得的表示在新環(huán)境中泛化(generalize)的能力是否也會(huì )隨之提高。
現有的人工智能游戲玩家都無(wú)法解析這樣一句話(huà):「這個(gè)游戲就像太空版的《卡坦島》(ThisgameislikeSettlersofCatan,butinSpace)」。語(yǔ)言解析可能是人工智能最為棘手的部分。人類(lèi)可以使用語(yǔ)言獲取新信息和新技能,部分原因是我們擁有關(guān)于世界的豐富的背景知識。此外,我們可以利用上下文來(lái)十分靈活地運用這些背景知識,因此我們可以辨別出內容之間相關(guān)與否。
對舊知識的泛化和重用隸屬于一個(gè)更為廣泛的能力:多技能整合??赡芪覀兡壳暗姆椒ㄟ€達不到生物智能那樣輕易實(shí)現大規模能力集成。
一個(gè)常見(jiàn)的能力集成方面的挑戰是符號接地問(wèn)題(symbolgroundingproblem)。即符號系統(例如數學(xué)符號或語(yǔ)言中的詞)如何與感知現象——視覺(jué)、聲音、紋理等相連接。
粗略地說(shuō),人工智能方法分為兩類(lèi):符號化(symbolic)和亞符號化(sub-symbolic)。符號化方法被用于「經(jīng)典的」或「傳統的」人工智能。它們非常適用于基于規則的確定性場(chǎng)景,比如下棋(但通常我們必須預先編碼好規則)。如果人類(lèi)提前做了符號接地(symbol-grounding),符號處理過(guò)程就會(huì )很輕松。如果讓人工智能直接處理「原始」輸入信息,比如光、聲音、紋理和壓力這些數據,效果就沒(méi)那么好了。
在另一個(gè)極端,我們有亞符號方法,如神經(jīng)網(wǎng)絡(luò )(深度學(xué)習網(wǎng)絡(luò )是其中的一種)。這些方法接收原始輸入信息的數字化版本——像素、聲音文件等作為輸入。亞符號方法適用于許多形式的模式識別和分類(lèi)問(wèn)題,但是我們仍然沒(méi)有可以從類(lèi)別標簽轉換到基于規則進(jìn)行操縱的符號系統的可靠方法。
所以綜上所述,想要了解人工智能問(wèn)題的范疇,首先要了解智力本身——它遠比模式識別復雜得多。我們需要能夠建立起模式與符號表示系統之間的雙向連接,使語(yǔ)言的和基于規則的思維能夠整合在一個(gè)具身代理中,與現實(shí)世界進(jìn)行實(shí)時(shí)的交互。