因為對神經(jīng)網(wǎng)絡(luò)深層功能的理解,不僅有助于我們了解其決策機制,同時我們構(gòu)建更為強大的人工智能系統(tǒng)也至關(guān)重要。
中,也解釋了他們?nèi)绾瓮ㄟ^逐一刪除單個神經(jīng)元的方式去理解和判斷神經(jīng)網(wǎng)絡(luò)的性能。他們認(rèn)為,理解神經(jīng)科學(xué)與深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)之間關(guān)聯(lián)性的重要方法之一,正是調(diào)查個體神經(jīng)元的作用,特別是那些易于解釋的神經(jīng)元。
研究人員開發(fā)了專門的圖像分類模型,然后逐一刪除其中幾個神經(jīng)元,從而測量每個刪除對模型結(jié)果的影響。
據(jù)DeepMind稱,他們的發(fā)現(xiàn)產(chǎn)生了兩個結(jié)果:
研究人員廣泛分析了只能對單一輸入圖像類別作出響應(yīng),且易于解釋的神經(jīng)元(即“選擇性”神經(jīng)元)。他們發(fā)現(xiàn),在深度學(xué)習(xí)當(dāng)中,此類神經(jīng)元包括了"貓神經(jīng)元"、情緒神經(jīng)元以及概括神經(jīng)元; 而在神經(jīng)科學(xué)領(lǐng)域,此類神經(jīng)元則包括Jennifer Aniston神經(jīng)元等。然而,這些僅占少數(shù)比例的高選擇性神經(jīng)元在重要性上到底與其它低選擇性、更令人費解且難以解釋的神經(jīng)元有何區(qū)別,目前還不得而知。
具有清晰響應(yīng)模式的神經(jīng)元(例如對貓的圖像活躍,但對其它圖像皆不敏感的神經(jīng)元)比綜合性的神經(jīng)元(即能夠?qū)Ω黝愲S機圖像集發(fā)生反應(yīng)的神經(jīng)元)更易于解釋
而為了評估神經(jīng)元的重要性,研究人員在測試當(dāng)中移除了部分神經(jīng)元,從而觀察網(wǎng)絡(luò)的分類任務(wù)處理效能所發(fā)生的變化。如果其中某個神經(jīng)元非常重要,那么將其移除就會產(chǎn)生極大的破壞性,并顯著降低網(wǎng)絡(luò)效能。相反,如果移除的神經(jīng)元并不太重要,那么就不會造成什么影響。
神經(jīng)元缺失對簡單神經(jīng)網(wǎng)絡(luò)所造成影響的概念示意圖。較深的神經(jīng)元往往更為活躍。嘗試點擊隱藏層神經(jīng)元并將其移除,觀察輸出神經(jīng)元的活動所發(fā)生的改變。需要注意的是,移除一個或兩個神經(jīng)元對輸出結(jié)果的影響很小,而移除大部分神經(jīng)元則會產(chǎn)生顯著的影響,并且其中一部分神經(jīng)元確實比其它神經(jīng)元更為重要!
這一發(fā)現(xiàn)與最近在神經(jīng)科學(xué)方面的研究進展相互印證,目前科學(xué)家們已經(jīng)證明那些作用不明的神經(jīng)元實際上能夠提供豐富的信息。這意味著我們必須邁過易解釋神經(jīng)元這道難關(guān),才有可能真正搞清楚深層神經(jīng)網(wǎng)絡(luò)的運作機制。
雖然"貓神經(jīng)元"可能更易于解釋,但其重要性并不比綜合性且不具備明確偏好的神經(jīng)元更高??梢渣c擊圖中標(biāo)記,看看重要性與解釋性之間到底存在著怎樣復(fù)雜的關(guān)系
因此,研究人員的結(jié)論是,盡管可解釋神經(jīng)元在直覺上更易于理解(比如"它喜歡狗"),但其重要性并不一定會比缺少明顯偏好的綜合性神經(jīng)元更高。
推廣能力更強的網(wǎng)絡(luò)也具有更大的彈性
舉例來說,如果一套圖像分類網(wǎng)絡(luò)只能對以前見過的特定小狗圖片進行分類,卻無法對新的小狗圖像完成識別,就可以說是不具備智能。Google Brain、伯克利以及DeepMind最近在ICLR 2017上獲得最佳論文獎項的合作論文就提到,深層網(wǎng)絡(luò)能夠簡單記住其訓(xùn)練當(dāng)中所見到的每一幅圖像,這代表著其學(xué)習(xí)方式與人類仍然存在巨大差異。
然而,目前我們往往很難判斷一套神經(jīng)網(wǎng)絡(luò)是否已經(jīng)學(xué)會了足以推廣到新場景應(yīng)用的能力。為此,通過逐漸移除越來越大的神經(jīng)元組,研究人員發(fā)現(xiàn)相對于簡單記憶以往在訓(xùn)練期間見到過的網(wǎng)絡(luò),適應(yīng)性更強的網(wǎng)絡(luò)對神經(jīng)元缺失擁有更好的彈性表現(xiàn)。換句話說,適應(yīng)性較強的網(wǎng)絡(luò)更難被破壞(當(dāng)然,如果神經(jīng)元移除至一定程度,其仍然會遭到破壞)。
隨著越來越多的神經(jīng)元被移除,具有廣泛適應(yīng)性的網(wǎng)絡(luò)在效能下降速度方面遠(yuǎn)低于記憶性網(wǎng)絡(luò)
通過這種網(wǎng)絡(luò)穩(wěn)健性衡量方式,科學(xué)家將能夠評估是否能夠通過為一套網(wǎng)絡(luò)提供不符合要求的記憶而對其進行"欺騙"。此外,了解網(wǎng)絡(luò)在記憶過程當(dāng)中的變化也將有助于我們構(gòu)建新的網(wǎng)絡(luò),從而保證更少地依賴記憶、更多地建立概括能力。
總而言之,這些發(fā)現(xiàn)確實能夠被用于理解神經(jīng)網(wǎng)絡(luò)的力量。通過這些方法,我們發(fā)現(xiàn)高選擇性神經(jīng)元在重要性上并不強于非選擇性神經(jīng)元,而適應(yīng)性更高的網(wǎng)絡(luò)對單一神經(jīng)元的依賴性也要低于單純記憶型網(wǎng)絡(luò)。這些結(jié)果意味著,單一神經(jīng)元的重要性并不像人們想象中的那么高。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。