作者|高飛
去年這個時候,投資圈曾經(jīng)有過一個“投模型還是投應用”的辯論。現(xiàn)在看來,這是一個無意義的議題,因為技術生態(tài)的邏輯已經(jīng)變了。
多數(shù)人仍然習慣用傳統(tǒng)的“兩層思維”生態(tài)架構來思考大模型:系統(tǒng)基座在下面,面向用戶的應用在上面,二者涇渭分明。
歷史上看,這種二分法是對的:
1. DOS 操作系統(tǒng)面世時,沒有可執(zhí)行的 “.com” 或 “.exe” 程序,用戶根本無從交互;
2. Windows 問世時,也沒有人會拿一個操作系統(tǒng)單獨“空跑”。哪怕是當年經(jīng)典的“紙牌”和“掃雷”,也是微軟為了讓大眾理解并熟悉圖形界面,不得不自己編寫的小應用;
3. iOS 讓智能手機成為一種基礎設施,但首批吸引用戶使用的,還是紙飛機、拍照,甚至打電話這些關鍵應用;
4. 云計算概念提出來后,人們談論的都是基于云的 SaaS 和各種網(wǎng)站,用不了多久就變成“這家公司用 AWS 跑后臺”這樣的陳述。云計算本身并沒有變成一個直接面向大眾的入口。
但是,AI 之所以是一場技術革命,就意味著它會顛覆我們已有的常識。我認為,兩層架構在這個時代已經(jīng)失效。
舉個例子:OpenAI 的 ChatGPT 從一開始發(fā)布時,就既是一個模型,又是一個面向大眾的消費級應用。
你不需要再去下載任何“子程序”才能讓 ChatGPT 跑起來;只需要在對話框輸入文字(提示工程,Prompt Engineering),它就能執(zhí)行推理或生成內容。它甚至創(chuàng)造了最快達到 1 億月活用戶的新紀錄。這是一個毫無爭議的應用。
但它同時也是一種模型,OpenAI提供了 API 調用,讓無數(shù)應用可以基于它構建。
當我們說 “DeepSeek” 時,既可能指一種在 LMarena、AIME 榜單上排名靠前的前沿推理模型,也可以指一款曾登頂中美等多個國家 iOS 應用商店的 App。
所以,下次再有人問:“我們該投大語言模型還是應用層?”也許可以告訴他,這不是一個非此即彼的問題。在這個領域里,模型就是應用,應用也就是模型。
如果你在做模型,你的用戶并不需要了解多少編譯、鏈接或 SDK 之類的東西,就能夠通過自然語言提示來使用它。
反過來,如果你在做 AI 應用,其實最終還是在向用戶交付一項“大模型”能力,無論你使用的是提示工程、強化學習、工作流、Agent,還是別的“套殼”手段,底層都還是那臺貫通一切的“大腦”。
模型與應用的邊界正在塌陷,用戶甚至不知道,或者并不在意自己是在“跑模型”還是在“用程序”。
但是,除了投資規(guī)模,做應用也并不比做基座模型廉價,因為在這個時代,切換一個模型底座并不比換輛車開更難。幾乎你使用的所有 AI 應用,都提供了在后臺切換模型的設置選項。
你能在云計算時代想象這些嗎?一個網(wǎng)站提供了切換不同云主機訪問?還記得適配安卓、iOS 等不同系統(tǒng)、不同尺寸的手機有多難嗎?
只不過,應用開發(fā)者還是需要一點戒備。你的產(chǎn)品最好不要在“智能演化”的延長線上。就像山姆·奧特曼(Sam Altman)所說:如果基座模型變得更好,你的應用也應該同步變得更好,而不是被徹底替代、不再被需要。
好文章,需要你的鼓勵
這項研究利用大語言模型解決科學新穎性檢測難題,南洋理工大學團隊創(chuàng)新性地構建了閉合領域數(shù)據(jù)集并提出知識蒸餾框架,訓練輕量級檢索器捕捉想法層面相似性而非表面文本相似性。實驗表明,該方法在市場營銷和NLP領域顯著優(yōu)于現(xiàn)有技術,為加速科學創(chuàng)新提供了有力工具。
un?CLIP是一項創(chuàng)新研究,通過巧妙反轉unCLIP生成模型來增強CLIP的視覺細節(jié)捕捉能力。中國科學院研究團隊發(fā)現(xiàn),雖然CLIP在全局圖像理解方面表現(xiàn)出色,但在捕捉細節(jié)時存在不足。他們的方法利用unCLIP生成模型的視覺細節(jié)表示能力,同時保持與CLIP原始文本編碼器的語義對齊。實驗結果表明,un?CLIP在MMVP-VLM基準、開放詞匯語義分割和視覺中心的多模態(tài)任務上顯著優(yōu)于原始CLIP和現(xiàn)有改進方法,為視覺-語言模型的發(fā)展提供了新思路。
這項研究介紹了RPEval,一個專為評估大語言模型角色扮演能力而設計的新基準。研究團隊從法國里爾大學開發(fā)的這一工具專注于四個關鍵維度:情感理解、決策制定、道德對齊和角色一致性,通過單輪交互實現(xiàn)全自動評估。研究結果顯示Gemini-1.5-Pro在總體表現(xiàn)上領先,而GPT-4o雖在決策方面表現(xiàn)出色,但在角色一致性上存在明顯不足。這一基準為研究人員提供了一個可靠、可重復的方法來評估和改進大語言模型的角色扮演能力。
這篇論文介紹了LegalSearchLM,一種創(chuàng)新的法律案例檢索方法,將檢索任務重新定義為法律要素生成。研究團隊構建了LEGAR BENCH數(shù)據(jù)集,涵蓋411種犯罪類型和120萬案例,并開發(fā)了能直接生成關鍵法律要素的檢索模型。實驗表明,該模型在準確率上超越傳統(tǒng)方法6-20%,且在未見犯罪類型上展現(xiàn)出強大泛化能力。這一突破為法律專業(yè)人士提供了更高效、精準的案例檢索工具。