又是一屆谷歌開發(fā)者大會(2024 Google I/O Connect),從今年6月至8月歷時兩個月,這場“環(huán)球之旅”先后走過德國柏林、印度班加羅爾,最后壓軸之站來到中國北京。
作為每年Google I/O大會之后的衍生篇,“Connect系列活動”如同“Connect(連接)”一詞的內涵,更主張local+global(本地化+全球化)。彼時科技行者同時參與了5月份在美國山景城的Google I/O,感受頗深的是,谷歌一直在強調用Gemini將AI踐行到底;只不過這次在中國的內容,谷歌傳遞了很多特色故事,這些故事有谷歌的AI如何點亮中國傳統(tǒng)文化,如何創(chuàng)造種類繁多的AI應用,以及更重要的,如何賦能中國開發(fā)者的成功出海。
這次北京活動的第一天,剛好是8月7日,中國節(jié)氣里的立秋,是收獲的季節(jié),但是在現場,或許“春耕”才符合他們的真實寫照。
AI舞臺上的“東方力量”
“中國開發(fā)者是全球舞臺上不可或缺的先鋒力量。”Google大中華區(qū)總裁陳俊廷的這句開場白,無疑是整場活動的最佳注解,“過去一年里,來自中國的25個開發(fā)團隊,共有31款游戲和應用,在全球不同地區(qū)斬獲了50個Google Play年度最佳獎項。”
Google大中華區(qū)總裁陳俊廷
與這個成績相呼應的,是陳俊廷接下來列舉的一個個案例,講述了中國公司如何利用AI、重塑商業(yè)模式、驅動業(yè)務升級、為全球用戶帶去驚喜。
· 在數字營銷領域。網易游戲在海外接觸Google Cloud Vertex AI平臺,提升了廣告文案創(chuàng)作效率,工作時間從原來的1周縮減到幾個小時,每月累計可以生成700多條定制化文案,定制化的營銷服務“信手拈來”。
· 同樣是數字營銷領域。“當紅炸子雞”家居在線平臺Homary,通過Google AI賦能海外廣告投放,實現了投資回報率提升49%、轉化價值提升50%,可謂是賣爆全球。
· 在消費電子領域。小米在海外提前布局AI,利用Google Cloud和Gemini,讓海外用戶感受“中國智造”的魅力。
當然,AI助推進步不僅限于尖端生產力,在傳承中國文化與造福社會方面,同樣擁有無限潛力。譬如:
· AI賦能傳統(tǒng)與現代的融合創(chuàng)新。廣州博物館與谷歌藝術與文化(Google Arts & Culture)合作,通過沉浸式線上展覽,向全球用戶呈現廣州千年港口的璀璨和飲食文化的魅力,比如廣彩、德化瓷、鎮(zhèn)海樓等,涵蓋了127件珍貴館藏圖片和10個豐富的文化故事。
· AI賦能可持續(xù)發(fā)展。在四川高原牧場,西南民族大學借助谷歌的AI開源技術,改善了當地牧民生活。一位參與該項目的西南民族大學同學分享道:“紅原縣平均海拔3600米,這里有一望無際的草場,牦牛有沒有長肉是牧民尤其關心的問題,我們收集了大量的牦牛圖像數據,利用TensorFlow訓練牦牛的關鍵點檢測,借助輕量化的TensorFlow Lite模型部署在APP上,現在牧民只需要拍攝牦牛的照片,就能估算出牦牛的體重,適時調整養(yǎng)殖策略。為了幫助農民更好的進行放牧規(guī)劃,我們利用谷歌的AI開源技術ARCore,在APP上設計了放牧規(guī)劃模塊、草畜平衡模塊,幫助牧民進入自家牧場了解情況,推動牧場的可持續(xù)發(fā)展。”
· AI賦能社會公益。在中國26所偏遠地區(qū)的小學課堂上,谷歌公益攜手欣欣教育基金會,通過“編譯夢想”項目,對900多名學生進行AI入門和基礎教育,為孩子們打開AI世界的大門;在“善創(chuàng)未來”黑客馬拉松中,40多名開發(fā)者以公益實踐為主題,帶來了兼具人文關懷、實用性和前瞻性的技術解決方案,比如此次會議介紹的兩個AI技術開源項目:“手語村”與“智引線”,為聽障和視障人士提供更多學習和生活的便利。
在谷歌看來,AI正在改變「開發(fā)」的格局,從激發(fā)應用創(chuàng)意,到重塑構建方法,而谷歌始終致力于通過AI賦能的產品開發(fā)工具和平臺,幫助出海開發(fā)者大膽創(chuàng)新、高效創(chuàng)造、觸達全球。
那么對于這群可愛的開發(fā)者們而言,有哪些AI賦能的產品開發(fā)工具和平臺?答案,就要從Gemini開始說起。
用AI重塑開發(fā),狂卷Gemini
如果說,曾經你還搞不清楚谷歌千千萬萬產品的名字,那么以后不必擔心,因為當談及谷歌的AI時,它們只會指向同一個名字——Gemini。
Gemini,是谷歌現在最核心的基礎模型,同時被廣泛認為是這家公司在AI時代的野心,此前谷歌CEO桑達爾·皮查伊(Sundar Pichai)在2024 Google I/O更是直言“谷歌正式邁向Gemini時代”。
從谷歌的表述來看,Gemini的獨特之處在于“它不是單獨在文本語料庫上訓練的,而是一開始就被設計為「多模態(tài)模型」”,所以它可同時處理多種類型的數據,文本、圖像、音視頻、代碼等。迄今,Gemini一共發(fā)布了兩代,Gemini 1.0(發(fā)布于2023年12月)和Gemini 1.5(發(fā)布于2024年2月),而為了匹配不同場景下的開發(fā)需求,它目前一共有Ultra、Pro、Flash、Nano四個版本。其中:
· Gemini Ultra是谷歌規(guī)模最大、功能最強的模型,適用于“高度復雜的任務”。據說它是第一個在 57 門學科的大規(guī)模多任務語言理解(MMLU)測試中優(yōu)于人類專家的語言模型,得分90%,這些學科包括數學、物理、歷史、法律、醫(yī)學等等。
· Gemini Pro適用于“各種廣泛的任務”。目前,Gemini 1.5 Pro版本做了顯著改進,不僅支持200萬token的上下文窗口,還提升了在編寫代碼、邏輯推理和規(guī)劃、多輪對話、理解音頻和圖像方面的能力,所以它適合“需要最高質量響應的復雜任務”,它回答的質量也高。
· Gemini Nano是最高效的模型,適合處理“端側任務”(比如安卓手機),它可直接在移動設備上運行,提供低延遲響應和數據隱私保護。
· Gemini Flash是谷歌迄今速度最快、最經濟的模型,專門針對大規(guī)模、高頻率的運算任務進行了優(yōu)化,適合處理“高容量任務”。有意思的是,1.5 Flash是通過1.5 Pro 的訓練過程進行“提取”得到的,也就是說,將大模型中的核心知識和技能轉移到這個較小但更高效的模型上。不過,盡管與1.5 Pro相比,1.5 Flash更輕量,但后者在處理大量信息時仍展現出強大的多模態(tài)推理能力,擅長摘要制作、聊天應用、提供圖說和視頻字幕、以及從長篇文件和表格中提取數據等任務。
總之,谷歌將逐漸把Gemini納入旗下所有產品里,包括搜索、地圖、照片、Workspace、安卓等。Gemini也會被集成到谷歌的眾多開發(fā)工具中,包括Android Studio、Chrome DevTools、Project IDX、Colab、VS Code、IntelliJ和Firebase,可以幫助開發(fā)者編寫、調試和測試代碼,還可以生成文檔、理解整個代碼庫等,化身“開發(fā)助手”。
在谷歌的設想下,有了Gemini全家桶,開發(fā)者可以專注于構建AI功能,而谷歌專注于打磨這一王牌選手。但是,這還不夠。
Google Developer X和開發(fā)者關系副總裁兼總經理Jeanine Banks
Google Developer X和開發(fā)者關系副總裁兼總經理Jeanine Banks現場指出,為了滿足開發(fā)者對靈活性和掌控力的需求,根據具體應用場景對AI進行微調、增強和接地氣,谷歌自己卷自己,推出與Gemini“一脈相承”的開源大模型——Gemma,采用與Gemini相同的研究和技術。
Gemma發(fā)布于今年2月,分為2B(20億參數)和7B(70億參數)兩種尺寸版本,2B版本甚至可直接在筆記本電腦上運行;今年6月,谷歌又推出了更強大、更高效、更安全的Gemma 2,擁有90億(9B)和270億(27B)兩種參數大小。
當然,技術參數是一方面,怎么善用工具更重要。
谷歌這次也像往年一樣,分享了全套應用開發(fā)工具和服務的更新,覆蓋AI、Web、移動端、云這4個開發(fā)平臺,為AI時代的開發(fā)者提供沃土。
比如谷歌的開源UI工具包——Flutter,它可以在移動端、Web端、桌面端觸及用戶,其全部使用單一共享代碼庫。而在會上,谷歌宣布更新了Flutter 3.24和Dart 3.5版本,其中包括新的Flutter GPU API 的早期預覽、Web上元素嵌入的增強、以及針對 iOS 生態(tài)系統(tǒng)構建的幾項更新,包括對Swift Package Manager的早期支持,以及對Cupertino widget 的功能更新。
傳統(tǒng)上,跨平臺框架在視覺效果上需要妥協(xié),因為它們依賴于底層平臺提供的高級抽象。而Flutter采用了不同的方法,擁有自己的渲染層,可以在每個設備上,提供硬件加速的圖形和流暢的性能。谷歌在Impeller和著色器方面取得了實質性進展,為圖形處理帶來了激動人心的新可能 ——比如3D。
其中最大的亮點是Flutter GPU API的早期預覽,這是一個強大的底層圖形API,它直接集成到Flutter SDK中,開發(fā)者可以通過該API,自定義光柵管線并直接向GPU提交繪制調用,使得創(chuàng)建專門的渲染器成為可能,如2D Canvas替代品、3D場景圖、甚至粒子系統(tǒng),以創(chuàng)建視覺上令人驚嘆、高性能和身臨其境的體驗,而無需通常需要的引擎級別的開銷。
在flutter_scene中渲染的科幻太空頭盔的3D動畫
現場聯(lián)動環(huán)節(jié),小米展示了利用Flutter,為小米SU7開發(fā)車載配套應用,包括遠程車輛控制、接收車輛狀態(tài)的實時更新、在后排懸掛Pad安裝另外一塊拓展屏App等。“上手Flutter非常容易,并且開發(fā)進展迅速,我們預估比使用原生框架的效率高60%。”小米汽車智能座艙手機APP客戶端高級研發(fā)工程師陳作斌在宣傳片里分享道。
除了上述更新,谷歌還揭秘了開源項目Project Oscar。它是一個 AI代理(AI Agent)的參考實現,可協(xié)助維護開源項目。它以Go編程語言項目為入手點,將來能為各種不同的開源項目帶來助力,幫助開發(fā)者全心投入編程工作。
這可以是AI開發(fā)的試驗田
誠然,幾乎所有開發(fā)者活動,其實都有一個共性:盡可能激勵開發(fā)者的創(chuàng)作靈感,谷歌的這次活動也不例外。所以,如果我們把視角從主題演講的發(fā)布,挪到范圍更大的其他環(huán)節(jié),就會發(fā)現有更多的開發(fā)者聚集在現場的工作坊、展區(qū)體驗、各種交流的場合里。
展區(qū)體驗環(huán)節(jié)同樣是圍繞AI、Web、移動端、云這4個主題分布,然而當我實際體驗時才得知,這些案例中的大部分,并非是已經商業(yè)化的成熟案例,而是作為一個單純的demo,為啟發(fā)開發(fā)者的創(chuàng)作靈感而準備的。
比如多次亮相于谷歌開發(fā)者大會的“大黃”——谷歌的一個實驗性項目,目的是為了給開發(fā)者提供靈感,展示AI如何量身定制一款交互助手。大黃的技術基因很多,它囊括了PaLM2、MakerSuite、MediaPipe、Vertex AI等,有了這些技術的加持,大黃可以與人實時對話。不過與去年相比,今年的大黃不僅會“說話”,還能“看見”周圍環(huán)境。開發(fā)者可以通過“大黃”,了解到如何用Gemma開發(fā)交互助手。
再比如展區(qū)現場的“Golf with Gemini(高爾夫陪練)”體驗,Gemini可以作為教練,從準度、是否違規(guī)、優(yōu)雅度、桿前動作、姿勢與力量、最終得分、總結等維度,對你每一次的揮桿,給出專業(yè)指導。現場采訪中,工作人員介紹了它的工作流:
· 視頻捕捉和處理:攝像機抓取玩家的高爾夫球比賽場景,所拍攝的視頻上傳到Google Cloud Storage;同時,利用計算機視覺的目標檢測技術,在視頻中逐幀追蹤高爾夫球的運動,并提取球的位置、與球洞的距離、擊球次數等數據;
· 數據存儲與分析:提取的數據被實時傳輸到BigQuery,大量的數據被高效存儲和分析,分析結果隨后可被可視化,以更加了解高爾夫進程。
· 基于生成式AI的實時趣味解說:Gemini 1.5 Pro將基于拍攝的視頻和數據,生成實時趣味解說。
諸如此類的體驗還有很多,谷歌一直在通過寓教于樂的方式,來挖掘開發(fā)潛能。甚至,為了培養(yǎng)中國開發(fā)者,谷歌從教育抓起——「谷歌數字人才培養(yǎng)計劃」自2022年起與教育部合作,目前已為全國150多所高校的560多名教師開展線下培訓,累計覆蓋4萬多名在校學生。
為了更好服務于中國開發(fā)者走向海外,Google開發(fā)者中文網站還上線了Google AI頁面,專門提供Google AI技術更新、實時的新聞動態(tài)、豐富的學習資源;同時,谷歌通過“出海創(chuàng)業(yè)加速器(GFSA,Google for Startups Accelerator)”項目,助力中國創(chuàng)業(yè)者和開發(fā)者決勝全球,并且每年舉行為期3個月的訓練營,為入營企業(yè)提供三個月的免費創(chuàng)業(yè)支持。
Google AI頁面(中文版)
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數學推理能力提升8.6%,通用推理提升8.4%,且無需任何數學題目作為訓練材料。研究發(fā)現游戲中的三種推理模式能成功轉移到數學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數學優(yōu)化方法,在合成數據集上實現37.9%的精度提升,并在真實設備上展現出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現,經過強化學習訓練的視覺語言模型雖然表現出"頓悟時刻"現象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。
關注科技創(chuàng)新、技術投資。
以文會友,左手硬核科技,右手浪漫主義。