▲Scandy Pro捕獲全彩色3D掃描
不久前,來自華盛頓大學的一組研究人員發(fā)布了一項新的實驗性技術。這項技術能夠直接從靜態(tài)2D圖像當中剪切字符,并將其轉換為3D動畫,最終以AR的方式將信息引入現(xiàn)實世界。這香技術被命名為Photo Wake-Up,適用于照片、海報乃至涂鴉藝術,能夠為嵌入式Pinocchios注入生命,使這些圖形自由地在現(xiàn)實環(huán)境中行走、跑步乃至跳躍。
該團隊在去年12月接受《麻省理工學院技術評論》雜志采訪時表示:“我們相信這種方法不僅能夠為人們提供欣賞照片并與其互動的新方式,而且還帶來了立足單一圖像重建虛擬化身的新途徑,甚至能夠從單張照片中洞悉人類藝術建模的真實狀態(tài)。”
▲由Chung-Yi Weng、Brian Curless、Ira Kemelmacher-Shlizerman合作開發(fā)的Photo Wake-Up
事實上,基于2D圖像重建3D模型的想法并不算新鮮。早在十多年之前,由吳恩達帶隊的斯坦福3D重建小組就研究過這一課題。然而,此次出現(xiàn)的解決方案要比以往任何時候都更加強大(或者說需求更為迫切),而且其與當前青少年VR與AR行業(yè)的內容供應問題密切相關。
截至目前,大多數(shù)用于VR及AR內容的3D模型仍由3D藝術家們手動創(chuàng)建,這是一項時間密集、成本高昂而且毫無擴展性可言的工作。另外,行業(yè)當中還存在著人才短缺的問題,而且這種問題并不能隨著規(guī)模化而有所緩和。正因為如此,以Sketchfab為代表的各類3D repo才受到廣泛歡迎,藝術家們可以在這里發(fā)布、分享、發(fā)現(xiàn)、購買以及出售各類3D、VR與AR內容。
盡管如此,創(chuàng)作者社區(qū)仍然迫切想要擺脫對于人類勞動力的依賴,并希望能夠從那些提供自動化能力的工具當中獲得更理想的效益。具體來講,這些工具必須能夠創(chuàng)造捷徑與“訣竅”,從而顯著加快并改善創(chuàng)作過程。
對此,Trnio公司創(chuàng)始人兼CEO Jan-Michael Trssler表示:“對于真正讓人身臨其境的世界,最出色的內容創(chuàng)作者需要使用大量的技術與軟件來創(chuàng)造真實的元素。我見過很多藝術家在使用攝影方法測量并捕捉物體,而后將此作為3D模型的創(chuàng)建起點。接下來,藝術家們會對資產元素進行簡化與優(yōu)化,以便使其在AR/VR引擎當中發(fā)揮作用。”
如今,以攝影測量與體積捕捉為代表的3D掃描技術在輸出質量方面不斷發(fā)展,并不斷縮短著3D模型的生產周期,這就使得現(xiàn)實世界變得越來越易于成為3D模型制作工作的直接來源。這類技術能夠幫助當前的創(chuàng)作者,乃至任何有意投身其中的新人,或尚在猶豫的潛在參與者更輕松地完成自己腦海中勾勒出的形象。
來自新奧爾良的Scandy公司創(chuàng)始人兼總裁Charles Carriere指出:“我們認為,大多數(shù)內容創(chuàng)作者實際上并沒有探索3D內容,因為他們缺少這類工具。事實上,目前幾乎所有正在創(chuàng)建的內容都以2D形式存在,因為每個人都能夠輕松訪問并使用2D工具——其中最重要的就是手機攝像頭。只要能夠為這些具有高度創(chuàng)造性的Snapchat、Instagram以及YouTube大牛們提供能夠創(chuàng)建3D模型的平臺及工具,那么高質量3D內容將以爆炸式的速度增長,并吸引到更多消費者。”
但真正的黃金時代尚未到來。人才的新鮮血液,或者3D掃描技術的不斷進步,仍然無法通過快速或者實質性的解決方案來彌補該行業(yè)目前所面臨的內容供應短缺問題。無論公平與否,消費級與企業(yè)市場的關注周期仍然有限,而且人們或多或少會在潛意識當中期望VR與AR內容的生產與迭代周期能夠與以往所習慣的2D內容在速度上相匹配。
立足以往的實際情況,這樣的期待明顯非常不切實際。然而,Photo Wake-Up這類3D重建技術的出現(xiàn)突然令2D圖像、資產乃至資源庫成了一種取之不盡、用之不竭的素材供應源。3D模型能夠以幾乎全自動的方式生成,并被快速應用到沉浸式體驗場景當中。事實上,這項技術不僅使得整個行業(yè)得以迎頭趕上,甚至有望在沉浸式領域引發(fā)寒武紀般的生命大爆發(fā)。
著眼于當下,AR零售與購物領域將成為第一個重要的灘頭陣地。包括蘋果、Facebook、PayPal校友以及斯坦福大學多位博士在內的資深企業(yè)家團隊,在日前以Threedy.ai公司參與者的身份集體亮相。Threedy.ai是一家深度科技初創(chuàng)企業(yè),專門負責解決3D內容供應難題。
Threedy.ai公司聯(lián)合創(chuàng)始人兼CEO Nima Sarshar解釋稱,“大家可以會認為創(chuàng)造這些產品的制造商肯定已經擁有了對應的3D模型素材,但事實告訴我們,雖然存在相關的CAD文件,相關廠商也愿意將其公開,并借此生成3D網格,但卻缺少與之對應的紋理或者材料。另外,也沒有統(tǒng)一的AR模型創(chuàng)建工作流程能夠消化來自六大主要CAD供應商的具體工具,以及超過14種文件格式。整個制造業(yè)都在大量以外包方式處理手動紋理打包工作。”
舉例來說,Houzz AR應用程序允許用戶根據(jù)尺寸與顏色等指標對房間內的家具進行查看。其中的挑戰(zhàn)在于,一切先進的AR購物應用程序,包括Houzz、Wayfair以及Overstock等,都只擁有一小部分庫存的3D模型。具體而言,Houzz所擁有的3D模型僅占全部餐廳家具類別中的3%。
Sarshar解釋稱,“我們的目標是成為商業(yè)產品3D模型領域的Getty Images網站。大家可以想象一下,未來也許亞馬遜目錄中的每一件商品都擁有對應的3D模型,這樣的資源庫將會多大。”
他們的第一款產品是Threedy Convert,能夠利用家用產品及家具的普通2D照片,通過專用計算幾何與深度學習算法,將其自動轉換為高質量3D模型。此項技術能夠批量應用于不斷增長的產品類別,并且通常只需要一張產品照片,整個實現(xiàn)成本也比現(xiàn)有解決方案便宜近兩個數(shù)量級。
Sarshar指出:“掃描雖然能夠提供更高的質量,但整個過程仍然非常枯燥且成本高昂。另外,從高多邊形掃描結果到適用于XR的低多邊形模型的轉換也絕非易事。還有一個重要的難題,對于大部分電子商務網站而言,大家根本沒有對應的物理對象,而只有數(shù)量有限的非結構化產品照片。”
這種以低維素材為起點,協(xié)助建立起高維素材的方法既令人驚訝,也絕對會受到市場的熱烈追捧。該技術并不是短期可行的補救式措施,而是代表著一種全新的內容轉換渠道。隨著VR與AR行業(yè)不斷發(fā)展與變化,這些內容有望在合適的時刻全面將渲染式體驗推向普羅大眾——我個人樂觀地認為,這一切在今年之內就有可能發(fā)生。
Amir Bozorgzadeh是Virtuleap公司的CEO,該公司是通過神經科學研究與機器學習實現(xiàn)人體在VR與AR環(huán)境中實現(xiàn)自我表達的企業(yè),他認為,如此一來,廠商與品牌方就能夠感受到用戶在查看內容時所抱有的興奮、憤怒或者厭倦等情緒。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術通過融合多幀圖像的"圖結構"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術利用圖像間的不變幾何關系,結合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構聯(lián)合提出SparseLoRA技術,通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。