AI爆點轉(zhuǎn)移至多模態(tài),體現(xiàn)了什么行業(yè)趨勢?
圖源:界面新聞正如他對Sora 2和Nano Banana的爆點判斷,除去OpenAI對多模態(tài)生成類產(chǎn)品的轉(zhuǎn)移至多初步構(gòu)想成型,以及谷歌對圖像編輯器現(xiàn)階段用戶需求的模態(tài)把握(例如錨定一個點進(jìn)行針對性修改),兩款產(chǎn)品在生成質(zhì)量上并未實現(xiàn)飛躍。體現(xiàn)
并且,什行勢在很大程度上,爆點以“文生圖、轉(zhuǎn)移至多文生視頻”為代表的模態(tài)多模態(tài)生成領(lǐng)域,其表現(xiàn)優(yōu)化是體現(xiàn)以文本模型性能提升為前提。階躍星辰創(chuàng)始人兼CEO姜大昕此前在接受界面新聞記者采訪時指出,什行勢理解與生成之間的爆點關(guān)系是,理解控制生成、轉(zhuǎn)移至多而生成監(jiān)督理解。模態(tài)
一級市場也在見證這種關(guān)注點切換。體現(xiàn)一名AI投資人對界面新聞記者表示,什行勢他的體感是今年行業(yè)整體投資事件增多,但投資規(guī)模在降低,這是投資重點由模型層向應(yīng)用層過渡后,后者的市場規(guī)模及估值所決定的。
在這之中,今年最顯眼的一筆來自應(yīng)用層視覺創(chuàng)作領(lǐng)域的LiblibAI。10月23日,LiblibAI宣布完成1.3億美元B輪融資,紅杉中國、CMC資本等參與其中,促成今年國內(nèi)資本市場AI應(yīng)用賽道最大的一筆融資。這意味著相較其他賽道,團(tuán)隊的PMF(product-market-fit)更大程度受到資本認(rèn)可。
在往后很長一段時間,業(yè)界能夠期待的“爆點”或許都將更多來自于多模態(tài)領(lǐng)域。
姜大昕一直強調(diào)的觀點是,光有語言的智能不夠,多模態(tài)是大模型的必經(jīng)之路。而在這片領(lǐng)域,理解與生成的統(tǒng)一仍是現(xiàn)階段的突破點。
多名受訪者曾對界面新聞記者表示,站在模型訓(xùn)練角度,視覺模態(tài)比文本模態(tài)面臨的挑戰(zhàn)更大。單從數(shù)據(jù)上來看,文本的表征可以在語義上自閉環(huán),但視覺信息的表征需要先與文本對齊,不存在天然自閉環(huán)的數(shù)據(jù),“可能需要幾次像ChatGPT、強化學(xué)習(xí)范式這樣的大技術(shù)變遷才能解決。”一名受訪者說。
而一派觀點認(rèn)為,基于更好的多模態(tài)模型,世界模型、具身智能、空間智能等才能得到長足發(fā)展,行業(yè)才能進(jìn)一步靠近AGI(通用人工智能)。
更現(xiàn)實的考量是,模型決定應(yīng)用能力上限,在文本模型集中火力降本增效和緩慢提升性能的同時,多模態(tài)模型的突破有望給市場帶來更多PMF機會,這將是創(chuàng)業(yè)者和投資人眼中更具實際價值的關(guān)鍵變化。