AI爆點(diǎn)轉(zhuǎn)移至多模態(tài),體現(xiàn)了什么行業(yè)趨勢?

圖源:界面新聞圖源:界面新聞

  正如他對(duì)Sora 2和Nano Banana的爆點(diǎn)判斷,除去OpenAI對(duì)多模態(tài)生成類產(chǎn)品的轉(zhuǎn)移至多初步構(gòu)想成型,以及谷歌對(duì)圖像編輯器現(xiàn)階段用戶需求的模態(tài)把握(例如錨定一個(gè)點(diǎn)進(jìn)行針對(duì)性修改),兩款產(chǎn)品在生成質(zhì)量上并未實(shí)現(xiàn)飛躍。體現(xiàn)

  并且,什行勢在很大程度上,爆點(diǎn)以“文生圖、轉(zhuǎn)移至多文生視頻”為代表的模態(tài)多模態(tài)生成領(lǐng)域,其表現(xiàn)優(yōu)化是體現(xiàn)以文本模型性能提升為前提。階躍星辰創(chuàng)始人兼CEO姜大昕此前在接受界面新聞?dòng)浾卟稍L時(shí)指出,什行勢理解與生成之間的爆點(diǎn)關(guān)系是,理解控制生成、轉(zhuǎn)移至多而生成監(jiān)督理解。模態(tài)

  一級(jí)市場也在見證這種關(guān)注點(diǎn)切換。體現(xiàn)一名AI投資人對(duì)界面新聞?dòng)浾弑硎?,什行勢他的體感是今年行業(yè)整體投資事件增多,但投資規(guī)模在降低,這是投資重點(diǎn)由模型層向應(yīng)用層過渡后,后者的市場規(guī)模及估值所決定的。

  在這之中,今年最顯眼的一筆來自應(yīng)用層視覺創(chuàng)作領(lǐng)域的LiblibAI。10月23日,LiblibAI宣布完成1.3億美元B輪融資,紅杉中國、CMC資本等參與其中,促成今年國內(nèi)資本市場AI應(yīng)用賽道最大的一筆融資。這意味著相較其他賽道,團(tuán)隊(duì)的PMF(product-market-fit)更大程度受到資本認(rèn)可。

  在往后很長一段時(shí)間,業(yè)界能夠期待的“爆點(diǎn)”或許都將更多來自于多模態(tài)領(lǐng)域。

  姜大昕一直強(qiáng)調(diào)的觀點(diǎn)是,光有語言的智能不夠,多模態(tài)是大模型的必經(jīng)之路。而在這片領(lǐng)域,理解與生成的統(tǒng)一仍是現(xiàn)階段的突破點(diǎn)。

  多名受訪者曾對(duì)界面新聞?dòng)浾弑硎?,站在模型?xùn)練角度,視覺模態(tài)比文本模態(tài)面臨的挑戰(zhàn)更大。單從數(shù)據(jù)上來看,文本的表征可以在語義上自閉環(huán),但視覺信息的表征需要先與文本對(duì)齊,不存在天然自閉環(huán)的數(shù)據(jù),“可能需要幾次像ChatGPT、強(qiáng)化學(xué)習(xí)范式這樣的大技術(shù)變遷才能解決?!币幻茉L者說。

  而一派觀點(diǎn)認(rèn)為,基于更好的多模態(tài)模型,世界模型、具身智能、空間智能等才能得到長足發(fā)展,行業(yè)才能進(jìn)一步靠近AGI(通用人工智能)。

  更現(xiàn)實(shí)的考量是,模型決定應(yīng)用能力上限,在文本模型集中火力降本增效和緩慢提升性能的同時(shí),多模態(tài)模型的突破有望給市場帶來更多PMF機(jī)會(huì),這將是創(chuàng)業(yè)者和投資人眼中更具實(shí)際價(jià)值的關(guān)鍵變化。

娛樂
上一篇:降半旗志哀3天!全港哀悼大埔火災(zāi)罹難者安排公布
下一篇:印度緊急尋求方案,印媒建議學(xué)中國