您的當前位置:首頁 >焦點 >阿里通義千問再放大招 多模態(tài)大模型迭代 加速改寫AGI時間表 正文
時間:2025-12-01 08:00:12 來源:網(wǎng)絡整理編輯:焦點
阿里通義千問更新,再為多模態(tài)大模型賽道添了一把火。8月19日,通義團隊推出Qwen-Image-Edit,基于20B參數(shù)的Qwen-Image,專注于語義和外觀編輯,支持雙語文本修改、風格遷移及物體旋
阿里通義千問更新,阿里再為多模態(tài)大模型賽道添了一把火。通義態(tài)
8月19日,千問通義團隊推出Qwen-Image-Edit,再放基于20B參數(shù)的大招多模迭代Qwen-Image,專注于語義和外觀編輯,模型支持雙語文本修改、加速間表風格遷移及物體旋轉(zhuǎn),改寫進一步拓展了生成式AI在專業(yè)內(nèi)容創(chuàng)作中的阿里應用。
短短半年內(nèi),通義態(tài)阿里連續(xù)推出Qwen2.5-VL、千問Qwen2.5-Omni、再放Qwen-Image等多模態(tài)模型,大招多模迭代而阿里之外,模型智譜、加速間表階躍星辰等大模型廠商也在密集布局,從視覺理解到全模態(tài)交互,多模態(tài)大模型在2025年明顯迭代加速。
業(yè)內(nèi)普遍認為,當前大模型的發(fā)展已經(jīng)從單一的語言模型邁向了多模態(tài)融合的新階段,這是通向AGI的必經(jīng)之路。
谷歌研究報告顯示,預計至2025年,全球多模態(tài)AI市場規(guī)模將飆升至24億美元,而到2037年底,這一數(shù)字更是預計將達到驚人的989億美元。
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學家林達華在此前接受21世紀經(jīng)濟報道記者采訪時表示,未來的多模態(tài)模型甚至能在純語言任務上超越單一語言模型,而國內(nèi)廠商也在加速布局,2025年下半年或?qū)⒂瓉矶嗄B(tài)模型的全面普及。
國內(nèi)廠商密集布局
2023年12月,谷歌原生多模態(tài)Gemini 1.0模型正式上線,一舉將AI競賽由ChatGPT主導的文本領(lǐng)域帶入多模態(tài)領(lǐng)域。
人類的日常任務活動,天然涉及對文本、圖像、視頻、網(wǎng)頁等多模態(tài)信息的處理。從生產(chǎn)力工具到生產(chǎn)力,關(guān)鍵就在于多模態(tài)信息的輸入、處理與輸出能力。在大模型越來越強調(diào)落地應用的當下,多模態(tài)能力和低成本、強智能等特征一樣,成為了大模型的核心競爭點。
而大廠也早已開始了相關(guān)布局,阿里推出的Qwen2.5系列就在逐步強化多模態(tài)能力。
2025年,阿里開源升級版視覺理解模型Qwen2.5-VL,72B版本在13項權(quán)威評測中視覺理解能力全面超越GPT-4o與Claude3.5;同期還發(fā)布了首個端到端全模態(tài)大模型Qwen2.5-Omni,支持文本、圖像、音頻、視頻的實時交互,可部署于手機等終端智能硬件。
8月,阿里又開源全新的文生圖模型Qwen-Image,當天即登上AI開源社區(qū)Hugging Face的模型榜單首位,成為全球熱度最高的開源模型。
此次發(fā)布的Qwen-Image-Edit是基于20B的Qwen-Image模型進一步訓練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實現(xiàn)了對圖片中文字的精準編輯。
此外,Qwen-Image-Edit將輸入圖像同時輸入到Qwen2.5-VL(實現(xiàn)視覺語義控制)和VAE Encoder(實現(xiàn)視覺外觀控制),從而兼具語義與外觀的雙重編輯能力。
業(yè)內(nèi)評價稱,Qwen-Image-Edit在中文圖像編輯領(lǐng)域樹立了新標桿,尤其適合需要高精度文本修改和創(chuàng)意設計的場景,可以進一步降低專業(yè)圖像創(chuàng)作門檻。
積極布局多模態(tài)能力的廠商不只一家,近期模型迭代的速度也越來越快。
世界人工智能大會前夕,階躍星辰發(fā)布了新一代基礎大模型Step 3,原生支持多模態(tài)推理,具備視覺感知和復雜推理能力。階躍星辰Step系列基座模型矩陣中,多模態(tài)模型的占比達7成。此外,階躍星辰還連續(xù)開源語音、視頻生成、圖像編輯等多個多模態(tài)大模型。
同樣是在人工智能大會上,商湯發(fā)布了日日新V6.5大模型,進行了模型架構(gòu)改進和成本優(yōu)化,多模態(tài)推理與交互性能大幅提升。商湯從日日新6.0開始,就沒有語言模型單獨的存在,全部都是多模態(tài)模型。
8月,智譜也宣布推出開源視覺推理模型GLM-4.5V,并同步在魔搭社區(qū)與Hugging Face開源,涵蓋圖像、視頻、文檔理解以及GUIAgent等常見任務。
8月11日至15日,昆侖萬維(維權(quán))則在一周內(nèi)連續(xù)發(fā)布了六款多模態(tài)模型,覆蓋了數(shù)字人生成、世界模擬、統(tǒng)一多模態(tài)理解等核心場景。
這些全方位的開源攻勢明顯旨在快速占領(lǐng)開發(fā)者心智,建立各自產(chǎn)品在多模態(tài)領(lǐng)域的全面影響力。在當下這個節(jié)點,多模態(tài)的競爭還不算太晚。
仍處于發(fā)展初期
如果想要構(gòu)建通用人工智能(AGI)和強大的AI系統(tǒng),多模態(tài)的能力必不可少。
“從智能的本質(zhì)來說,需要對各種模態(tài)的信息進行跨模態(tài)的關(guān)聯(lián)?!绷诌_華向21世紀經(jīng)濟報道記者表示。
在這方面,中國科技公司速度很快。一個顯著的變化是,中國企業(yè)在多模態(tài)領(lǐng)域的集體崛起已經(jīng)改變了長期以來由OpenAI、Google等西方巨頭主導的AI創(chuàng)新敘事,在視覺推理、視頻生成等多個細分領(lǐng)域排在權(quán)威榜單的前列。
技術(shù)推進加速落地應用。2025年被業(yè)內(nèi)人士普遍視為“AI應用商業(yè)化元年”,而多模態(tài)技術(shù)正是這一趨勢的核心驅(qū)動力,數(shù)字人直播、醫(yī)療診斷、金融分析等等場景已經(jīng)有多模態(tài)大模型應用其中。
但從技術(shù)的角度來看,多模態(tài)領(lǐng)域還有很大的發(fā)展空間,尤其是對比文本領(lǐng)域。
“當前文本領(lǐng)域已從GPT范式的1.0走到了強化學習范式下的2.0,部分研究者已開始探索下一代范式如自主學習。相比之下,多模態(tài)領(lǐng)域仍處于發(fā)展初期,諸多基礎性問題尚未解決?!彪A躍星辰創(chuàng)始人、CEO姜大昕向21世紀經(jīng)濟報道記者表示,“這些挑戰(zhàn)不僅存在于國內(nèi)研究,國際領(lǐng)先模型同樣未能攻克?!?/p>
多模態(tài)技術(shù)面臨的瓶頸,其復雜性遠超自然語言處理。首先,在表征復雜度方面,文本作為離散符號系統(tǒng),其表征空間通常僅為數(shù)萬維度,這對計算機處理而言屬于低維問題。而視覺數(shù)據(jù)以1024×1024分辨率的圖像為例,其表征空間即達到百萬維度的連續(xù)空間,兩者在表征難度上存在本質(zhì)差異。
其次,在語義閉環(huán)性方面,文本系統(tǒng)具有天然的語義自閉環(huán)特性,其語義表達與表征空間完全統(tǒng)一。相比之下,視覺數(shù)據(jù)作為自然存在的物理空間表征,其本身并不包含語義信息。要實現(xiàn)視覺與文本語義空間的對齊,必須建立跨模態(tài)的映射關(guān)系,而這一映射缺乏天然的標注數(shù)據(jù)支持。
“這些導致了多模態(tài)領(lǐng)域的發(fā)展還是面臨非常大的挑戰(zhàn),還是需要幾次像ChatGPT、強化學習范式這樣的大技術(shù)變遷才能解決?!苯箨肯蛴浾弑硎?。
此外,雖然很多模型已經(jīng)在具體場景中實現(xiàn)落地應用,但距離真正實現(xiàn)AGI還有較為漫長的路要走。
主流的多模態(tài)模型通過視覺編碼器與語言模型的前后結(jié)合,但是后續(xù)的思考推理過程還是主要依賴純語言的推理,因此,當前多模態(tài)模型對于圖形和空間結(jié)構(gòu)的推理能力還很薄弱。林達華向記者舉例稱,國際頂尖多模態(tài)模型,在面對諸如積木拼接等簡單空間問題時,也無法準確判斷積木的組成數(shù)量以及各部分之間的連接關(guān)系,而這些問題對于幾歲的兒童來說卻是輕而易舉的。
“這表明當前多模態(tài)模型的思維方式主要依賴于邏輯推理,缺乏較強的空間感知能力。若這一問題得不到突破,未來將成為具身智能落地的重要障礙?!绷诌_華向記者表示。
隨著技術(shù)不斷成熟和生態(tài)持續(xù)完善,多模態(tài)能力將成為AI系統(tǒng)的標配,而如何將這種能力轉(zhuǎn)化為實際生產(chǎn)力和社會價值,將是產(chǎn)業(yè)界下一步需要重點探索的方向。
(作者:董靜怡 編輯:包芳鳴)
港府確保受災居民有地方居住,所有由政府提供的服務都不收費2025-12-01 07:47
今年8個億元獎欲破歷史紀錄 大樂透偏愛周一出2025-12-01 07:42
精選足籃專家:輝紅論球豪取11連紅 大聰10連紅2025-12-01 07:29
第12屆中信杯中國女子圍甲第七輪:成都銀行隊居首2025-12-01 07:23
專家:高市早苗突出非法無效的“舊金山和約”錯上加錯2025-12-01 07:21
常規(guī)賽最后一戰(zhàn) 60到100位全員出戰(zhàn)溫德姆錦標賽2025-12-01 06:27
雙色球1形態(tài)熱度爆棚 下期這1碼要出了?2025-12-01 06:15
朝鮮解放80周年大會,金正恩重磅講話全文公開2025-12-01 05:39
費耶諾德爆4.3倍冷負 足彩頭獎開159注73404元2025-12-01 05:37
中超球員創(chuàng)業(yè)史:他從后廚小工做到集團老總2025-12-01 05:18
費耶諾德爆4.3倍冷負 足彩頭獎開159注73404元2025-12-01 07:55
第12屆中信杯中國女子圍甲第七輪:成都銀行隊居首2025-12-01 07:22
美國宣布擴大對鋼鐵和鋁進口征收50%關(guān)稅的范圍 — 新京報2025-12-01 07:02
廣西防城港通報“女司機亮證逼迫讓路”事件后續(xù):多人被處理 — 新京報2025-12-01 07:00
媒體:換種思路應對“規(guī)模性返鄉(xiāng)滯鄉(xiāng)”2025-12-01 06:52
爆火!專家預測大樂透4期連中6注頭獎豪攬6千萬2025-12-01 05:39
競彩大勢:赫根主場坐和望贏 中日德蘭客場可期2025-12-01 05:39
新浪彩票名家大樂透第25087期推薦匯總2025-12-01 05:27
新導彈亮相,金正恩攜女兒著“親子裝”出席朝鮮空軍活動2025-12-01 05:16
她來云南啦!第二屆東盟智運會“圍棋女神”降臨!2025-12-01 05:13