阿里通義千問再放大招多模態(tài)大模型迭代加速改寫AGI時(shí)間表

來源：素昧平生網(wǎng)編輯：百科時(shí)間：2025-11-30 17:35:33

　　阿里通義千問更新，阿里再為多模態(tài)大模型賽道添了一把火。通義態(tài)

　　8月19日，千問通義團(tuán)隊(duì)推出Qwen-Image-Edit，再放基于20B參數(shù)的大招多模迭代Qwen-Image，專注于語義和外觀編輯，模型支持雙語文本修改、加速間表風(fēng)格遷移及物體旋轉(zhuǎn)，改寫進(jìn)一步拓展了生成式AI在專業(yè)內(nèi)容創(chuàng)作中的阿里應(yīng)用。

　　短短半年內(nèi)，通義態(tài)阿里連續(xù)推出Qwen2.5-VL、千問Qwen2.5-Omni、再放Qwen-Image等多模態(tài)模型，大招多模迭代而阿里之外，模型智譜、加速間表階躍星辰等大模型廠商也在密集布局，從視覺理解到全模態(tài)交互，多模態(tài)大模型在2025年明顯迭代加速。

　　業(yè)內(nèi)普遍認(rèn)為，當(dāng)前大模型的發(fā)展已經(jīng)從單一的語言模型邁向了多模態(tài)融合的新階段，這是通向AGI的必經(jīng)之路。

　　谷歌研究報(bào)告顯示，預(yù)計(jì)至2025年，全球多模態(tài)AI市場(chǎng)規(guī)模將飆升至24億美元，而到2037年底，這一數(shù)字更是預(yù)計(jì)將達(dá)到驚人的989億美元。

　　商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華在此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示，未來的多模態(tài)模型甚至能在純語言任務(wù)上超越單一語言模型，而國(guó)內(nèi)廠商也在加速布局，2025年下半年或?qū)⒂瓉矶嗄B(tài)模型的全面普及。

　　國(guó)內(nèi)廠商密集布局

　　2023年12月，谷歌原生多模態(tài)Gemini 1.0模型正式上線，一舉將AI競(jìng)賽由ChatGPT主導(dǎo)的文本領(lǐng)域帶入多模態(tài)領(lǐng)域。

　　人類的日常任務(wù)活動(dòng)，天然涉及對(duì)文本、圖像、視頻、網(wǎng)頁(yè)等多模態(tài)信息的處理。從生產(chǎn)力工具到生產(chǎn)力，關(guān)鍵就在于多模態(tài)信息的輸入、處理與輸出能力。在大模型越來越強(qiáng)調(diào)落地應(yīng)用的當(dāng)下，多模態(tài)能力和低成本、強(qiáng)智能等特征一樣，成為了大模型的核心競(jìng)爭(zhēng)點(diǎn)。

　　而大廠也早已開始了相關(guān)布局，阿里推出的Qwen2.5系列就在逐步強(qiáng)化多模態(tài)能力。

　　2025年，阿里開源升級(jí)版視覺理解模型Qwen2.5-VL，72B版本在13項(xiàng)權(quán)威評(píng)測(cè)中視覺理解能力全面超越GPT-4o與Claude3.5；同期還發(fā)布了首個(gè)端到端全模態(tài)大模型Qwen2.5-Omni，支持文本、圖像、音頻、視頻的實(shí)時(shí)交互，可部署于手機(jī)等終端智能硬件。

　　8月，阿里又開源全新的文生圖模型Qwen-Image，當(dāng)天即登上AI開源社區(qū)Hugging Face的模型榜單首位，成為全球熱度最高的開源模型。

　　此次發(fā)布的Qwen-Image-Edit是基于20B的Qwen-Image模型進(jìn)一步訓(xùn)練，將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域，實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。

　　此外，Qwen-Image-Edit將輸入圖像同時(shí)輸入到Qwen2.5-VL（實(shí)現(xiàn)視覺語義控制）和VAE Encoder（實(shí)現(xiàn)視覺外觀控制），從而兼具語義與外觀的雙重編輯能力。

　　業(yè)內(nèi)評(píng)價(jià)稱，Qwen-Image-Edit在中文圖像編輯領(lǐng)域樹立了新標(biāo)桿，尤其適合需要高精度文本修改和創(chuàng)意設(shè)計(jì)的場(chǎng)景，可以進(jìn)一步降低專業(yè)圖像創(chuàng)作門檻。

　　積極布局多模態(tài)能力的廠商不只一家，近期模型迭代的速度也越來越快。

　　世界人工智能大會(huì)前夕，階躍星辰發(fā)布了新一代基礎(chǔ)大模型Step 3，原生支持多模態(tài)推理，具備視覺感知和復(fù)雜推理能力。階躍星辰Step系列基座模型矩陣中，多模態(tài)模型的占比達(dá)7成。此外，階躍星辰還連續(xù)開源語音、視頻生成、圖像編輯等多個(gè)多模態(tài)大模型。

　　同樣是在人工智能大會(huì)上，商湯發(fā)布了日日新V6.5大模型，進(jìn)行了模型架構(gòu)改進(jìn)和成本優(yōu)化，多模態(tài)推理與交互性能大幅提升。商湯從日日新6.0開始，就沒有語言模型單獨(dú)的存在，全部都是多模態(tài)模型。

　　8月，智譜也宣布推出開源視覺推理模型GLM-4.5V，并同步在魔搭社區(qū)與Hugging Face開源，涵蓋圖像、視頻、文檔理解以及GUIAgent等常見任務(wù)。

　　8月11日至15日，昆侖萬維（維權(quán)）則在一周內(nèi)連續(xù)發(fā)布了六款多模態(tài)模型，覆蓋了數(shù)字人生成、世界模擬、統(tǒng)一多模態(tài)理解等核心場(chǎng)景。

　　這些全方位的開源攻勢(shì)明顯旨在快速占領(lǐng)開發(fā)者心智，建立各自產(chǎn)品在多模態(tài)領(lǐng)域的全面影響力。在當(dāng)下這個(gè)節(jié)點(diǎn)，多模態(tài)的競(jìng)爭(zhēng)還不算太晚。

　　仍處于發(fā)展初期

　　如果想要構(gòu)建通用人工智能（AGI）和強(qiáng)大的AI系統(tǒng)，多模態(tài)的能力必不可少。

　　“從智能的本質(zhì)來說，需要對(duì)各種模態(tài)的信息進(jìn)行跨模態(tài)的關(guān)聯(lián)?！绷诌_(dá)華向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。

　　在這方面，中國(guó)科技公司速度很快。一個(gè)顯著的變化是，中國(guó)企業(yè)在多模態(tài)領(lǐng)域的集體崛起已經(jīng)改變了長(zhǎng)期以來由OpenAI、Google等西方巨頭主導(dǎo)的AI創(chuàng)新敘事，在視覺推理、視頻生成等多個(gè)細(xì)分領(lǐng)域排在權(quán)威榜單的前列。

　　技術(shù)推進(jìn)加速落地應(yīng)用。2025年被業(yè)內(nèi)人士普遍視為“AI應(yīng)用商業(yè)化元年”，而多模態(tài)技術(shù)正是這一趨勢(shì)的核心驅(qū)動(dòng)力，數(shù)字人直播、醫(yī)療診斷、金融分析等等場(chǎng)景已經(jīng)有多模態(tài)大模型應(yīng)用其中。

　　但從技術(shù)的角度來看，多模態(tài)領(lǐng)域還有很大的發(fā)展空間，尤其是對(duì)比文本領(lǐng)域。

　　“當(dāng)前文本領(lǐng)域已從GPT范式的1.0走到了強(qiáng)化學(xué)習(xí)范式下的2.0，部分研究者已開始探索下一代范式如自主學(xué)習(xí)。相比之下，多模態(tài)領(lǐng)域仍處于發(fā)展初期，諸多基礎(chǔ)性問題尚未解決?！彪A躍星辰創(chuàng)始人、CEO姜大昕向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示，“這些挑戰(zhàn)不僅存在于國(guó)內(nèi)研究，國(guó)際領(lǐng)先模型同樣未能攻克?！?/p>

　　多模態(tài)技術(shù)面臨的瓶頸，其復(fù)雜性遠(yuǎn)超自然語言處理。首先，在表征復(fù)雜度方面，文本作為離散符號(hào)系統(tǒng)，其表征空間通常僅為數(shù)萬維度，這對(duì)計(jì)算機(jī)處理而言屬于低維問題。而視覺數(shù)據(jù)以1024×1024分辨率的圖像為例，其表征空間即達(dá)到百萬維度的連續(xù)空間，兩者在表征難度上存在本質(zhì)差異。

　　其次，在語義閉環(huán)性方面，文本系統(tǒng)具有天然的語義自閉環(huán)特性，其語義表達(dá)與表征空間完全統(tǒng)一。相比之下，視覺數(shù)據(jù)作為自然存在的物理空間表征，其本身并不包含語義信息。要實(shí)現(xiàn)視覺與文本語義空間的對(duì)齊，必須建立跨模態(tài)的映射關(guān)系，而這一映射缺乏天然的標(biāo)注數(shù)據(jù)支持。

　　“這些導(dǎo)致了多模態(tài)領(lǐng)域的發(fā)展還是面臨非常大的挑戰(zhàn)，還是需要幾次像ChatGPT、強(qiáng)化學(xué)習(xí)范式這樣的大技術(shù)變遷才能解決?！苯箨肯蛴浾弑硎尽?/p>

　　此外，雖然很多模型已經(jīng)在具體場(chǎng)景中實(shí)現(xiàn)落地應(yīng)用，但距離真正實(shí)現(xiàn)AGI還有較為漫長(zhǎng)的路要走。

　　主流的多模態(tài)模型通過視覺編碼器與語言模型的前后結(jié)合，但是后續(xù)的思考推理過程還是主要依賴純語言的推理，因此，當(dāng)前多模態(tài)模型對(duì)于圖形和空間結(jié)構(gòu)的推理能力還很薄弱。林達(dá)華向記者舉例稱，國(guó)際頂尖多模態(tài)模型，在面對(duì)諸如積木拼接等簡(jiǎn)單空間問題時(shí)，也無法準(zhǔn)確判斷積木的組成數(shù)量以及各部分之間的連接關(guān)系，而這些問題對(duì)于幾歲的兒童來說卻是輕而易舉的。

　　“這表明當(dāng)前多模態(tài)模型的思維方式主要依賴于邏輯推理，缺乏較強(qiáng)的空間感知能力。若這一問題得不到突破，未來將成為具身智能落地的重要障礙?！绷诌_(dá)華向記者表示。

　　隨著技術(shù)不斷成熟和生態(tài)持續(xù)完善，多模態(tài)能力將成為AI系統(tǒng)的標(biāo)配，而如何將這種能力轉(zhuǎn)化為實(shí)際生產(chǎn)力和社會(huì)價(jià)值，將是產(chǎn)業(yè)界下一步需要重點(diǎn)探索的方向。

　?。ㄗ髡撸憾o怡編輯：包芳鳴）

上一篇：美元?jiǎng)輰?chuàng)7月以來最差周度表現(xiàn) 市場(chǎng)預(yù)計(jì)美聯(lián)儲(chǔ)降息在即
下一篇：圍甲黔軍搶分逼平滬旅下輪再戰(zhàn)擺擂烏江寨對(duì)閩師

相關(guān)文章：

相關(guān)推薦：

欄目分類

91成人精品视频,激情黄色一级片,国产精品久久久久久久久久久久午,欧美一级黄色片网站,久视频在线,国产一区二区在线91,精品国产1区2区

阿里通義千問再放大招多模態(tài)大模型迭代加速改寫AGI時(shí)間表

友情鏈接

91成人精品视频,激情黄色一级片,国产精品久久久久久久久久久久午,欧美一级黄色片网站,久视频在线,国产一区二区在线91,精品国产1区2区

阿里通義千問再放大招 多模態(tài)大模型迭代 加速改寫AGI時(shí)間表

友情鏈接

阿里通義千問再放大招多模態(tài)大模型迭代加速改寫AGI時(shí)間表