![]() 剛剛,剛剛DeepSeek-V3.2-Exp 開源了!開源 ![]() 該模型參數(shù)量為 685B,剛剛HuggingFace 鏈接: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 此外,開源此次發(fā)布竟然也同步公開了論文,剛剛公開了 DeepSeek 新的開源稀疏注意力機(jī)制,為我們提供了更多結(jié)束細(xì)節(jié): ![]() https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf DeepSeek Sparse Attention(DSA)稀疏注意力機(jī)制 在官方介紹中,剛剛DeepSeek 表示 DeepSeek-V3.2-Exp 是開源實(shí)驗(yàn)版本。作為邁向下一代架構(gòu)的剛剛過渡,V3.2-Exp 在 V3.1-Terminus 的開源基礎(chǔ)上引入了 DeepSeek 稀疏注意力機(jī)制(DeepSeek Sparse Attention,DSA)—— 一種旨在探索和驗(yàn)證在長(zhǎng)上下文場(chǎng)景下訓(xùn)練和推理效率優(yōu)化的剛剛稀疏注意力機(jī)制。 DSA 也是開源 3.2 版本的唯一架構(gòu)改進(jìn)。 ![]() DeepSeek-V3.2-Exp 的剛剛架構(gòu),其中 DSA 在 MLA 下實(shí)例化。開源 重點(diǎn)要說的剛剛是,DeepSeek 稱該實(shí)驗(yàn)版本代表了他們對(duì)更高效的 Transformer 架構(gòu)的持續(xù)研究,特別注重提高處理擴(kuò)展文本序列時(shí)的計(jì)算效率。 ![]() 在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力,在保持幾乎相同的模型輸出質(zhì)量的同時(shí),顯著提高了長(zhǎng)上下文訓(xùn)練和推理效率。 為了嚴(yán)格評(píng)估引入稀疏注意力機(jī)制的影響,DeepSeek 特意將 DeepSeek-V3.2-Exp 的訓(xùn)練配置與 9 月 22 日剛剛推出的 V3.1-Terminus 進(jìn)行了對(duì)比。在各個(gè)領(lǐng)域的公開基準(zhǔn)測(cè)試中,DeepSeek-V3.2-Exp 的表現(xiàn)與 V3.1-Terminus 相當(dāng)。 ![]() 更多信息,讀者們可以查閱 DeepSeek-V3.2-Exp 的 huggingface 介紹。 值得一提的是,智譜的 GLM-4.6 也即將發(fā)布,在 Z.ai 官網(wǎng)可以看到,GLM-4.5 標(biāo)識(shí)為上一代旗艦?zāi)P汀?/p> 最后,有一波小節(jié)奏。在模型發(fā)布前,已經(jīng)有網(wǎng)友在 Community 里發(fā)帖稱:國(guó)慶是休息日,請(qǐng)給我們關(guān)注的同學(xué)一點(diǎn)休息時(shí)間。 ![]() 對(duì)此,你怎么看? |
巨虧450億美元,美國(guó)農(nóng)民眼巴巴等待特朗普政府救濟(jì)險(xiǎn)資“南下”秀肌肉 頻頻出手港股IPO600余名愛好者齊聚福山 2025年澄邁福山騎跑活動(dòng)暨體育文化沙龍啟幕細(xì)節(jié)披露!馬來西亞失聯(lián)中國(guó)游客行李仍在酒店浙江省委宣傳部副部長(zhǎng)范慶瑜已任省社科聯(lián)黨組書記唐駁虎:180度反轉(zhuǎn)!特朗普改口支持澤連斯基,背后有三重因素南部戰(zhàn)區(qū):中方參演部隊(duì)已從軍港出征美聯(lián)儲(chǔ)會(huì)議紀(jì)要:多數(shù)官員支持年內(nèi)進(jìn)一步降息 路徑分歧顯著央行今日開展1.1萬億元買斷式逆回購(gòu),釋放數(shù)量型貨幣政策工具加力信號(hào)中秋節(jié)當(dāng)日預(yù)計(jì)全社會(huì)跨區(qū)域人員流動(dòng)量2.95億人次