華為發(fā)布AI推理創(chuàng)新技術(shù)UCM:實現(xiàn)高吞吐、低時延推理體驗,降低每Token推理成本
新浪科技訊 8月12日下午消息,發(fā)布在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),創(chuàng)新實現(xiàn)高吞吐、技術(shù)低時延的現(xiàn)高推理體驗。
在當今數(shù)字化時代,低時低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應(yīng)用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書指出,AI正從訓練向推理的創(chuàng)新結(jié)構(gòu)性轉(zhuǎn)變而快速增長。在這樣的技術(shù)大背景下,AI推理體驗的現(xiàn)高重要性愈發(fā)凸顯。
推理體驗直接關(guān)系到用戶與AI交互時的低時低感受,包括回答問題的延推驗降時延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶輸出速度已進入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60Tokens/s(時延50 - 100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。
據(jù)介紹,華為此次發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。
海量資訊、精準解讀,盡在新浪財經(jīng)APP 責任編輯:郭栩彤
相關(guān)文章
英超焦點戰(zhàn):切爾西vs阿森納北京時間12月1日0點30分,英超榜首大戰(zhàn)火爆打響,切爾西坐鎮(zhèn)斯坦福橋球場迎戰(zhàn)來訪的阿森納。兩隊在周中歐冠皆取得大捷,切爾西3-0完勝老對手巴薩,阿森納3-1力克苦主拜仁,2025-12-01
中國男籃再創(chuàng)輝煌:2025亞洲杯四強之路回顧
2025年男籃亞洲杯正在沙特阿拉伯如火如荼地進行,其中中國隊在1/4決賽中以79∶71戰(zhàn)勝韓國隊,成功晉級四強。這是自2015年男籃亞錦賽以來,中國隊時隔10年再度踏入亞洲杯四強的舞臺,令人振奮。比賽2025-12-01
文化如何激活城市更新?潘公凱:要有“大創(chuàng)意”與“修補匠” — 新京報
新京報貝殼財經(jīng)訊記者袁秀麗)隨著城市發(fā)展進入存量時代,“文化賦能”已成為破解空間同質(zhì)化、激活社區(qū)活力的關(guān)鍵路徑。8月13日下午,首開集團與北京城市更新聯(lián)盟聯(lián)合主辦的第二屆文化更新力論壇,聚焦城市更新的2025-12-01
中國男籃險勝韓國晉級四強:胡明軒表現(xiàn)低迷引關(guān)注比賽回顧:中國隊時隔十年再進四強中國男籃在亞洲杯1/4決賽中以79-71戰(zhàn)勝韓國隊,成功晉級四強。這是球隊時隔十年再次打入半決賽,十年前他們曾在小組賽中逆2025-12-01
北京時間11月29日周六),今晚開獎的數(shù)字彩玩法主要有大樂透、福彩3D、排列三、快樂8等。專家預測戰(zhàn)績,沈夢蝶中大樂透908萬累擒超1億,萬人王中頭獎908萬小單4+1,香水蕓中二等68萬,春哥中682025-12-01
【獨家簽約小說:洪荒:神話昊天,創(chuàng)建聊天群!】穿越洪荒,成為鴻鈞道童昊天,恰逢鴻鈞與眾圣議事誰來執(zhí)掌天庭。同時,系統(tǒng)出現(xiàn),但是需要成為天帝才能激活。于是,昊天順其自然接受鴻鈞敕封天帝,成功激活系統(tǒng),獎2025-12-01

最新評論