近日,超聚變FusionOne AI大模型一體機通過軟硬協(xié)同,深度調優(yōu),成功打破了H20運行DeepSeek滿血大模型的性能天*板。在模擬問題對話場景(上下文序列長度1K/1K)下,僅需1臺FusionServer G8600搭載8張H20硬件,即可流暢運行DeepSeek R1滿血版,支持1024并發(fā)訪問數(shù),總吞吐量高達6335 token/s,性能領*業(yè)內H20方案60%。其中,TPOT(Time per Output Token)時延相比業(yè)內H20方案減少40%,單臺FusionOne AI大模型一體機即可支撐數(shù)千人規(guī)模企業(yè)使用,將單機H20運行大模型的性能推向新高度。
超聚變FusionOne AI大模型一體機以低成本、性能躍升的雙重突破,大幅降低DeepSeek-R1 671B 模型的部署門檻,以普惠形態(tài)讓更多企業(yè)和科研機構能夠輕松應用。未來,超聚變將持續(xù)加大研發(fā)投入,聚焦AI算力化與應用拓展,加速企業(yè)AI應用落地。

軟硬協(xié)同調優(yōu),打破 H20 性能天花板
? 算力釋放,顯存分配:通過內核優(yōu)化,提升顯存空間利用率20%,KV cache池使用率提升至93%,保障模型參數(shù)、過程KV運行
? 數(shù)據(jù)、模型并行調度:通過DP數(shù)據(jù)并行、TP模型張量并行技術,調度多卡分布式并行計算,提升token產(chǎn)生的吞吐效率50%,提升計算效能
? 推理任務切片混合調度: Prefill階段(首token輸出階段任務)長文本切片, 加速初始內容生成速度,同時在每個切片計算過程中,混合調度Decode任務(后續(xù)token迭代生成任務)并行運行, 無需串行等待,提高資源利用率,降低 TTFT(Time to First Token) 和 TPOT(Time per Output Token )。
微信號:18391816005