隨著AI技術(shù)的快速發(fā)展和普及,中小企業(yè)對AI應用的需求正在快速增長。特別是生成式AI和國內(nèi)DeepSeek大模型技術(shù)的出現(xiàn),使得中小企業(yè)看到了通過AI提升效率和競爭力的機會。例如:企業(yè)已經(jīng)開始嘗試將AI應用于銷售流程優(yōu)化、客戶服務提升以及工廠生產(chǎn)數(shù)據(jù)統(tǒng)計、分析,提升產(chǎn)能及效率等領(lǐng)域。
盡管需求旺盛,但AI應用中仍面臨諸多挑戰(zhàn):
·成本問題:AI基礎(chǔ)設施和模型開發(fā)需要大量資金投入,企業(yè)成本高。
·技術(shù)門檻:AI技術(shù)復雜,企業(yè)缺乏專業(yè)人才和技術(shù)經(jīng)驗。
·數(shù)據(jù)基礎(chǔ)薄弱:企業(yè)在數(shù)據(jù)標注和基礎(chǔ)設施建設方面存在不足,制約了AI技術(shù)的落地。
·缺乏明確的落地路徑:API應用涉及數(shù)據(jù)出域,數(shù)據(jù)有外泄安全風險。
目前市場上出現(xiàn)DeepSeek一體機“百團大戰(zhàn)“,信息繁雜,企業(yè)用戶一時難消化、選擇,宏創(chuàng)盛安結(jié)合Intel最新的至強6性能核CPU,針對中小企業(yè)AI應用需求,推出性能、效率俱佳的“標槍“級DeepSeek一體機本地化解決方案,為企業(yè)提供簡潔、高效的DeepSeek本地化部署選項。
對于中小企業(yè)來說,選擇合適的蒸餾模型需要在性能、成本、部署難度和應用場景之間找到平衡。DeepSeek 本地部署所需的資源取決于多個因素,包括模型規(guī)模、應用場景(推理/訓練)、性能需求(響應速度/吞吐量)以及是否使用量化等技術(shù)。
Intel最新推出的至強6性能核CPU,采用30A制程工藝,與上一代產(chǎn)品相比,至強6處理器在廣泛的企業(yè)工作負載中實現(xiàn)了平均1.4倍的性能提升。作為AI系統(tǒng)的機頭節(jié)點CPU,至強6可與GPU搭配,為客戶提供優(yōu)選組合。此外,它以更少的核心數(shù)量,提供高達1.5倍的AI推理性能提升。至強6處理器還具備出色的每瓦性能效率,以5年使用周期計,平均可以實現(xiàn)以一臺新的服務器替代五臺舊服務器,在某些用例中該比例可達10:1,從而節(jié)省高達68%的總體擁有成本(TCO)。
DeepSeek的蒸餾模型通過壓縮大模型的知識到更小的模型中,其中,DeepSeek-R1-Distill-Llama-70B模型在保持高性能的同時顯著降低了計算資源需求。
Javelin DeepSeek All in One
硬件規(guī)格
·支持8張雙寬全高GPU,每卡顯存24GB,F(xiàn)P16算力約366.4 TFLOPS
·雙路6767P 至強6 CPU,128核心,256線程,2.4-3.0GHz頻率
·支持MRDIMM DDR5內(nèi)存,8路通道,速率高達8000MT/s
·支持PCIe5.0 NVMe SSD熱插拔硬盤,速率達Read:12GB/s,R/W:6GB/s。
DeepSeek性能數(shù)據(jù)
并發(fā)數(shù)
·部署DeepSeek-R1-Distill-Llama-70B模型最小顯存需求約為180GB,為滿足70B大模型顯存需求,推薦算力配置為:8張Nvidia 24GB GPU卡(8*24=192GB顯存)。實測使用vllm在本地部署,在300并發(fā)下能無延遲使用。
·部署DeepSeek-R1-Distill-Qwen-32B模型最小顯存需求約為80GB,為滿足32B大模型顯存需求,推薦算力配置為:4張Nvidia 24GB GPU卡(4*24=96GB顯存)。實測使用vllm在本地部署,在300并發(fā)下能無延遲使用。
NCCL Bus BW帶寬
NCCL(NVIDIA Collective Communication Library)Bus BW測試是一種用于評估GPU之間通信性能的工具。它通過測量集體通信操作(如AllReduce、Broadcast等)的帶寬,反映硬件的實際使用效率。
·256GB內(nèi)存總線帶寬18.42GB/s
·512GB內(nèi)存總線帶寬21.06GB/s,提升14%
vLLM Benchmark
vLLM(Very Large Language Model)Benchmark測試是一套用于評估大語言模型推理性能的基準測試工具,主要用于衡量模型在不同工作負載下的表現(xiàn)。
模型 | 內(nèi)存(GB) | GPU-24GB | Token Throughput |
DeepSeek-R1-Distill-Llama-70B | 8*32 | 8*4090 | 1870 Token/s |
16*32 | 8*4090 | 2187 Token/s | |
DeepSeek-R1-Distill-Qwen-32B | 16*32 | 4*4090 | 3072 Token/s |
16*32 | 8*4090 | 3849 Token/s |
在Intel XEON6性能核CPU+ NVIDIA平臺上,通過vLLM實現(xiàn)DeepSeek-70B中等規(guī)模模型本地化私有化部署,數(shù)據(jù)安全落在企業(yè)本地,該配置在量化推理場景下可流暢運行70B模型,可供300個用戶同時在線使用,滿足中等規(guī)模企業(yè)推理服務應用需求。