揭秘:AMD显卡已实现本地运行DeepSeek!抢先体验指南附上
AMD显卡突破技术壁垒,引领DeepSeek本地运行潮流!
2月9日消息,DeepSeek近日热度爆棚,国内外多家企业都在积极适配和支持这一新兴技术。对于AI大模型而言,使用GPU运行无疑是提升效率的最佳选择。例如,AMD的Instinct加速卡和Radeon游戏卡已经完成了适配工作。这表明,无论是高性能计算领域还是消费级市场,AMD的技术都已准备就绪,为未来的AI应用提供了坚实的基础。 这样的发展态势不仅显示了DeepSeek的广泛影响力,也反映了当前AI技术在硬件层面的迅速进步。AMD的这些举措无疑将进一步推动AI技术的发展和普及,使得更多的企业和开发者能够更高效地利用AI大模型进行创新和研究。
你只需要任意一块AMD RX 7000系列显卡,就可以在本地体验DeepSeek。
AMDRadeon游戏卡本地部署DeepSeek十分简便,只需访问AMD官方网站(中英文界面均可),搜索“15.1.1”,点击进入首个搜索结果,下载AMDAdrenalin25.1.1测试版驱动程序,完成安装后重启电脑即可。
直接下载地址:
https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html
然后打开LM Studio官网网站的锐龙专栏(https://lmstudio.ai/ryzenai),并下载LM Studio for Ryzen AI安装包,安装并运行。
启动之后,点击右下角设置(可选中文语言),找到并开启“Use LM Studio's Hugging Face”这个选项。
回到主界面,在左侧菜单栏点击搜索图标,输入“DeepSeek R1”,就可以看到已经训练好的各种DeepSeek模型。
关于如何选择,可参照AMD官方推荐列表,例如旗舰级的RX7900XTX能够支持高达32B参数,而主流级别的RX7600仅支持8GB模型。
接着,下载适合的模型,在主界面的上方选择已下载的模型,然后增加“GPU Offload”的数值。关于各个选项的具体含义,您可以自行搜索或直接向DeepSeek咨询。
模型加载完毕后,就可以尽情地在本地体验DeepSeek了。
与此同时,AMD Instinct GPU加速卡现已整合进DeepSeek V3模型,并对SGLang性能进行了优化,支持完整的671B参数。借助AMD ROCm平台,开发者能够实现快速且高效的AI应用程序开发。
1、启动Docker容器
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \
--device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \
--group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm630
2、开始使用
(1)、使用CLI登陆进入Hugging Face。
huggingface-cli login
(2)、启动SGLang Server,在本地部署DeepSeekV3 FP8模型。
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code
(3)、服务器启动后,打开新的终端,发送请求。
curl http://localhost:30000/generate \
-H "Content-Type: application/json" \
-d '{
"text": "Once upon a time,",
"sampling_params": {
"max_new_tokens": 16,
"temperature": 0
}
}'
3、基准测试
export HSA_NO_SCRATCH_RECLAIM=1
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
Accuracy: 0.952
Invalid: 0.000
另外,如果需要BF16精度,可以自行转换:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights