揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上-大浪资讯

admin522025-02-09 18:32:04

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

AMD显卡突破技术壁垒，引领DeepSeek本地运行潮流！

　　 2月9日消息，DeepSeek近日热度爆棚，国内外多家企业都在积极适配和支持这一新兴技术。对于AI大模型而言，使用GPU运行无疑是提升效率的最佳选择。例如，AMD的Instinct加速卡和Radeon游戏卡已经完成了适配工作。这表明，无论是高性能计算领域还是消费级市场，AMD的技术都已准备就绪，为未来的AI应用提供了坚实的基础。这样的发展态势不仅显示了DeepSeek的广泛影响力，也反映了当前AI技术在硬件层面的迅速进步。AMD的这些举措无疑将进一步推动AI技术的发展和普及，使得更多的企业和开发者能够更高效地利用AI大模型进行创新和研究。

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　你只需要任意一块AMD RX 7000系列显卡，就可以在本地体验DeepSeek。

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　 AMDRadeon游戏卡本地部署DeepSeek十分简便，只需访问AMD官方网站（中英文界面均可），搜索“15.1.1”，点击进入首个搜索结果，下载AMDAdrenalin25.1.1测试版驱动程序，完成安装后重启电脑即可。

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　直接下载地址：

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　 https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　然后打开LM Studio官网网站的锐龙专栏(https://lmstudio.ai/ryzenai)，并下载LM Studio for Ryzen AI安装包，安装并运行。

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　启动之后，点击右下角设置(可选中文语言)，找到并开启“Use LM Studio's Hugging Face”这个选项。

揭秘：AMD显卡已实现本地运行DeepSeek！抢先体验指南附上

　　回到主界面，在左侧菜单栏点击搜索图标，输入“DeepSeek R1”，就可以看到已经训练好的各种DeepSeek模型。

　　关于如何选择，可参照AMD官方推荐列表，例如旗舰级的RX7900XTX能够支持高达32B参数，而主流级别的RX7600仅支持8GB模型。

　　接着，下载适合的模型，在主界面的上方选择已下载的模型，然后增加“GPU Offload”的数值。关于各个选项的具体含义，您可以自行搜索或直接向DeepSeek咨询。

　　模型加载完毕后，就可以尽情地在本地体验DeepSeek了。

　　与此同时，AMD Instinct GPU加速卡现已整合进DeepSeek V3模型，并对SGLang性能进行了优化，支持完整的671B参数。借助AMD ROCm平台，开发者能够实现快速且高效的AI应用程序开发。

　　 1、启动Docker容器

　　 docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \

　　 --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \

　　 --group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm630

　　 2、开始使用

　　 (1)、使用CLI登陆进入Hugging Face。

　　 huggingface-cli login

　　 (2)、启动SGLang Server，在本地部署DeepSeekV3 FP8模型。

　　 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code

　　 (3)、服务器启动后，打开新的终端，发送请求。

　　 curl http://localhost:30000/generate \

　　 -H "Content-Type: application/json" \

　　 -d '{

　　 "text": "Once upon a time,",

　　 "sampling_params": {

　　 "max_new_tokens": 16,

　　 "temperature": 0

　　 }

　　 }'

　　 3、基准测试

　　 export HSA_NO_SCRATCH_RECLAIM=1

　　 python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

　　 python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

　　 python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8

　　 Accuracy: 0.952

　　 Invalid: 0.000

　　另外，如果需要BF16精度，可以自行转换：

　　 cd inference

　　 python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

相关文章

随机文章

侧栏广告位