清华大学与瑞莱智慧联手发布RealSafe-R1大模型,安全性实现革命性飞跃!
RealSafe-R1大模型发布:清华大学与瑞莱智慧联手重塑人工智能安全新纪元
2月24日消息,经过研究发现,DeepSeekR1在多项指标上表现十分出色,但在面对越狱攻击时,其防御能力仍有待提高。这与其他开源大语言模型的情况类似,显示出该领域在安全性方面还有改进的空间。 这一发现提醒我们,在追求技术进步的同时,确保人工智能系统的安全性和稳定性同样重要。只有在保障系统不会被恶意利用的前提下,这些先进的技术才能更好地服务于社会。
清华大学与瑞莱智慧联合团队近期发布了一款名为RealSafe-R1的大语言模型。这款模型是在DeepSeekR1的基础上经过深度优化和后训练,不仅保持了原有的高性能,还在安全性方面有了显著提升。据官方消息,RealSafe-R1的各种尺寸模型及其相关数据集将在一周后陆续开放下载。 这款新模型的推出无疑为人工智能领域带来了新的活力。它不仅展示了清华大学与瑞莱智慧在技术创新方面的强大实力,也体现了他们对用户安全的高度重视。随着AI技术的广泛应用,保障其使用的安全性变得尤为重要。RealSafe-R1通过强化的安全性能,有望成为推动行业健康发展的重要力量。
瑞莱智慧指出,RealSafe-R1系列大模型在安全性方面显著提升,超越了国际上公认的较为安全的闭源大模型Claude3.5和GPT-4o等,为DeepSeek生态系统做出了贡献。
其中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后训练得到,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后训练得到。
为了提高模型的安全性和推理能力,研究团队设计了STAIR框架(SafeTyAlignmentwithIntrospectiveReasoning),采用三阶段方法,系统化地增强基础模型在复杂安全对齐环境中的表现。
论文实验结果显示,利用Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct等基础模型,STAIR框架显著增强了大语言模型的安全性能,同时保持了其通用性。
安全方面,STAIR系统在抵御恶意问题方面表现出显著的进步,不仅在直接被询问时能够保持高度的安全性,还通过深入分析进一步增强了其对越狱攻击的防御能力。这一改进使得STAIR系统在复杂多变的网络环境中更加稳健可靠,为用户提供了更为安全的使用体验。此外,这也表明了开发者们持续投入于提高人工智能系统的安全性,以应对不断演化的网络威胁。这种前瞻性的努力值得肯定,并且有望成为未来AI技术发展的一个重要方向。
在StrongReject数据集上,STAIR相比基础模型,其良性分数绝对值提高了0.47(从0.40提升至0.87),安全性提升了一倍以上,明显优于其他基线方法。
通用性方面,STAIR在GSM8k、SimpleQA、AdvGLUE、AlpacaEval等综合性能评估中,依旧维持并提升了模型的推理能力、准确性和稳健性,具体测试数据可参阅相关论文。
附论文地址:https://arxiv.org/pdf/2502.02384v1