标题:腾讯发布混元T1深度学习模型,引领中国大模型走向海外
作者:白杨 / 21世纪经济报道记者 / 北京
发布时间:2023年3月22日
深夜动作,中国大模型布局全球
在3月21日的深夜时分,科技界迎来了一则重磅消息:腾讯正式发布了自研的深度思考模型——混元T1,并同步在腾讯云官方网站上推出。这一动作,不仅标志着腾讯在人工智能领域的最新突破,也反映出中国大模型市场正逐步迈向全球舞台。
深夜发布,策略背后
值得注意的是,腾讯此次发布混元T1,与此前阿里发布的推理模型QwQ-32B有着相似的发布时间——国内的深夜时段。据记者了解,这样的发布选择并非偶然,原因在于这些模型的目标用户主要面向海外开发者。这一现象进一步证明了中国大模型市场已经真正走向了国际。
混元T1:强化学习,性能再升级
混元T1正式版的推出,得益于腾讯对大规模强化学习的深入研究和应用。该模型在数学、逻辑推理、科学以及代码等理科难题上进行了专项优化,使得其推理能力得到了显著提升。与之前上线的混元T1-preview模型相比,混元T1在综合效果上也有了明显的进步。
基准测试,成绩亮眼
在一系列常见的基准测试中,混元T1的表现令人瞩目。例如,在MMLU-PRO大语言模型评估增强数据集中,混元T1的评分仅次于OpenAI-o1,而优于DeepSeek-R1。在逻辑推理能力的DROP F1测试中,混元T1也超越了DeepSeek-R1和OpenAI-o1。然而,在数学和代码能力测试中,混元T1的评分略低于DeepSeek-R1,而在中文语言理解能力方面,则与DeepSeek-R1持平。
技术揭秘:混元Turbo S的基座
混元T1的基座是腾讯快思考模型混元Turbo S。混元Turbo S于今年2月底发布,被腾讯混元团队定位为旗舰模型,成为混元系列衍生模型的核心。与传统的慢思考模型不同,混元Turbo S在处理超长文本时表现出色,这得益于其在架构上采用的Hybrid-Mamba-Transformer融合模式。
架构创新,成本降低
这种融合模式不仅让混元Turbo S能够高效处理长序列,同时保留了Transformer在捕捉复杂上下文方面的优势。这种创新性的架构设计有效降低了传统Transformer结构的计算复杂度,减少了内存占用,从而显著降低了训练和推理成本。混元T1的吐字速度可达80 tokens/s,是工业界首次将混合Mamba架构无损应用于超大型推理模型。
价格优势,竞争力凸显
在价格方面,混元T1的输入价格为每百万tokens 1元,输出价格为每百万tokens 4元,与DeepSeek-R1在夜间时段的价格持平,但在标准时段,混元T1的价格仅为DeepSeek-R1的四分之一,显示出其强大的价格竞争力。
结语
腾讯混元T1的发布,不仅是对中国大模型技术的一次重要展示,也预示着中国在人工智能领域的崛起。随着混元T1的推出,我们有理由期待腾讯在人工智能领域创造更多辉煌成就。