腾讯发布混元T1深度思考模型,Hybrid-Mamba架构推理升级

近日,腾讯正式发布了混元大模型系列的深度思考模型——混元-T1正式版,标志着腾讯在AI推理领域迈出了重要一步。该模型不仅强化了推理能力,还通过Hybrid-Mamba架构实现了高效计算和低成本部署,为AI应用提供了更强大的支持。

混元-T1是腾讯自研的强推理模型,其吐字速度达到60——80token/s,在实际生成效果中远快于之前的版本和同类产品。这一速度的提升得益于腾讯混元团队在模型架构和训练策略上的创新。混元-T1正式版基于腾讯混元3月初发布的业界首个超大规模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通过大规模后训练扩展了推理能力,并进一步对齐人类偏好。这也是工业界首次将混合Mamba架构无损应用于超大型推理模型。

在多个公开数据集的评测结果中,混元-T1在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识和竞赛级数学、逻辑推理指标上基本持平或略超同类产品。此外,在腾讯内部人工体验集评估上,混元-T1在文创指令遵循、文本摘要、Agent能力方面也表现出色。

从技术角度来看,混元-T1沿用了混元Turbo S的创新架构,采用Hybrid-Mamba-Transformer融合模式。这一架构能够降低传统Transformer架构的计算复杂度,减少KV-Cache内存占用,从而降低训练和推理成本。在长文本推理方面,TurboS的长文捕捉能力可以有效解决上下文丢失和长距离信息依赖难题。Mamba架构则专门优化长序列处理能力,并通过高效计算方式在保证长文本信息捕捉能力的同时,降低计算资源的消耗。

在模型后训练阶段,腾讯混元研究团队将96.7%的算力投入到强化学习训练,重点围绕纯推理能力的提升以及对齐人类偏好的优化。这一策略使得混元-T1在面对各种推理任务时能够表现出色,并更好地满足用户需求。

除了技术上的创新,混元-T1还展示了其在多个应用场景中的潜力。例如,在知识问答场景中,混元-T1能够快速准确地回答各种问题;在复杂指令跟随能力方面,它能够遵循一致的结构和风格要求生成符合要求的答案;在长文总结摘要方面,它能够提炼出文章的主要内容和关键数字;在角色扮演能力方面,它能够根据角色特征生成符合要求的答案并赋诗一首。

目前,混元-T1已在腾讯云官网上线,并以优惠的价格提供输入和输出服务。这一举措将使得更多企业和开发者能够利用混元-T1的强大能力来推动AI应用的发展。

随着人工智能技术的不断进步和应用场景的不断拓展,对AI推理能力的要求也越来越高。腾讯混元-T1深度思考模型的发布,不仅为AI推理领域带来了新的突破和创新,也为更多应用场景提供了更强大的支持。

发表回复