你知道吗?腾讯混元整出个大事!6月27日宣布开源首个混合推理MoE模型 Hunyuan - A13B,那可是个厉害得不得了的东西!这事一出来,就感觉像在大模型的江湖里扔下一颗大炸弹,到底会激起怎样的浪花?咱们一起来瞅瞅!
模型参数超亮眼
腾讯混元搞出来的这个 Hunyuan - A13B 模型,总参数有80B,而激活参数仅仅只有13B。别小看这数据!就在6月27号这一天亮相出来,它的效果居然能跟同等架构领先的开源模型比肩。这可太神奇了!而且,它的推理速度还更快,性价比也更高,这就意味着开发者不用费那么大劲儿花那么多钱,就能有更好的模型能力,多好的事!
它从6月27号这天起,就已经在 Github 和 Huggingface 等开源社区上线,同时腾讯云官网也能正式接入它的模型 API,简直都太方便了能让开发者们快速就完成接入部署,真真是让大家在大模型开发的道路上少走了好多弯路
通用能力很强大
这可是业界第一个13B级别的MoE开源混合推理模型。这个 Hunyuan - A13B 基于先进的模型架构,像是在各个业内权威的数据测试集上,那表现都可圈可点,成绩好得很。特别在 Agent 工具调用和长文能力这些方面,那更是有突出的表现
之前就在想,大模型在这些方面要是能有突破就好了,腾讯混元还真做到了。比如很多模型在处理像长文分析这种任务的时候,说不定就容易出错,可这个 Hunyuan - A13B 就不一样,它有着强大的实力,能够稳稳地接住各种任务挑战!
多方面能力提升
对于当下最热门的大模型 Agent 能力,腾讯混元那可是下足了功夫。他们搭建了一套多 Agent 数据合成框架,接入了 MCP、沙箱、大语言模型模拟等各种各样的环境。通过强化学习,让 Agent 能在多种不同的环境里自己去冒险、去探索学习。就好比一个小孩儿在不同的环境里锻炼自己的能力一样,经过这么一折腾,Hunyuan - A13B 的效果能不提升吗?肯定越来越好,果然厉害!
而且在长文水平上中国电子科技集团公司第二十一研究所微电机网,它可以支持256K 原生上下文窗口。在好多长文测试数据集中,它的成绩都非常棒,让人眼前一亮大家想想,现在文本数据多复杂这么大的上下文窗口,就能处理更多样的长文内容,就感觉像给它一双更敏锐的眼睛去捕捉长文中隐藏的信息。
模式随意切换
这个 Hunyuan - A13B 模型在实际用起来的时候,可灵活了。它能按照咱的需求自己选思考模式,有快思考和慢思考这两种!快思考模式么,能给出简洁又高效的输出,适合那些想要速度而且花最少计算资源的简单任务。就像咱着急忙慌要处理的简单事时,用这个模式多好使啊!
至于慢思考模式,它会思考得更加深入、全面,还涉及到反思和回溯。这种模式就可以应对那些比较复杂的任务,像是做深度探索类的事情、做决策的时候,就很适合。两种模式就像是两个好帮手,咱还能加 thinking/no_think 来随便切换不同的思考模式。这样一来,在效率和完成特定任务的准确性之间就能找到那个合适的平衡点,这多贴心
实际使用效果好
从资料里面看,Hunyuan - A13B 可是腾讯内部使用频率非常高的大语言模型之一!有超过400多个业务在用它,可以用来精细调试或者直接调用它。每天的请求超级多,超过1.3亿次,要是没有两把刷子怎么能够担起这么大的服务量。
官方界面也挺友好,咱能很清楚地看到可以自由切换快慢思考模式,而且在数学、科学、长文理解还有 Agent 能力等方面,都比以前好了不少观察者网做实验测试它对于小数比较大小和基本运算题这些数学小问题的时候,它都能飞快回一个正确的答案,它这个反应速度和正确率真真是让人拍手称赞
开源数据集填空白
混元团队可没闲着。他们还开源了两个新的数据集来补行业相关评估标准的空缺。ArtifactsBench 这个对代码评估有帮助,造了个包含1825个任务的新基准。C3 - Bench 是对于 Agent 场景模型评估设计的,足足有1024条测试的数据。
这就好比在沙漠里面给口渴的旅人准备了水。行业少这种评估的数据、标准的时候,它们就能很好地派上用场,为行业发展助力!大家觉得这腾讯混元这次的 Hunyuan - A13B 模型是不是超棒?把你的想法在评论区告诉我赶快给文章点个赞、转转这篇分享出来!