阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)于周二宣布推出一款名为K2 Think的新型低成本推理模型,旨在与OpenAI和中国DeepSeek等领先机构竞争。该模型仅包含320亿参数,规模远小于DeepSeek R1的6710亿参数,但声称在多项基准测试中达到可比性能。
高效模型架构与合作伙伴
K2 Think基于阿里巴巴开源模型Qwen 2.5构建,并在AI芯片制造商Cerebras的硬件上运行和测试。该模型由MBZUAI与阿联酋人工智能企业G42合作开发,后者曾获得微软投资。研究人员表示,尽管参数规模仅为竞争对手的一小部分,K2 Think在数学推理(AIME24/25、HMMT25、OMNI-Math-HARD)、编码(LiveCodeBenchv5)和科学知识(GPQA-Diamond)等基准测试中表现出色。
技术突破:系统化方法实现高性能
MBZUAI基础模型研究所所长Hector Liu表示,K2 Think的成功源于多种技术方法的系统化整合,包括:
-
链式思维监督微调(CoT-SFT):通过逐步推理提升模型逻辑能力;
-
测试时扩展技术:在推理阶段分配额外计算资源以增强处理未见数据的能力。
Liu强调:“我们将其视为一个系统而不仅是模型。与常规开源模型不同,我们实际部署并持续改进模型。所有这些方法共同作用才达成最终效果。”
地缘背景:阿联酋的AI雄心与挑战
阿联酋正积极寻求成为全球人工智能领导者,以实现经济多元化并提升地缘影响力。G42的进展是该国AI战略的代表,但其面临沙特阿拉伯(如公共投资基金支持的Humain公司)的竞争以及中美科技主导的格局。此外,阿联酋的AI发展还受到地缘政治复杂性的制约,例如G42与中国的合作曾引发美国审查。
专注科学应用,推动可及性
K2 Think并非旨在开发通用聊天机器人,而是专注于数学和科学等特定领域的高效推理。研究所常务董事Richard Morton解释说:“人类基础推理是所有思维的基石。该模型可将原本需要千余人花费数年的研究或临床试验大幅加速。”此外,低成本设计有助于扩大先进AI技术的覆盖范围,使资源有限地区也能受益。
Morton表示:“我们发现,用更少的资源可以做更多的事情。”这一理念可能为全球AI竞争带来新的发展范式。
评论 ()