每日经济新闻
首发快讯

每经网首页 > 首发快讯 > 正文

MiniMax宣布开源面向Coding Agent的新评测集

每日经济新闻 2026-01-14 12:10:55

每经AI快讯,1月14日,MiniMax官微宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示,基于该评测集,其针对现有的开源闭源模型进行了广泛的评估,并发现一些很有启发性的实验结果:所有模型的Check-level 准确率(CSR)可以达到80%+,但Instance-level成功率(ISR)只有10%-30%;绝大多数模型的指令遵循能力会随着轮次的变多逐渐下降;现阶段模型表现普遍未能达到生产级要求,过程合规仍是盲区;开源模型正在快速追赶闭源模型。

如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。

读者热线:4008890008

特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。

欢迎关注每日经济新闻APP

每经经济新闻官方APP

0

0