发新帖

超越Claude 3.5、GPT-4o等顶尖闭源模型,阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军 行业新闻

威尔德编辑 1月前 7942

10月17日记者获悉,司南 OpenCompass大语言模型评测榜9月榜单公布,阿里通义千问开源模型Qwen2.5-72B-Instruct 击败Claude 3.5、GPT-4o等闭源模型,成为该评测榜首个开源模型冠军。据了解,9月底通义千问开源模型Qwen系列的衍生模型数量首次超越Llama,成为全球最大的开源模型群。

超越Claude 3.5、GPT-4o等顶尖闭源模型,阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军

司南 OpenCompass 是由上海人工智能实验室研发的大模型评测体系平台,OpenAI、阿里巴巴、智谱AI、Meta、零一万物等百余个最主流的大模型均已加入评测,是最具国际影响力的中国权威第三方评测榜单。司南 OpenCompass 自建评测榜单每月一更,从语言、推理、知识、代码、数学、指令跟随、智能体等七大能力维度、十余项细分任务,对近期主流模型进行全面评测分析。

在2024年9月的司南 OpenCompass 榜单中,开源的Qwen2.5-72B以70.3分夺冠,首次超越Claude 3.5和GPT-4o等顶尖闭源模型。Qwen2.5-72B-Instruct在此次榜单的多项能力测评中均名列前茅。在代码能力方面,Qwen2.5-72B-Instruct以74.2分夺冠,不仅能准确完成代码编写,还能详细解释代码的功能和逻辑;在数学能力方面,Claude 3.5得分72.1,GPT-4o得分70.6,远不及Qwen2.5-72B-Instruct获得的77分成绩。

超越Claude 3.5、GPT-4o等顶尖闭源模型,阿里通义开源模型Qwen2.5斩获OpenCompass评测榜冠军

司南 OpenCompass 评价称,Qwen2.5的登顶,标志着开源社区在模型领域取得快速进展,以 Qwen 2.5等为代表的国产主流厂商模型,在经历最新一轮技术迭代后,其性能有了显著提升,与国际顶尖模型之间的差距正在快速缩小,展现了国产模型的强大竞争力。

早在9月底,Qwen2.5-72B-Instruct就冲进Chatbot Arena大模型盲测榜单前十,是前十中唯一的中国大模型。Qwen系列开原模型涵盖多尺寸的大语言模型、多模态模型、数学模型和代码模型,几乎所有尺寸的模型都实现了同等规模的最佳性能。截至9月底,全球开发者基于Qwen系列二次开发的衍生模型数量也已突破7.43万,超越Llama的7.28万,成为全球最大的开源模型群。

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。

注:本文转载自雷锋网,如需转载请至雷锋网官网申请授权,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除。

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加- 版权声明 1、本主题所有言论和图片纯属会员个人意见,与成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加立场无关。
2、本站所有主题由该帖子作者发表,该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加享有帖子相关版权。
3、成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加的同意。

这家伙太懒了,什么也没留下。
最新回复 (0)
只看楼主
全部楼主
    • 成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加
      2
        立即登录 立即注册 QQ登录
返回
免责声明:本站部分资源来源于网络,如有侵权请发邮件(673011635@qq.com)告知我们,我们将会在24小时内处理。