您的位置: 首页 > 科技频道

SuperCLUE 8月榜单发布 百川智能、MiniMax、百度拿下国产大模型前三甲

出处:北京商报 网编:产经中心 2023-08-28

北京商报讯(记者 杨月涵)8月28日,国内大模型榜单SuperCLUE发布8月最新排名,总排行榜显示,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,紧随其后的分别为MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

据悉,8月榜单由5部分组成,包括总排行榜、OPEN多轮开放问题排行榜、OPT三大能力客观题排行榜、十大基础能力排行榜、开源排行榜。本次评测选取了目前国内外最具代表性的16个通用大语言模型,8月评测数据集为全新的3337道测试题。

SuperCLUE分享了在8月评测中的新发现:国内大模型在中文任务上的表现与GPT3.5仍有一定距离,但差距在持续缩小;开源模型竞争力进一步提升;模型在开放问题和客观选择题的表现有不一致的情况。

“我们认为,选择题能力不能全面代表大模型的综合能力,这也是SuperCLUE8月将OPEN开放问题和OPT选择题合并为总排行榜的原因。”SuperCLUE提到,OPEN开放问题,主要针对与用户偏好接近的大模型生成、指令遵循能力;OPT选择题,更多考察SuperCLUE 8月榜单发布 百川智能、MiniMax、百度拿下国产大模型前三甲

北京商报讯(记者 杨月涵)8月28日,国内大模型榜单SuperCLUE发布8月最新排名,总排行榜显示,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,紧随其后的分别为MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

据悉,8月榜单由5部分组成,包括总排行榜、OPEN多轮开放问题排行榜、OPT三大能力客观题排行榜、十大基础能力排行榜、开源排行榜。本次评测选取了目前国内外最具代表性的16个通用大语言模型,8月评测数据集为全新的3337道测试题。

SuperCLUE分享了在8月评测中的新发现:国内大模型在中文任务上的表现与GPT3.5仍有一定距离,但差距在持续缩小;开源模型竞争力进一步提升;模型在开放问题和客观选择题的表现有不一致的情况。

“我们认为,选择题能力不能全面代表大模型的综合能力,这也是SuperCLUE8月将OPEN开放问题和OPT选择题合并为总排行榜的原因。”SuperCLUE提到,OPEN开放问题,主要针对与用户偏好接近的大模型生成、指令遵循能力;OPT选择题,更多考察模型的知识储备。模型的知识储备。

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号