权威中文大模型10月榜单出炉，商汤“日日新”金牌！-威尔德官网-成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加

权威中文大模型10月榜单出炉，商汤“日日新”金牌！行业新闻

威尔德编辑 17天前 9581

模型表现好，金牌少不了。

刚刚，中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》：

商汤日日新·商量大模型（SenseChat5.5）凭借出色的能力表现，总得分位列国内大模型第一梯队，获得金牌。

权威中文大模型10月榜单出炉，商汤“日日新”金牌！

本次SuperCLUE10月报告覆盖23个国内模型，聚焦语言大模型的通用能力评估，分为三大维度：除了考察“文科”、“理科”基础能力外，还有考察模型更高阶能力的“Hard”附加任务，总共2900+道题：

【理科任务】分为计算、逻辑推理、代码、工具使用测评集；

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集；

【Hard任务】分为精确指令遵循测评集，复杂任务高阶推理测评集。

权威中文大模型10月榜单出炉，商汤“日日新”金牌！

商汤SenseChat5.5在多项评测任务中均位列第一梯队，文科中语言理解、安全等维度表现突出，也是理科中逻辑推理、代码学科的“尖子生”。

值得注意的是，在【Hard】的两项任务——精准指令遵循和高阶推理中，商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型，体现了模型优秀的复杂推理智能。

SuperCLUE本次报告显示，国内大模型的能力与ChatGPT-4o-latest表现接近，o1-preview则在复杂任务中更为突出。未来，商汤将继续坚持基础大模型的持续研发与投入，不断提升真正高阶推理及“慢思考”能力。

雷峰网(公众号：雷峰网)

雷峰网版权文章，未经授权禁止转载。

注：本文转载自雷锋网，如需转载请至雷锋网官网申请授权，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除。

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加- 版权声明 1、本主题所有言论和图片纯属会员个人意见，与成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加立场无关。
2、本站所有主题由该帖子作者发表，该帖子作者威尔德编辑与成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加享有帖子相关版权。
3、成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者威尔德编辑和成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加的同意。

这家伙太懒了，什么也没留下。 ➦

最新回复 (0)

只看楼主

全部楼主

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加

2 楼

您需要登陆后才可以回帖立即登录丨立即注册丨 QQ登录

回帖

高级回复

发新帖

威尔德编辑

主题数
10819

帖子数
0

精华数
0

注册排名
4

作者最近主题：

版块热门：

飞书向所有企业和组织免费开放已付费的企业可获得补贴

武汉一线专家详解新冠肺炎死亡病例：他们是窒息而死，过程很痛苦

多维进化，游戏特长生黑鲨科技变身科技全能型选手

不是老潘在跑路，只是黑石在加仓中国

灯塔2019演出报告:票房超200亿云演唱会或成风口

频道：

论坛：

我的：

权威中文大模型10月榜单出炉，商汤“日日新”金牌！行业新闻

威尔德编辑

作者最近主题：

版块热门：

权威中文大模型10月榜单出炉，商汤“日日新”金牌！ 行业新闻

威尔德编辑

作者最近主题：

版块热门：

权威中文大模型10月榜单出炉，商汤“日日新”金牌！行业新闻