
“PinchBench实测94%最佳任务完成率,领跑主流大模型。”
]article_adlist-->作者:苏打
元股证券:ygzq.hk编辑:tuya

随着上班族回归工位,短剧的流量场由银发族接棒。65岁的张秀兰(化名)便是典型代表,退休后的她,把大半闲暇交给短剧。随着指尖不断滑过屏幕,张秀兰把追完的短剧链接转发到“姐妹快乐群”,一句“太解气”点燃群聊,“领金币”“追更新”的回复此起彼伏,“我在拼多多上看,还能赚点零钱”。数据显示,40岁至59岁的短剧用户占比37.3%,60岁以上用户占比12.1%,近一半的中老年短剧用户每天都会观看。
出品:财经涂鸦(ID:caijingtuya)
]article_adlist-->
公司情报专家《财经涂鸦》获悉,4月22日,商汤绝影正式发布端侧多模态智能体基座大模型Sage,首次将云端级智能体能力落地端侧。
据悉,Sage采用MoE架构,总参数量为32B,激活参数仅3B,打破“只有大模型才能做好智能体任务”的惯性认知,超越众多大参数量云侧旗舰,成为行业内首款在车端实现复杂智能体能力的基座大模型,并已在英伟达 Orin X 端侧平台实现部署。
作为端侧智能体基座,Sage可接入OpenClaw、Hermes等主流Agent框架,为更多端侧智能体落地提供核心支撑,可覆盖出行、家庭等全场景。
在公开Agent评测基准PinchBench中,Sage端侧大模型最佳任务完成率达到94%,超越Claude-Opus-4.6、GPT-5.4、Gemini-3、Gemma-4、Qwen3.5-27B、MiniMax-M2.7等国际主流云侧和端侧大模型。
PinchBench是龙虾之父Peter Steinberger推荐的公开Agent评测基准,面向真实Agent工作流评测,重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。
与此同时,PinchBench评测要求模型完成真实任务执行,并综合衡量成功率、速度与成本,因此测试周期更长、资源消耗更高,单任务token消耗就可达数十万量级。正因如此,模型在PinchBench上取得的精度表现,更能体现其在复杂真实场景中的综合能力与稳定性。
Sage跑赢背后,是商汤绝影围绕Sage后训练阶段自研的两项关键技术:SCOUT和ERL。前者让模型“学得又快又省”,后者让模型“做事不出错”,重点突破智能体在学习效率、训练成本和复杂任务稳定执行上的行业挑战,解决了让车载大模型从"能听懂指令"进化到"能独立办成一件复杂的事"的行业公认难题。
另外,在不同能力维度的公开基准上,Sage亦全面领先本月最新发布的同量级端侧旗舰模型 Google-Gemma4,把端侧模型的能力天花板抬到了一个新的水位。
这些专业能力落到真实车舱,转化为一组直接影响用户体验的指标:Sage 场景推理精度超过 90%,长链路工具调用、逻辑规划、环境感知任务成功率分别达 92%、89%、94%,复杂指令遵循率提升 40%。
业内认为,Sage端侧多模态智能体基座大模型为舱驾一体方案打通了量产可行的模型路径,打破了技术与落地之间的壁垒,推动智能座舱从基础交互向高阶舱驾融合智能体服务跨越。
据商汤绝影透露,不久后的北京车展期间,将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box,为汽车迈入超级智能体时代筑牢核心根基。
元股证券本文由公众号财经涂鸦(ID:caijingtuya)原创撰写,如需转载请联系涂鸦君。添加涂鸦君个人微信(ID:tuyaclub)加入【公司情报社群】参与资本市场讨论获取一手情报

]article_adlist-->
海量资讯、精准解读,尽在新浪财经APP

本季度以来股票证券配资在跨境资金流市场的投资行为围绕账户生存近期,在新兴科技板块市场的热点快速轮动时期中,围绕“股票证券
2026-02-12
中金发布研报称,由于部分市场承压以及销售网络建设带来费用增加,下调业聚医疗(06929)2026年经调整净利润预测16%
2026-03-17
相对独立判断的专业型资金使用轻松配资炒股的合规边界趋势研判报近期,在主要资本流向区域的箱体震荡区间运行期中,围绕“轻松配
2026-02-08
透视中国投资市场在当前指数中枢上下反复试探阶段里北京证券股票近期,在跨国资本市场的权重与题材分化阶段中,围绕“北京证券股
2026-01-30
在当前高位股风险释放期里,对波动容忍度较大的资金如何运用配资近期,在全球多国证券市场的热点题材一日游现象增多的阶段中,围
2026-01-31