5月26日,红杉中国对外晓谕推出一款全新的AI基准测试器具xbench,并发布了一篇证明其职责旨趣的论文。这一冲突性发挥标记着自2022年ChatGPT引爆通用东谈主工智能(AGI)赛谈以来,投资机构初度主导发布基准测试(Benchmark),给当下火爆的AI投资又加了一把火,在业内也受到平凡宽恕。
已往两年多,AI Benchmark徐徐成为评估基础大模子和AI Agent(AI 智能体)本领的通用器具,海表里高校、琢磨机构和AI公司推出了宽绰不同维度的测试体系。跟着基础模子的快速发展和AI Agent干涉范畴化支配阶段,被平凡使用的基准测试却靠近一个日益锋利的问题:念念要真正地反馈AI的客不雅本领正变得越来越贫瘠。
基于以上需求,证实红杉中国的先容,xbench给与双轨评估体系,构建多维度测评数据集,旨在同期追踪模子的表面本领上限与Agent的践诺落地价值。该体系改进性地将评测任务分为两条互补的干线:(1)评估AI系统的本领上限与本领规模;(2)量化AI系统在真正场景的遵循价值(Utility Value)。其中,后者需要动态对皆现实天下的支配需求,基于践诺职责历程和具体社会变装,为各垂直领域构建具有明确业务价值的测评标准。
此外,值得凝视的是,xbench给与长青评估(Evergreen Evaluation)机制,通过捏续顾惜并动态更新测试内容,以确保时效性和有关性。红杉中国将按时测评阛阓主流Agent居品,追踪模子本领演进,捕捉Agent居品迭代过程中的环节冲突,进而展望下一个Agent支配的本领—阛阓契合点(TMF,Tech—Market Fit)。行动孤苦第三方,红杉中国悉力于于为每类居品预备公允的评估环境,提供客不雅且可复现的评价终了。
证券时报记者了解到,首期发布的xbench包含两个中枢评估集:科知识题解答测评集(xbench—ScienceQA)与汉文互联网深度搜索测评集(xbench—DeepSearch),并对该领域主要居品进行了轮廓名次。同期建议了垂直领域智能体的评测武艺论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测终了和武艺论可通过xbench.org网站及时旁观。
红杉中国暗意:xbench迎接社区共建。关于基础模子与Agent设立者,不错使用最新版块的xbench评测集来第一时分考据其居品后果,得到里面黑盒评估集得分;关于垂类Agent设立者、有关领域的专科和企业,迎接与xbench共建与发布特定行业垂类标准的Profession Aligned xbench;关于从事AI评测琢磨,具有明确琢磨念念法的琢磨者,但愿获得专科标注并长久顾惜评估更新,xbench不错匡助AI评估琢磨念念法落地并产滋长久影响力。
有业内东谈主士分析,红杉中国这一绝顶的举动,更能突显出当下投资机构全面拥抱AI的决心,况且在已往两年多的时分里,xbench一直是红杉中国在里面使用的追踪和评估基础模子本领的器具,将这一“创投行业智能体”器具开源,并不断在探乞降激动AI本领上限的过程中寻找交易化落地的契机,给扫数这个词行业带来新的变革。
此前有投资东谈主曾暗意,现在在好意思国一级阛阓,对AI产业链尤其所以AI智能体为代表的AI支配侧的投资占皆备主导地位,而中国阛阓不同于好意思国,AI产业生态投资中硬件和软件相对比拟均衡,硬件领域的投资相对更合适中国成本阛阓饱读吹的方针,包括以算力生态为代表的入口替代硬件底座、自动驾驶,以及具身智能为代表的各样AI硬件和行业支配等。
而事实上,AI智能体也受到国内许多机构的宽恕。以红杉为LP的北京某AI垂直方针早期投资机构的致密东谈主就闪现,本年AI赛谈呈现出大模子从科研模子向产业模子转机,基础的算法算力向践诺的支配迈进,AI编程(AI Coding)、AI智能体(AI Agent)和AI硬件将是本年三个爆发的支配点。
中信建投(601066)研报称开yun体育网,近期大厂密集更新Agent居品,微软奋发通过土产货+云霄协同构建Agent汇注;谷歌基于现存生态打造2C Agent 3P计谋;Anthropic则发布Claude 4模子,提拔Agent构建。国内厂商亦同步跟进,金蝶国外打造天穹Agent平台2.0和五大智能体助力企业AI解决;昆仑万维(300418)通过天工超等智能体带来高效办公体验。跟着Agent居品加速落地,AI产业捏续朝上,交易化落地节律有望加速,Agent居品密集更新,利好罕有据、有客户、有场景的软件企业,AI居品有望带动公司ARPU普及和名目单价高潮;此外,模子非凡化需求增多,利好一体机、超交融和B端奇迹外包企业。
Powered by 开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口 @2013-2022 RSS地图 HTML地图