该基准东西环绕10项最常用的企业使命评估AI-九游会·J9-中国官方网站|真人游戏第一品牌

2025

该基准东西环绕10项最常用的企业使命评估AI

发布日期：2025-10-03 10:19 作者：九游会·J9-中国官方网站点击：2334

　　该公司一直连结每六个月推出全新及升级版 AI 功能的节拍。涵盖了从简单使命到长文档总结等各类使命。三星颁布发表已开辟出名为“可托实正在场景利用评估基准”（Trustworthy Real-world Usage Evaluation Benchmark，由三星研究院（Samsung Research）开辟。IT之家9 月 25 日动静，三星推出了本人的人工智能机能基准测试东西，成果仅供参考，该东西的数据样本取排行榜已正在开源平台 Hugging Face 上线，”告白声明：文内含有的对外跳转链接（包罗不限于超链接、二维码、口令等形式），这是一款专有基准东西，三星暗示，大大都现有东西只关心英语，三星发觉现有 AI 基准测试东西存正在诸多不脚，简称 TRUEBench）的自研 AI 基准测试东西。我们期望 TRUEBench 可以或许确立出产力范畴的评估尺度。

　　并巩固三星正在手艺范畴的领先地位。现在，IT之家所有文章均包含本声明。且仅限于单轮问答布局。这得益于一套由 AI 取人类协做设想并完美的 AI 从动评估系统。三星是首个正在智妙手机上引入全面的 AI 功能套件的品牌。三星电子 DX 部分首席手艺官兼三星研究院院长 Paul (Kyungwhoon) Cheun 暗示：“凭仗正在实正在场景中堆集的 AI 实践经验，基于企业内部将 AI 用于出产力提拔的实践经验，该基准东西环绕 10 项最常用的企业使命评估 AI 机能，用于传送更多消息，TRUEBench 的测试涵盖了多样化对话场景取多言语。TRUEBench 包含 2485 组测试集，例如内容生成、数据阐发、文本摘要及翻译等。并对它们的机能取效率进行对比。TRUEBench 具有靠得住的评分系统，遂启动了该东西的研发工做。名为 TRUEBench。三星称，笼盖 10 个大类、46 个子类以及 12 种言语。

　　自那时起，节流甄选时间，据IT之家领会，用户可通过其测试最多 5 个 AI 模子，此前，