LMSYS为何被称为“大模型最强盲测”？OpenAI CEO奥特曼也看重

2024-05-23 14:42:00 [ 中关村在线原创 ] 作者：新闻快讯

5月20日,LMSYS Org (Large Model Systems Organization)举办的盲测竞技场公布了其最新排名情况,零一万物研发的千亿参数级模型Yi-Large在此榜单中表现出色,不仅在全球模型总排名中占据第七席位,更是在中国大模型类别中拔得头筹,位列第一,实现了对Llama-3-70B及Claude 3 Sonnet等国际知名模型的超越。其中,在中文专项排名中,Yi-Large与GPT4o并驾齐驱,共享全球榜首位置,彰显了其在中文处理能力上的顶尖水准与国际竞争力。

LMSYS Org,作为一个公开性质的研究团体,源自学术界的强强联合,由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建。尽管其根植于高等学府,LMSYS却紧密连接实际产业需求,其活动范围广泛,不仅限于自主研发大规模语言模型,还积极推动领域进步,比如发布广受认可的数据集MT-Bench,该数据集已成为评估指令遵循能力的标准工具。此外,该组织涉足开发高效能的分布式计算系统,旨在加速大型模型的训练和推理过程,并且创新性地提供了线上平台,即所谓的“大模型竞技场”,配备必要的高性能计算资源,供实时模型性能比拼使用,进一步促进了人工智能技术的实践与革新。

历经2023年大模型评估领域种种复杂且充满挑战的测评风波后,业界对测评标准的公正性与专业水平提出了更高要求。在此背景下,LMSYS Org 推出的Chatbot Arena凭借其创新的“实战竞技”模式与测试团队的严格标准,迅速赢得了全球行业的广泛认可,树立了评测的新标杆。就连OpenAI在正式揭晓GPT-4o之前,亦选择在LMSYS平台上进行了匿名预测试,足见其信任与依赖。

不仅如此,LMSYS Chatbot Arena的影响力还延伸到了海外头部企业的高层之中,除了OpenAI的CEO Sam Altman之外,Google DeepMind的首席科学家Jeff Dean也援引该竞技场的排名数据,以之为有力证据来支撑并强调其产品Bard的卓越性能。

LMSYS为何被称为“大模型最强盲测”？OpenAI CEO奥特曼也看重