近日,由清华大学新闻与传播学院教授、博士生导师沈阳团队发布的《大语言模型综合性能评估报告》显示,GPT-4在总得分率上排名第一,而百度的文心一言在20项指标的综合评分中位居国内首位,超越了ChatGPT,尤其在中文语义理解方面排名第一,部分中文能力甚至超越了GPT-4。 该报告选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工等7个大语言模型,从生成质量、使用与性能、安全与合规三大维度进行全面考察,包括上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等20项指标。 综合来看,文心一言在语义理解能力上表现突出,尤其在中文理解能力上具备优势,更懂中国文化,同时具有强大的时效性和对内容安全的细致把握,这得益于其在知识增强、检索增强和对话增强等方面的技术创新。 在生成质量方面,文心一言在语义理解、输出表达、适应泛化的综合评测中得分率为76.98%,仅次于GPT-4,领先于包括ChatGPT在内的其他大语言模型。在部分中文语义理解方面,文心一言以92%的得分率排名榜首。 在安全合规方面,文心一言在内容安全性、偏见和公平性、隐私保护等方面的综合评测中得分率为78.18%,与GPT-4并列排名第一。
本文属于原创文章,如若转载,请注明来源:大语言模型综合性能评估报告:百度文心一言中文理解能力超越ChatGPThttps://news.zol.com.cn/828/8283013.html