Chatbot Arena:主要针对主流几个开源模型进行测评(目前很多模型还没纳入进来)

网址:https://chat.lmsys.org/

测评系统:随你给你模型两两比对进行打分。

PS:Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动;Elo 评分越高,越厉害。

battle界面⬆️

- Google PaLM 2和其他聊天机器人已加入竞技场。

- 基于匿名投票数据的新Elo评分排行榜已发布。

- GPT-4目前排名第一。

- PaLM 2在调节、多语言能力和推理能力方面存在缺陷。

- 小型模型如vicuna-7B和mpt-7b-chat具有竞争力。

- Claude-instant-v1是Claude-v1的低成本替代品。

- 当前的竞技场在反映聊天机器人的长尾能力差异方面存在局限性。

- 正在设计一种新的比赛机制,使用专家设计的问题和评委来检查聊天机器人。