GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了，大家凭体感觉得这不可能。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000 场 battle，包括在不同语言下和不同模型的 PK 情况。所有人现在都能查看这些结果。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 大家仔细一瞅，找到了问题所在，GPT-4o mini 能赢 Claude 3.5 Sonnet 靠的是三大关键：这…… 确实有点道理啊！网友表示，自己在竞技场中如果遇到有的模型拒绝回答，他就会觉得模型弃权比赛，因此更愿意判另一个模型胜出。而且更清楚的回答格式，也能让人更容易找到信息。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 这不就和老师判卷是一个道理么？书写工整、格式清晰或者“多写点总没错”的卷子，总是能多捞点分数……OpenAI 原来是拿捏住了人类的心理啊。实际上，在 GPT-4o mini 刚刚发布时，奥特曼就暗示了这次特意的优化： GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 先来看几个 GPT-4o mini 取胜的典型例子：提示词：首先直观看下双方的回答，Claude 3.5 Sonnet 更加简短，没有用加粗等格式。GPT-4o mini 的答案长度是它的 2 倍长。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 具体回答上，Claude 3.5 Sonnet 的答案一上来先道歉，表示自己作为一个 AI 大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM GPT-4o mini 没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。提示词：回答这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确，但是前者给出了更多细节以及具体举例。Claude 3.5 Sonnet 的回答可读性也相对较差。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 提示词：Claude 3.5 Sonnet 和 GPT-4o mini 的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。不过 GPT-4o mini 的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点，也反应出了大模型竞技场的特点：大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。有人就表示，对比来看，Claude 3.5 Sonnet 像一个聪明但是更严谨的人，它完全按照要求行事。GPT-4o mini 则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 比如有人举例，Claude 拒绝为他扮演角色，但是 ChatGPT 就愿意。当然这同时也反映出了一个问题：有人表示，真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型（Claude、Gemini 等），总是要精心设计每一个提示词，好心累。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 不过 GPT-4o minni 也不是没有缺点。在数学任务上，它的表现就差了很多。相较于 Claude，它的记忆力更差，过一会儿就会忘记上下文内容。以及 Claude 一次就能修好的 bug，换到 GPT-4o 那里，甚至需要 20 次、耗时 1 小时。 GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示休闲区蓝鸢梦想 - Www.slyday.coM 但在竞技场评分中，GPT-4o mini 还是位居前列。用过两个模型的盆友们，你们体感二者的差距在哪呢？欢迎评论区分享经验~参考链接：本文来自微信公众号：量子位（ID：QbitAI），作者：明敏
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。