我们今天来聊聊大模型的 Coding Benchmark,特别是 SWE-bench Pro,深入的了解Benchmark得分到底意味着什么? 以及 能不能用Benchmark来选择模型。 随着 Claude Mythos 5/Fable 5 的发布,大家是不是也像我一样被下面这张表刷屏了? 图片 特别是 SWE-bench Pro 80.3% 的得分,可以说是 ...
如果这些都没有,那 AI 写得不好,真的不一定是 AI 的问题。未来真正会用 AI 的 Java 工程师,不是提示词写得最玄的人。而是能把复杂工程任务,拆成清晰任务单的人。这可能会成为 AI Coding 时代最重要的新能力。 最近这段时间,我连续测试了很多 Codex、Claude Code、Cursor 这类 AI Coding 工具。 很多人用 AI 写代码效果不好,并不是模型不行。 而是他 ...
作者 | 郭勇良,快手资深服务端架构师审核 | Kitty策划 | QCon 全球软件开发大会在 AI coding 工具日益成熟的今天,代码生成能力已被视为接近攻克的领域,但软件工程的全局难题远未解决。本文整理自快手资深服务端架构师郭勇良在 ...