Java Python - 搜索 News

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？

我们今天来聊聊大模型的 Coding Benchmark，特别是 SWE-bench Pro，深入的了解Benchmark得分到底意味着什么？以及能不能用Benchmark来选择模型。随着 Claude Mythos 5/Fable 5 的发布，大家是不是也像我一样被下面这张表刷屏了？图片特别是 SWE-bench Pro 80.3% 的得分，可以说是 ...

8 小时

90% 的人用 Codex 写 Spring Boot，第一步就错了

如果这些都没有，那 AI 写得不好，真的不一定是 AI 的问题。未来真正会用 AI 的 Java 工程师，不是提示词写得最玄的人。而是能把复杂工程任务，拆成清晰任务单的人。这可能会成为 AI Coding 时代最重要的新能力。最近这段时间，我连续测试了很多 Codex、Claude Code、Cursor 这类 AI Coding 工具。很多人用 AI 写代码效果不好，并不是模型不行。而是他 ...

Tencent News

复杂业务场景下 RCA Agent 的探索实践

作者 | 郭勇良，快手资深服务端架构师审核 | Kitty策划 | QCon 全球软件开发大会在 AI coding 工具日益成熟的今天，代码生成能力已被视为接近攻克的领域，但软件工程的全局难题远未解决。本文整理自快手资深服务端架构师郭勇良在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？

90% 的人用 Codex 写 Spring Boot，第一步就错了

复杂业务场景下 RCA Agent 的探索实践

今日热点