在AI智能体(AI Agent)的开发浪潮中,许多团队正面临一个共同的困境:“修复一个问题,却引发三个更隐蔽的Bug”。这种“按下葫芦浮起瓢”的现象,本质上是缺乏系统化评估体系导致的开发失控——团队像在迷雾中驾驶飞机,只能依靠“肉眼观察”和“事后补救”,无法预判风险,更难以自信地推进迭代。
当 Vibe Coding 正在改变代码生成的范式时,斯坦福政治经济学教授 Andrew B. Hall 已经把它进化到了一个新的维度——Vibe Researching。 他利用 CLI 工具 Claude Code,在约一小时内,全自动复现并扩展了他 2020 年发表在 PNAS 上的一篇关于“邮寄投票(Vote-by-Mail)”的经典实证研究。
机器之心发布当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step ...
以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。