读了 Kimi K2 的 blog,Agentic Capabilities 令人印象深刻。
如blog中所说,Kimi K2 借鉴了ACEBench,在evaluation上,不仅衡量端到端 End Accuracy,针对每一步tool call也给出 Process Accuracy,这种对process的重视,能显著提升 LLM 的 Planning 能力。
所以,JavaScript Minecraft 和 RustFlask的例子,醒目的planner把一步步的计划放在最前面。
题外话,这种planner + excution的方式,几乎就是 ReWOO。我日常用的agent workflow,也几乎只用两种,ReAct + ReWOO。