看到一篇对Kimi探索版的复杂逻辑推理测试很有意思。Kimi经过一系列假设验证,得到了正确结论。
对大语言模型来说,需要借助CoT(思维链),生成分析过程。但是有思维链不代表就一定能做对,分别测试一下几个模型,GPT-4o 和 o1 都能做对,尤其是 o1,推理很严谨。让我意外的是 Claude 试了三次一直做不对,过程都有,但是总的出错误的结论。豆包表现得有些不可思议,它竟然会想到先找出一对矛盾的说法,证明另外两个说法是真实的,然后直接得出结论,比Claude和Kimi的做法显得更聪明些。
有兴趣你也可以试试:
> 问: 某公司被窃,A、B、C、D四人涉嫌被拘留。侦破结果表明,罪犯就是其中的某一个人。A说:“是C偷的。”B说:“我没偷。”C说:“我也没偷。”D说:“如果B没有偷,那么就是我偷的。”现已查明,其中只有一个人说了假话,从上述条件可以确定,谁偷成立?
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图