为什么这么简单的一个问题,所有不联网的 AI 全部都答错了

41 天前
 drymonfidelia
please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnEndDrag OnPointerUp

正确的顺序 OnPointerUp 在 OnEndDrag 之前,所有 AI 不联网都按照问题里错误的顺序胡编 OnEndDrag > OnPointerUp ,我测试了好几遍都这样

但是如果把问题改成

please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnPointerUp OnEndDrag

(用正确的顺序提问)

除了 Claude 3.5 Sonnet 还在坚持 OnEndDrag > OnPointerUp ,还详细胡编了一个解释 其它 AI 都能答对

在 Unity 里不管代码顺序怎么样,OnPointerUp 始终比 OnEndDrag 先调用

另外我还测试了把 OnBeginDrag 写错成 OnDragBegin ,OnEndDrag 写成 OnDragEnd ,只有推特的 Grok 发现了问题,别的 AI 全都按错误的事件名在回复,完全没有怀疑

4570 次点击
所在节点    程序员
35 条回复
drymonfidelia
41 天前
另外第一次测试,Claude 3.5 Sonnet 还胡编了 Start > Awake ( Awake 一定比 Start 先)
重新提问没复现
shinsekai
41 天前
那联网的能答对吗?
drymonfidelia
41 天前
@shinsekai 联网的全答对了,因为 Google 能搜到现成答案
yukino
41 天前
因为 LLM 本身并没有思考能力,只能模仿训练集里见过的模式来输出概率比较高的 token
yuzo555
41 天前
@yukino 其实发展到目前这个水平,有无思考能力的界限已经模糊了。人脑不也是一个大型神经网络模型吗。
GeekGao
41 天前
正常,因为训练的时候没有摄入相关的资料。行为上只能被迫玄学。
icyalala
41 天前
人的记忆不也是如此吗?
drymonfidelia
41 天前
Claude 聊天记录


只有 Grok 发现我写错的事件名


Gemini 表现和 GPT4 差不多
yukino
41 天前
@yuzo555 还是有点区别的,虽然语言能力和思考能力有交集,但是 LLM 的输出更像是张嘴就来,训练集里没见过的内容就很容易出错。但是人还有更高层次的分析能力,目前的 COT 手段也很难实现同等的效果
ShadowPower
41 天前
LLM 本身并不能区分学到的信息是对的还是错的,目前没有办法制作出“不含错误信息”的训练数据
importmeta
41 天前
还有个更简单的, 离散数学真值表, 在线 AI 都答不对.
lscho
41 天前
@yukino 其实和人没啥区别,“人还有更高层次的分析能力”只不过是人接受的训练集多而已。。。让小学生来回答这个问题,还强制他不能回答不会,必须回答,那他也只能胡言乱语
biochen
41 天前
一个智商 200 的人,如果他没有见过 unity event ,他也回答不上这个问题。

这属于小众领域的专业事实,大语言模型干不过 Google 。

在使用大语言模型时,我通常会给出这个事实,或者搜索出来告诉它。如果它的回答中有一些这样的事实,我还会用 Google 检查。

大语言模型会认为我总是对的,当大语言模型表现不佳的时候,我会想我有没有误导它,或者这个问题不属于大语言模型可以解决的。

对抗幻觉,澄清目标,让大语言模型往我们的方向走。
drymonfidelia
41 天前
@biochen 但是一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案
johnsmith2077
41 天前
@drymonfidelia 你说得对,目前大模型最关键的问题就是面对不熟悉的问题,会瞎编而不是说不知道
mahaoqu
41 天前
为什么 AI 看起来那么普通,却那么自信?

(我开玩笑的,以后 AI 统治人类之后请不要因为这句话清算我)
whoami9426
41 天前
不能依赖 llm 的答案,需要自己辨别和踩坑, 越新越小众的问题,越容易瞎编
LaTero
41 天前
游戏这样的小众问题就是这样的。打开 web search 然后强调“Search the Unity docs if you are not sure”。其实 Claude 在冷门知识这方面已经是相对最好的了,不开联网搜索我用过的其他 AI 都 hallucinate 更多。
cmdOptionKana
41 天前
@drymonfidelia

> 一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案

1. 如果人不会吹牛(胡说八道),那谣言是怎么来的?事实上人类社会谣言满天飞,不懂装懂、故弄玄虚、添油加醋才是常态。
2. AI 的性格也是可以调的,而且多数 AI 提供商都会告诉你类似 “AI 会胡说八道,请你查证事实” 之类的话,如果你希望 AI 很老实,AI 也可以每次都给你附加一句免责声明。
icyalala
41 天前
想想你在过去考试的时候填空,有时你也会对你记忆深信不疑,但实际是模糊了错误的答案。

Hinton 就讨论过这个问题,人回忆时并不是从某个地方直接读取记录,记忆实际是分散的,回忆实际上是个重建和生成的过程,和 LLM 非常相似。人的回忆存在虚构,对应的 LLM 存在幻觉,只是 LLM 幻觉现象目前更严重。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1101072

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX