Gemini 大概是所有 LLM 里最能张口就来的,把不存在的功能文档、示例代码都编得非常详细,还非常嘴硬,为什么排名能这么高

2 天前
 drymonfidelia
Avalonia 群里看到的聊天记录,用的是 02-05 模型,红字批注是我加的
我尝试复现了但没他这个离谱,就用他的图了,但我测试出来的结果也是全瞎扯的,没有一行代码能用
这种不是特别热门的 UI 框架的问题所有 AI 都答不好,但能答成这样也是我没想到的



追问继续编



连示例代码都有



可惜没一个能用



提出疑问后 “非常确定”



还详细编出了排查方案



连原因都给你编的清清楚楚





第一个链接不知道哪找的废弃域名,里面的链接全是 404

源代码我也搜了,连 Camera 都没有
5924 次点击
所在节点    程序员
54 条回复
Int100
2 天前
最能扯淡的就是 gemini ,早就避而远之
cnrting
2 天前
更难泵是竟然还有人推(吹)
drymonfidelia
2 天前
@Int100 我用这个问题测试了 Claude Sonnet 和 GPT 4o ( Plus 刚到期不想续了,感觉 o3 也差不多)也都在混入其它 UI 框架的代码,但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了,还能把全套证据都编出来
weazord
2 天前
但代码类本来就算是 Gemini 的弱项,排名不高啊。。 看起来现在代码类仍然是 Sonnet 3.5 最好用?

比如 webdev ? https://web.lmarena.ai/leaderboard

Gemini 属于日常用着方便
lovestudykid
2 天前
决定怎么用工具的是你,比如你可以把文档提供给它
ZeroClover
2 天前
因为猜测文本本来就是 LLM 的作用,编得看起来很合理并不奇怪。

另外 Gemini 在英文和非英文下的差距比较大,代码任务用英文 Prompt 效果会好上不少

另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ,受限于训练集,本来就可能导致效果不佳
silverwzw
2 天前
本质上 LLM 的任务是 对你给定的输入,生成输出字符串,使得输出字符串尽可能像人类的回应。
nomagick
2 天前
而 GPT 就不一样了,GPT 属于是冥顽不化
RoccoShi
2 天前
实测目前在编程领域最好的还是 claude ,就算不会也不会瞎说。
crackidz
2 天前
LLM 的常见问题,幻觉严重。开了 Grounding with Google Search 的话会好一些
kzfile
2 天前
对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码
anzu
2 天前
感觉可能用于训练的中文语料较差,某次 Gemini 给的代码中居然有中文变量名和函数名,虽然也不是不能运行吧……
andrew2558
2 天前
Gemini 代码的确不太行,代码还是 Claude 最强
Felixchen1062
2 天前
代码类型的问题, 把模型温度控制在 0.5 以下再试试

Quote from 知乎:
当模型的「温度」较高时(如 0.8 、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。而当「温度」较低时(如 0.2 、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。但此时,生成的文本可能会显得过于保守和重复。

Quote from Deepseek:
Temperature 设置
temperature 参数默认为 1.0 。

我们建议您根据如下表格,按使用场景设置 temperature 。
场景 温度
代码生成/数学解题    0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5
idragonet
2 天前
Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。
ptstone
2 天前
用过一次,优点是速度输出是最快的,没有之一,缺点是答案全 tm 是错的
yushi17
2 天前
不要用中文 完毕
coderlxm
2 天前
我对比过发现用英文给的答案我会更满意一些,虽然也有错误,但是尽量还是不要用中文了。
mingtdlb
2 天前
我觉得最难用的 LLM ,v2 上还很多人推荐
jonsmith
2 天前
gemini flash 2.0 确实垃圾,不如之前的 2.0 体验版。回复快是真快,但是容易胡说八道,哈哈。我猜他们比较看重速度,某些参数调的太过了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1110486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX