Gemini 大概是所有 LLM 里最能张口就来的，把不存在的功能文档、示例代码都编得非常详细，还非常嘴硬，为什么排名能这么高

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

Avalonia 群里看到的聊天记录，用的是 02-05 模型，红字批注是我加的
我尝试复现了但没他这个离谱，就用他的图了，但我测试出来的结果也是全瞎扯的，没有一行代码能用
这种不是特别热门的 UI 框架的问题所有 AI 都答不好，但能答成这样也是我没想到的

追问继续编

连示例代码都有

可惜没一个能用

提出疑问后 “非常确定”

还详细编出了排查方案

连原因都给你编的清清楚楚

第一个链接不知道哪找的废弃域名，里面的链接全是 404

源代码我也搜了，连 Camera 都没有

llm

avalonia

Gemini

54 条回复 • 2025-02-12 12:14:03 +08:00

Int100

2 天前 via iPhone

最能扯淡的就是 gemini ，早就避而远之

cnrting

2 天前 via iPhone

更难泵是竟然还有人推(吹)

drymonfidelia

2 天前

@Int100 我用这个问题测试了 Claude Sonnet 和 GPT 4o （ Plus 刚到期不想续了，感觉 o3 也差不多）也都在混入其它 UI 框架的代码，但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了，还能把全套证据都编出来

weazord

2 天前

但代码类本来就算是 Gemini 的弱项，排名不高啊。。看起来现在代码类仍然是 Sonnet 3.5 最好用？

比如 webdev ？ https://web.lmarena.ai/leaderboard

Gemini 属于日常用着方便

lovestudykid

2 天前

决定怎么用工具的是你，比如你可以把文档提供给它

ZeroClover

2 天前

因为猜测文本本来就是 LLM 的作用，编得看起来很合理并不奇怪。

另外 Gemini 在英文和非英文下的差距比较大，代码任务用英文 Prompt 效果会好上不少

另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ，受限于训练集，本来就可能导致效果不佳

silverwzw

2 天前

本质上 LLM 的任务是对你给定的输入，生成输出字符串，使得输出字符串尽可能像人类的回应。

nomagick

2 天前

而 GPT 就不一样了，GPT 属于是冥顽不化

RoccoShi

2 天前 via iPhone

实测目前在编程领域最好的还是 claude ，就算不会也不会瞎说。

crackidz

2 天前

LLM 的常见问题，幻觉严重。开了 Grounding with Google Search 的话会好一些

kzfile

2 天前

对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码

anzu

2 天前

感觉可能用于训练的中文语料较差，某次 Gemini 给的代码中居然有中文变量名和函数名，虽然也不是不能运行吧……

andrew2558

2 天前

Gemini 代码的确不太行，代码还是 Claude 最强

Felixchen1062

2 天前

代码类型的问题, 把模型温度控制在 0.5 以下再试试

Quote from 知乎:
当模型的「温度」较高时（如 0.8 、1 或更高），模型会更倾向于从较多样且不同的词汇中选择，这使得生成的文本风险性更高、创意性更强，但也可能产生更多的错误和不连贯之处。而当「温度」较低时（如 0.2 、0.3 等），模型主要会从具有较高概率的词汇中选择，从而产生更平稳、更连贯的文本。但此时，生成的文本可能会显得过于保守和重复。

Quote from Deepseek:
Temperature 设置
temperature 参数默认为 1.0 。

我们建议您根据如下表格，按使用场景设置 temperature 。
场景温度
代码生成/数学解题 0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5

idragonet

2 天前

Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。

ptstone

2 天前

用过一次，优点是速度输出是最快的，没有之一，缺点是答案全 tm 是错的

yushi17

2 天前

不要用中文完毕

coderlxm

2 天前 via Android

我对比过发现用英文给的答案我会更满意一些，虽然也有错误，但是尽量还是不要用中文了。

mingtdlb

2 天前

我觉得最难用的 LLM ，v2 上还很多人推荐

jonsmith

2 天前 via Android

gemini flash 2.0 确实垃圾，不如之前的 2.0 体验版。回复快是真快，但是容易胡说八道，哈哈。我猜他们比较看重速度，某些参数调的太过了

gumayusi

2 天前

LLM 可以从 AI 中拆分开来，不然迟早把 AI 整个领域带进沟里。

wu67

2 天前

gemini 口胡确实有, 有时候我明明都反驳他说这个代码跑不起来, 没这个 API, 它应是继续嘴硬那几行破玩意.
但是用来写平时完全不懂的脚本代码还是挺好玩的, 我让他帮我写了游戏点击 shell script

collen

2 天前

gemini 有 pro 用户说说体验如何，上周看新闻说大幅度提升，还想下个月试试看

cang00jia

2 天前

gemini 让我想起了”别管对不对，你就说快不快吧“这个梗

holdeer

2 天前

能力越强，幻觉越多

marquina

2 天前

我很好奇，只贴出了 gemini 的测试结果，是怎么得出“Gemini 大概是所有 LLM 里最能张口就来的”这个结论的？意思是其它的 llm 都能很好的回答这个问题？

BeautifulSoap

2 天前 via Android

上次我还在另一个帖子里吐槽过 gemini ，又可以原文拿过来用了，说真的每次看到 v 站有人说 gemini 不错我就想笑，拜托你们真的该吃点好东西：

gemini 这种听不懂人话的智障中的战斗机谁爱用谁用去，用 gemini 纯粹是给自己工作添堵

不光中文，日文等语言也超级拉跨。实在无法理解谁给谷歌的勇气，这种垃圾水平的 ai 还敢拿出来放到商业套餐里，还一个敢收一个用户$36/月的费用

95Sd3HjoO2YyT9DP

2 天前

Gemini 付费三个月，刚开通了 ChatGPT pro 。
使用体验上肯定是 Gemini 更好，ChatGPT 目前还是会因为 IP 问题降智，网页端和 Wins 端卡的不行，感觉浪费了两千多块，昨天我想写个健身计划，用 o1 和 o3-mini ，没问几句就开始不回复了，之后估计 Plus 都不会开。
我不是程序员，代码上无法给出参考，不过不是公认 Claude 比较好吗，反正 ChatGPT 就是一坨
主要是谷歌性价比高，开一个会员，可以用 Google ONE 里面很多东西，AI 也没有不好用。

realpg

2 天前

gemimi 的特点就是快，别管他会不会，不会也会尽快给你编一个

zbw0414

2 天前

gemini 不能用 app ，要去用 google aistudio 版本的。

potatowish

2 天前 via iPhone

gemini 就适合把文档都丢给它，然后问它根据文档怎么实现功能，上下文 token 最大支持 200w 随便造。

potatowish

2 天前 via iPhone

@zbw0414 #30 OP 这个就是 AI Studio ，这里面最好的就是 gemini pro 2.0 exp 0205

zbw0414

2 天前

@potatowish 我这里看图都是裂的，没看到细节。不过 2.0pro 发布之后我还是经常用 gemini 的，平常我也是 gemini 、g4o 、ds 、长期白嫖。用下来 gemini 丢给他各种产品文档 pdf 丢给他，代码压缩发给他，然后给架构设计方案，出接口文档啥的很方便，记得要写好 system instruction ，然后工程类的记得 temperature 调低这样

e3c78a97e0f8

2 天前

你可以去 lmarena 上多打评分，争取把 Gemini 的分数降下来
lmarena 上都是真人在测试，如果排名和你想象不符，要么是有水军，要么就是别人和你看重的点不一样

ssb4

2 天前 via Android

Gemini 就适合写故事，而且实验模型没审查，R18 写得飞起

ufan0

2 天前

Gemini 连在自家的 flutter 框架上都做梦，叫也叫不醒的那种。

Sting1226

2 天前

@cang00jia Gemini 感觉不如 groq 快。哪怕是编也它快。

gadfly3173

2 天前 via Android

Avalonia 其实主要是本身文档就不全，0.x 到 11.x 又大改了一次。。。基本上各类大模型对于 Avalonia 都会当成 WPF 来给你返回 api

Donaldo

2 天前

gemini 模型写代码真的烂，瞎几把扯，但好处就是拿来吹牛逼的东西交给 gemini 效果很好。。。

qfchannel

2 天前

gemini 聊天学外语还行，写代码还是 claude

ShadowPower

2 天前

gemini 适合写小说，还有识图能力比 gpt4o 强

ShadowPower

2 天前

不过各种 LLM 的真实水平其实也就那样……
我想起了这个：

specialweiyu

2 天前

https://v2ex.com/t/1110516#reply36
隔壁全是吹的，这边全是喷的，这么两极分化？？？

badreamm

2 天前

gemini 用一次笑一次

KevinChan

2 天前

Gemini 就是脑残

zhwguest

2 天前

你们有没有发现 Gemini 速度快的原因就是因为程序员根本就不用.....真的不知道为什么排名这么高，用一次喷一次血。

luxi78

2 天前

挺好的，AI 差不多这样就行了，否则咱们全都要丢饭碗

IMZQZ

2 天前

哈哈哈 AI 对于不知道的内容不都是先编骗一个是一个如果都知道谁还用 AI

cubeWX

1 天前

Google 果然还是最烂的,没救了

moefishtang

1 天前

@specialweiyu 看这个帖子中的使用场景，貌似基本都不是编码方面
一楼那个拿这个写小说，显然胡编乱造在写小说方面是具有优势的
写代码需要严谨的，有逻辑的思考能力，绝对不能胡编乱造。因此 Gemini 编码方面能力就差得多

unco020511

1 天前

几乎不用 gemini

wadjj

1 天前

现在的排名主要是两类
* 客观回答的准确率：给定问题集做单选，得分越高越好——错就是错，不会=胡扯，胡扯不被扣分
* 主观回答的人类偏好：同一个人类问题给你两个匿名回答，你选择更喜欢哪个——胡扯的有模有样不一定被发现，未必偏好会低

理论上胡扯是需要倒扣分的，但是现在的评测排名都没有这个机制。当然也合理，大模型的胡扯是能力的一部分，摘不干净，所以也不是评测的重点。

GotKiCry

1 天前

代码相关需要准确性的东西记得把 temperature 降低到 0.5 以下

GotKiCry

1 天前

补充一点现在 deepseek 秒杀其他模型的一点就是强大的自审能力。很多模型的思考都做不到这一点