![]() |
1
Int100 2 天前 via iPhone
最能扯淡的就是 gemini ,早就避而远之
|
![]() |
2
cnrting 2 天前 via iPhone
更难泵是竟然还有人推(吹)
|
3
drymonfidelia OP @Int100 我用这个问题测试了 Claude Sonnet 和 GPT 4o ( Plus 刚到期不想续了,感觉 o3 也差不多)也都在混入其它 UI 框架的代码,但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了,还能把全套证据都编出来
|
4
weazord 2 天前 ![]() 但代码类本来就算是 Gemini 的弱项,排名不高啊。。 看起来现在代码类仍然是 Sonnet 3.5 最好用?
比如 webdev ? https://web.lmarena.ai/leaderboard Gemini 属于日常用着方便 |
5
lovestudykid 2 天前
决定怎么用工具的是你,比如你可以把文档提供给它
|
6
ZeroClover 2 天前 ![]() 因为猜测文本本来就是 LLM 的作用,编得看起来很合理并不奇怪。
另外 Gemini 在英文和非英文下的差距比较大,代码任务用英文 Prompt 效果会好上不少 另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ,受限于训练集,本来就可能导致效果不佳 |
![]() |
7
silverwzw 2 天前 ![]() 本质上 LLM 的任务是 对你给定的输入,生成输出字符串,使得输出字符串尽可能像人类的回应。
|
![]() |
8
nomagick 2 天前
而 GPT 就不一样了,GPT 属于是冥顽不化
|
![]() |
9
RoccoShi 2 天前 via iPhone
实测目前在编程领域最好的还是 claude ,就算不会也不会瞎说。
|
10
crackidz 2 天前
LLM 的常见问题,幻觉严重。开了 Grounding with Google Search 的话会好一些
|
11
kzfile 2 天前
对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码
|
![]() |
12
anzu 2 天前 ![]() 感觉可能用于训练的中文语料较差,某次 Gemini 给的代码中居然有中文变量名和函数名,虽然也不是不能运行吧……
|
13
andrew2558 2 天前
Gemini 代码的确不太行,代码还是 Claude 最强
|
![]() |
14
Felixchen1062 2 天前
代码类型的问题, 把模型温度控制在 0.5 以下再试试
Quote from 知乎: 当模型的「温度」较高时(如 0.8 、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。而当「温度」较低时(如 0.2 、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。但此时,生成的文本可能会显得过于保守和重复。 Quote from Deepseek: Temperature 设置 temperature 参数默认为 1.0 。 我们建议您根据如下表格,按使用场景设置 temperature 。 场景 温度 代码生成/数学解题 0.0 数据抽取/分析 1.0 通用对话 1.3 翻译 1.3 创意类写作/诗歌创作 1.5 |
![]() |
15
idragonet 2 天前
Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。
|
16
ptstone 2 天前
用过一次,优点是速度输出是最快的,没有之一,缺点是答案全 tm 是错的
|
![]() |
17
yushi17 2 天前
不要用中文 完毕
|
![]() |
18
coderlxm 2 天前 via Android
我对比过发现用英文给的答案我会更满意一些,虽然也有错误,但是尽量还是不要用中文了。
|
![]() |
19
mingtdlb 2 天前
我觉得最难用的 LLM ,v2 上还很多人推荐
|
20
jonsmith 2 天前 via Android
gemini flash 2.0 确实垃圾,不如之前的 2.0 体验版。回复快是真快,但是容易胡说八道,哈哈。我猜他们比较看重速度,某些参数调的太过了
|
21
gumayusi 2 天前
LLM 可以从 AI 中拆分开来,不然迟早把 AI 整个领域带进沟里。
|
![]() |
22
wu67 2 天前
gemini 口胡确实有, 有时候我明明都反驳他说这个代码跑不起来, 没这个 API, 它应是继续嘴硬那几行破玩意.
但是用来写平时完全不懂的脚本代码还是挺好玩的, 我让他帮我写了游戏点击 shell script |
![]() |
23
collen 2 天前
gemini 有 pro 用户说说体验如何,上周看新闻说大幅度提升,还想下个月试试看
|
24
cang00jia 2 天前 ![]() gemini 让我想起了”别管对不对,你就说快不快吧“这个梗
|
25
holdeer 2 天前
能力越强,幻觉越多
|
![]() |
26
marquina 2 天前 ![]() 我很好奇,只贴出了 gemini 的测试结果,是怎么得出“Gemini 大概是所有 LLM 里最能张口就来的”这个结论的?意思是其它的 llm 都能很好的回答这个问题?
|
![]() |
27
BeautifulSoap 2 天前 via Android
上次我还在另一个帖子里吐槽过 gemini ,又可以原文拿过来用了,说真的每次看到 v 站有人说 gemini 不错我就想笑,拜托你们真的该吃点好东西:
gemini 这种听不懂人话的智障中的战斗机谁爱用谁用去,用 gemini 纯粹是给自己工作添堵 不光中文,日文等语言也超级拉跨。实在无法理解谁给谷歌的勇气,这种垃圾水平的 ai 还敢拿出来放到商业套餐里,还一个敢收一个用户$36/月的费用 |
28
95Sd3HjoO2YyT9DP 2 天前
Gemini 付费三个月,刚开通了 ChatGPT pro 。
使用体验上肯定是 Gemini 更好,ChatGPT 目前还是会因为 IP 问题降智,网页端和 Wins 端卡的不行,感觉浪费了两千多块,昨天我想写个健身计划,用 o1 和 o3-mini ,没问几句就开始不回复了,之后估计 Plus 都不会开。 我不是程序员,代码上无法给出参考,不过不是公认 Claude 比较好吗,反正 ChatGPT 就是一坨 主要是谷歌性价比高,开一个会员,可以用 Google ONE 里面很多东西,AI 也没有不好用。 |
![]() |
29
realpg 2 天前
gemimi 的特点就是快,别管他会不会,不会也会尽快给你编一个
|
30
zbw0414 2 天前
gemini 不能用 app ,要去用 google aistudio 版本的。
|
![]() |
31
potatowish 2 天前 via iPhone
gemini 就适合把文档都丢给它,然后问它根据文档怎么实现功能,上下文 token 最大支持 200w 随便造。
|
![]() |
32
potatowish 2 天前 via iPhone
@zbw0414 #30 OP 这个就是 AI Studio ,这里面最好的就是 gemini pro 2.0 exp 0205
|
33
zbw0414 2 天前 ![]() @potatowish 我这里看图都是裂的,没看到细节。不过 2.0pro 发布之后我还是经常用 gemini 的,平常我也是 gemini 、g4o 、ds 、长期白嫖。用下来 gemini 丢给他各种产品文档 pdf 丢给他,代码压缩发给他,然后给架构设计方案,出接口文档啥的很方便,记得要写好 system instruction ,然后工程类的记得 temperature 调低这样
|
34
e3c78a97e0f8 2 天前 ![]() 你可以去 lmarena 上多打评分,争取把 Gemini 的分数降下来
lmarena 上都是真人在测试,如果排名和你想象不符,要么是有水军,要么就是别人和你看重的点不一样 |
![]() |
35
ssb4 2 天前 via Android ![]() Gemini 就适合写故事,而且实验模型没审查,R18 写得飞起
|
![]() |
36
ufan0 2 天前
Gemini 连在自家的 flutter 框架上都做梦,叫也叫不醒的那种。
|
![]() |
38
gadfly3173 2 天前 via Android ![]() Avalonia 其实主要是本身文档就不全,0.x 到 11.x 又大改了一次。。。基本上各类大模型对于 Avalonia 都会当成 WPF 来给你返回 api
|
39
Donaldo 2 天前
gemini 模型写代码真的烂,瞎几把扯,但好处就是拿来吹牛逼的东西交给 gemini 效果很好。。。
|
40
qfchannel 2 天前
gemini 聊天学外语还行,写代码还是 claude
|
![]() |
41
ShadowPower 2 天前
gemini 适合写小说,还有识图能力比 gpt4o 强
|
![]() |
42
ShadowPower 2 天前
|
![]() |
43
specialweiyu 2 天前 ![]() https://v2ex.com/t/1110516#reply36
隔壁全是吹的,这边全是喷的,这么两极分化??? |
![]() |
44
badreamm 2 天前
gemini 用一次笑一次
|
![]() |
45
KevinChan 2 天前
Gemini 就是脑残
|
![]() |
46
zhwguest 2 天前
你们有没有发现 Gemini 速度快的原因就是因为程序员根本就不用.....真的不知道为什么排名这么高,用一次喷一次血。
|
47
luxi78 2 天前
挺好的,AI 差不多这样就行了,否则咱们全都要丢饭碗
|
48
IMZQZ 2 天前
哈哈哈 AI 对于不知道的内容 不都是先编 骗一个是一个 如果都知道 谁还用 AI
|
49
cubeWX 1 天前
Google 果然还是最烂的,没救了
|
50
moefishtang 1 天前
@specialweiyu 看这个帖子中的使用场景,貌似基本都不是编码方面
一楼那个拿这个写小说,显然胡编乱造在写小说方面是具有优势的 写代码需要严谨的,有逻辑的思考能力,绝对不能胡编乱造。因此 Gemini 编码方面能力就差得多 |
![]() |
51
unco020511 1 天前
几乎不用 gemini
|
52
wadjj 1 天前
现在的排名主要是两类
* 客观回答的准确率:给定问题集做单选,得分越高越好——错就是错,不会=胡扯,胡扯不被扣分 * 主观回答的人类偏好:同一个人类问题给你两个匿名回答,你选择更喜欢哪个——胡扯的有模有样不一定被发现,未必偏好会低 理论上胡扯是需要倒扣分的,但是现在的评测排名都没有这个机制。当然也合理,大模型的胡扯是能力的一部分,摘不干净,所以也不是评测的重点。 |
![]() |
53
GotKiCry 1 天前
代码相关需要准确性的东西记得把 temperature 降低到 0.5 以下
|
![]() |
54
GotKiCry 1 天前
补充一点 现在 deepseek 秒杀其他模型的一点就是强大的自审能力。很多模型的思考都做不到这一点
|