V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
drymonfidelia
V2EX  ›  程序员

Gemini 大概是所有 LLM 里最能张口就来的,把不存在的功能文档、示例代码都编得非常详细,还非常嘴硬,为什么排名能这么高

  •  3
     
  •   drymonfidelia · 2 天前 · 5906 次点击
    Avalonia 群里看到的聊天记录,用的是 02-05 模型,红字批注是我加的
    我尝试复现了但没他这个离谱,就用他的图了,但我测试出来的结果也是全瞎扯的,没有一行代码能用
    这种不是特别热门的 UI 框架的问题所有 AI 都答不好,但能答成这样也是我没想到的



    追问继续编



    连示例代码都有



    可惜没一个能用



    提出疑问后 “非常确定”



    还详细编出了排查方案



    连原因都给你编的清清楚楚





    第一个链接不知道哪找的废弃域名,里面的链接全是 404

    源代码我也搜了,连 Camera 都没有
    54 条回复    2025-02-12 12:14:03 +08:00
    Int100
        1
    Int100  
       2 天前 via iPhone
    最能扯淡的就是 gemini ,早就避而远之
    cnrting
        2
    cnrting  
       2 天前 via iPhone
    更难泵是竟然还有人推(吹)
    drymonfidelia
        3
    drymonfidelia  
    OP
       2 天前
    @Int100 我用这个问题测试了 Claude Sonnet 和 GPT 4o ( Plus 刚到期不想续了,感觉 o3 也差不多)也都在混入其它 UI 框架的代码,但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了,还能把全套证据都编出来
    weazord
        4
    weazord  
       2 天前   ❤️ 1
    但代码类本来就算是 Gemini 的弱项,排名不高啊。。 看起来现在代码类仍然是 Sonnet 3.5 最好用?

    比如 webdev ? https://web.lmarena.ai/leaderboard

    Gemini 属于日常用着方便
    lovestudykid
        5
    lovestudykid  
       2 天前
    决定怎么用工具的是你,比如你可以把文档提供给它
    ZeroClover
        6
    ZeroClover  
       2 天前   ❤️ 1
    因为猜测文本本来就是 LLM 的作用,编得看起来很合理并不奇怪。

    另外 Gemini 在英文和非英文下的差距比较大,代码任务用英文 Prompt 效果会好上不少

    另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ,受限于训练集,本来就可能导致效果不佳
    silverwzw
        7
    silverwzw  
       2 天前   ❤️ 1
    本质上 LLM 的任务是 对你给定的输入,生成输出字符串,使得输出字符串尽可能像人类的回应。
    nomagick
        8
    nomagick  
       2 天前
    而 GPT 就不一样了,GPT 属于是冥顽不化
    RoccoShi
        9
    RoccoShi  
       2 天前 via iPhone
    实测目前在编程领域最好的还是 claude ,就算不会也不会瞎说。
    crackidz
        10
    crackidz  
       2 天前
    LLM 的常见问题,幻觉严重。开了 Grounding with Google Search 的话会好一些
    kzfile
        11
    kzfile  
       2 天前
    对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码
    anzu
        12
    anzu  
       2 天前   ❤️ 1
    感觉可能用于训练的中文语料较差,某次 Gemini 给的代码中居然有中文变量名和函数名,虽然也不是不能运行吧……
    andrew2558
        13
    andrew2558  
       2 天前
    Gemini 代码的确不太行,代码还是 Claude 最强
    Felixchen1062
        14
    Felixchen1062  
       2 天前
    代码类型的问题, 把模型温度控制在 0.5 以下再试试

    Quote from 知乎:
    当模型的「温度」较高时(如 0.8 、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。而当「温度」较低时(如 0.2 、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。但此时,生成的文本可能会显得过于保守和重复。

    Quote from Deepseek:
    Temperature 设置
    temperature 参数默认为 1.0 。

    我们建议您根据如下表格,按使用场景设置 temperature 。
    场景 温度
    代码生成/数学解题    0.0
    数据抽取/分析 1.0
    通用对话 1.3
    翻译 1.3
    创意类写作/诗歌创作 1.5
    idragonet
        15
    idragonet  
       2 天前
    Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。
    ptstone
        16
    ptstone  
       2 天前
    用过一次,优点是速度输出是最快的,没有之一,缺点是答案全 tm 是错的
    yushi17
        17
    yushi17  
       2 天前
    不要用中文 完毕
    coderlxm
        18
    coderlxm  
       2 天前 via Android
    我对比过发现用英文给的答案我会更满意一些,虽然也有错误,但是尽量还是不要用中文了。
    mingtdlb
        19
    mingtdlb  
       2 天前
    我觉得最难用的 LLM ,v2 上还很多人推荐
    jonsmith
        20
    jonsmith  
       2 天前 via Android
    gemini flash 2.0 确实垃圾,不如之前的 2.0 体验版。回复快是真快,但是容易胡说八道,哈哈。我猜他们比较看重速度,某些参数调的太过了
    gumayusi
        21
    gumayusi  
       2 天前
    LLM 可以从 AI 中拆分开来,不然迟早把 AI 整个领域带进沟里。
    wu67
        22
    wu67  
       2 天前
    gemini 口胡确实有, 有时候我明明都反驳他说这个代码跑不起来, 没这个 API, 它应是继续嘴硬那几行破玩意.
    但是用来写平时完全不懂的脚本代码还是挺好玩的, 我让他帮我写了游戏点击 shell script
    collen
        23
    collen  
       2 天前
    gemini 有 pro 用户说说体验如何,上周看新闻说大幅度提升,还想下个月试试看
    cang00jia
        24
    cang00jia  
       2 天前   ❤️ 1
    gemini 让我想起了”别管对不对,你就说快不快吧“这个梗
    holdeer
        25
    holdeer  
       2 天前
    能力越强,幻觉越多
    marquina
        26
    marquina  
       2 天前   ❤️ 1
    我很好奇,只贴出了 gemini 的测试结果,是怎么得出“Gemini 大概是所有 LLM 里最能张口就来的”这个结论的?意思是其它的 llm 都能很好的回答这个问题?
    BeautifulSoap
        27
    BeautifulSoap  
       2 天前 via Android
    上次我还在另一个帖子里吐槽过 gemini ,又可以原文拿过来用了,说真的每次看到 v 站有人说 gemini 不错我就想笑,拜托你们真的该吃点好东西:

    gemini 这种听不懂人话的智障中的战斗机谁爱用谁用去,用 gemini 纯粹是给自己工作添堵

    不光中文,日文等语言也超级拉跨。实在无法理解谁给谷歌的勇气,这种垃圾水平的 ai 还敢拿出来放到商业套餐里,还一个敢收一个用户$36/月的费用
    95Sd3HjoO2YyT9DP
        28
    95Sd3HjoO2YyT9DP  
       2 天前
    Gemini 付费三个月,刚开通了 ChatGPT pro 。
    使用体验上肯定是 Gemini 更好,ChatGPT 目前还是会因为 IP 问题降智,网页端和 Wins 端卡的不行,感觉浪费了两千多块,昨天我想写个健身计划,用 o1 和 o3-mini ,没问几句就开始不回复了,之后估计 Plus 都不会开。
    我不是程序员,代码上无法给出参考,不过不是公认 Claude 比较好吗,反正 ChatGPT 就是一坨
    主要是谷歌性价比高,开一个会员,可以用 Google ONE 里面很多东西,AI 也没有不好用。
    realpg
        29
    realpg  
       2 天前
    gemimi 的特点就是快,别管他会不会,不会也会尽快给你编一个
    zbw0414
        30
    zbw0414  
       2 天前
    gemini 不能用 app ,要去用 google aistudio 版本的。
    potatowish
        31
    potatowish  
       2 天前 via iPhone
    gemini 就适合把文档都丢给它,然后问它根据文档怎么实现功能,上下文 token 最大支持 200w 随便造。
    potatowish
        32
    potatowish  
       2 天前 via iPhone
    @zbw0414 #30 OP 这个就是 AI Studio ,这里面最好的就是 gemini pro 2.0 exp 0205
    zbw0414
        33
    zbw0414  
       2 天前   ❤️ 1
    @potatowish 我这里看图都是裂的,没看到细节。不过 2.0pro 发布之后我还是经常用 gemini 的,平常我也是 gemini 、g4o 、ds 、长期白嫖。用下来 gemini 丢给他各种产品文档 pdf 丢给他,代码压缩发给他,然后给架构设计方案,出接口文档啥的很方便,记得要写好 system instruction ,然后工程类的记得 temperature 调低这样
    e3c78a97e0f8
        34
    e3c78a97e0f8  
       2 天前   ❤️ 2
    你可以去 lmarena 上多打评分,争取把 Gemini 的分数降下来
    lmarena 上都是真人在测试,如果排名和你想象不符,要么是有水军,要么就是别人和你看重的点不一样
    ssb4
        35
    ssb4  
       2 天前 via Android   ❤️ 1
    Gemini 就适合写故事,而且实验模型没审查,R18 写得飞起
    ufan0
        36
    ufan0  
       2 天前
    Gemini 连在自家的 flutter 框架上都做梦,叫也叫不醒的那种。
    Sting1226
        37
    Sting1226  
       2 天前
    @cang00jia Gemini 感觉不如 groq 快。哪怕是编也它快。
    gadfly3173
        38
    gadfly3173  
       2 天前 via Android   ❤️ 1
    Avalonia 其实主要是本身文档就不全,0.x 到 11.x 又大改了一次。。。基本上各类大模型对于 Avalonia 都会当成 WPF 来给你返回 api
    Donaldo
        39
    Donaldo  
       2 天前
    gemini 模型写代码真的烂,瞎几把扯,但好处就是拿来吹牛逼的东西交给 gemini 效果很好。。。
    qfchannel
        40
    qfchannel  
       2 天前
    gemini 聊天学外语还行,写代码还是 claude
    ShadowPower
        41
    ShadowPower  
       2 天前
    gemini 适合写小说,还有识图能力比 gpt4o 强
    ShadowPower
        42
    ShadowPower  
       2 天前
    不过各种 LLM 的真实水平其实也就那样……
    我想起了这个:
    specialweiyu
        43
    specialweiyu  
       2 天前   ❤️ 3
    https://v2ex.com/t/1110516#reply36
    隔壁全是吹的,这边全是喷的,这么两极分化???
    badreamm
        44
    badreamm  
       2 天前
    gemini 用一次笑一次
    KevinChan
        45
    KevinChan  
       2 天前
    Gemini 就是脑残
    zhwguest
        46
    zhwguest  
       2 天前
    你们有没有发现 Gemini 速度快的原因就是因为程序员根本就不用.....真的不知道为什么排名这么高,用一次喷一次血。
    luxi78
        47
    luxi78  
       2 天前
    挺好的,AI 差不多这样就行了,否则咱们全都要丢饭碗
    IMZQZ
        48
    IMZQZ  
       2 天前
    哈哈哈 AI 对于不知道的内容 不都是先编 骗一个是一个 如果都知道 谁还用 AI
    cubeWX
        49
    cubeWX  
       1 天前
    Google 果然还是最烂的,没救了
    moefishtang
        50
    moefishtang  
       1 天前
    @specialweiyu 看这个帖子中的使用场景,貌似基本都不是编码方面
    一楼那个拿这个写小说,显然胡编乱造在写小说方面是具有优势的
    写代码需要严谨的,有逻辑的思考能力,绝对不能胡编乱造。因此 Gemini 编码方面能力就差得多
    unco020511
        51
    unco020511  
       1 天前
    几乎不用 gemini
    wadjj
        52
    wadjj  
       1 天前
    现在的排名主要是两类
    * 客观回答的准确率:给定问题集做单选,得分越高越好——错就是错,不会=胡扯,胡扯不被扣分
    * 主观回答的人类偏好:同一个人类问题给你两个匿名回答,你选择更喜欢哪个——胡扯的有模有样不一定被发现,未必偏好会低

    理论上胡扯是需要倒扣分的,但是现在的评测排名都没有这个机制。当然也合理,大模型的胡扯是能力的一部分,摘不干净,所以也不是评测的重点。
    GotKiCry
        53
    GotKiCry  
       1 天前
    代码相关需要准确性的东西记得把 temperature 降低到 0.5 以下
    GotKiCry
        54
    GotKiCry  
       1 天前
    补充一点 现在 deepseek 秒杀其他模型的一点就是强大的自审能力。很多模型的思考都做不到这一点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5331 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:31 · PVG 17:31 · LAX 01:31 · JFK 04:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.