为什么所有 AI 生成的对话都是逐字(句)式输出的?

7 天前
 Tomss
非程序员小白提问,即使所有的 AI 底层逻辑都是边计算边输出,那也可以选择在前端缓存几秒后再输出完整结果,但为什么都选择了逐字逐句输出呢? 个人认为非常影响阅读体验,一是输出速度赶不上我阅读速度,二是边看变输出很影响体验,就像不断在刷新屏幕一样,如果等全部输出完再阅读,那为什么客户端不加个选项,选择一次性输出完整内容呢? 我宁愿多等几秒再看结果也不喜欢这种逐字逐句模式。
4069 次点击
所在节点    问与答
47 条回复
xfn
7 天前
这个问题完全可以问 AI
yaron1123
7 天前
是可以做到的,只不过 chatgpt 先做了流式输出,首帧先出来给人的感觉响应会快一点,如果要等全部生成完再一下子出时间不可控。其他产品都无脑抄了而已。
Configuration
7 天前
仪式感
zhangshine
7 天前
可能大多数人喜欢。最近的 deepseek 没有隐藏 cot ,用户就很喜欢,CloseAI 隐藏了用户反响没有那么大,也开始学 deepseek 显示 cot 过程了
retrocode
7 天前
多等几秒?ai 回复长一些是按分钟输出的, 你什么都不显示让用户干等, 这帮货就开始喷人了
Tomss
7 天前
@xfn AI 回答的都技术话术了,太死板,还是没有用人话回答为什么不可以多个选择
520discuz
7 天前
逐步输出才更像 AI ,如果是一下输出全部显示结果,和普通的搜索引擎有什么区别?
Tomss
7 天前
@retrocode 现实中大部份是简短的问答,还是在几秒内可以输出的,如果是长篇的可以分段输出,再让用户点是否继续回答
codehz
7 天前
有没有一种可能个性化是要有成本的,现在这套模式差不多是多数人能接受的妥协
简短的回答搜索引擎也有做,没法和 llm 应用拉出差距
然后输出中断继续这个会增加计算成本,因为需要一直保存之前的状态
JamesR
7 天前
为了好看做的动画效果,后台数据是秒出的。
cheng6563
7 天前
LLM 的基本就是你输入一段聊天记录,模型生成下一个字。
你以为是故意搞的特效么。
Rickkkkkkk
7 天前
简单理解成,现在诸如 chatgpt 的原理是

拿到一段文本,预测下一个字符是什么,所以是一个字一个字说的
tool2dx
7 天前
@JamesR 自己本地跑模型,都是一个个字蹦出来的。我还没遇到过秒出的模型。
andyC
7 天前
因为 load 时间过长, 应用层通过这样的方式优化客户体验
root71370
7 天前
@JamesR 你真的思考过吗
javalaw2010
7 天前
大部分用户都不愿意多等几秒的,可能你问的问题很简单,几十个字就完成了,但是一些很复杂的问题,输出可能得几百字上千字,全部等待输出完可能得几分钟了,这谁等的了啊。

另外大模型推理也是有成本的,在输出一定篇幅之后用户对回答可能不满意,可以选择中断推理,从而节省成本。
clementewy
7 天前
流式输出
mumbler
7 天前
你先回答我一个问题: 你下面即将说的第 10 个字的什么字?

是不是要先说前 9 个字才知道,人脑推理就是一个字一个字的,大模型作为模仿人类语言的系统也是这样的

大模型推理效率逐渐提高,groq 可以做到 2000t/s 了,打字机效果反而是负优化,可以一次出结果,但无论多块,推理得一个 token 一个 token 的推
zhuangqhc
7 天前
流式输出,减少第一个 token 的等待时间
hanqian
7 天前
前端的流式输出是可以关的,而且这可以规避某些外部审查(比如 gemini 的)

而且这种输出效果本来就是大多数用户的选择。我记得很清楚 chatgpt3.5 刚出来那会并没有流式输出

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1109860

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX