为什么所有 AI 生成的对话都是逐字（句）式输出的？

非程序员小白提问，即使所有的 AI 底层逻辑都是边计算边输出，那也可以选择在前端缓存几秒后再输出完整结果，但为什么都选择了逐字逐句输出呢？个人认为非常影响阅读体验，一是输出速度赶不上我阅读速度，二是边看变输出很影响体验，就像不断在刷新屏幕一样，如果等全部输出完再阅读，那为什么客户端不加个选项，选择一次性输出完整内容呢？我宁愿多等几秒再看结果也不喜欢这种逐字逐句模式。

yaron1123

7 天前

是可以做到的，只不过 chatgpt 先做了流式输出，首帧先出来给人的感觉响应会快一点，如果要等全部生成完再一下子出时间不可控。其他产品都无脑抄了而已。

zhangshine

7 天前

可能大多数人喜欢。最近的 deepseek 没有隐藏 cot ，用户就很喜欢，CloseAI 隐藏了用户反响没有那么大，也开始学 deepseek 显示 cot 过程了

retrocode

7 天前

多等几秒?ai 回复长一些是按分钟输出的, 你什么都不显示让用户干等, 这帮货就开始喷人了

Tomss

7 天前

@xfn AI 回答的都技术话术了，太死板，还是没有用人话回答为什么不可以多个选择

520discuz

7 天前

逐步输出才更像 AI ，如果是一下输出全部显示结果，和普通的搜索引擎有什么区别？

Tomss

7 天前

@retrocode 现实中大部份是简短的问答，还是在几秒内可以输出的，如果是长篇的可以分段输出，再让用户点是否继续回答

codehz

7 天前

有没有一种可能个性化是要有成本的，现在这套模式差不多是多数人能接受的妥协
简短的回答搜索引擎也有做，没法和 llm 应用拉出差距
然后输出中断继续这个会增加计算成本，因为需要一直保存之前的状态

cheng6563

7 天前

LLM 的基本就是你输入一段聊天记录，模型生成下一个字。
你以为是故意搞的特效么。

Rickkkkkkk

7 天前

简单理解成，现在诸如 chatgpt 的原理是

拿到一段文本，预测下一个字符是什么，所以是一个字一个字说的

tool2dx

7 天前

@JamesR 自己本地跑模型，都是一个个字蹦出来的。我还没遇到过秒出的模型。

javalaw2010

7 天前

大部分用户都不愿意多等几秒的，可能你问的问题很简单，几十个字就完成了，但是一些很复杂的问题，输出可能得几百字上千字，全部等待输出完可能得几分钟了，这谁等的了啊。

另外大模型推理也是有成本的，在输出一定篇幅之后用户对回答可能不满意，可以选择中断推理，从而节省成本。

mumbler

7 天前

你先回答我一个问题：你下面即将说的第 10 个字的什么字？

是不是要先说前 9 个字才知道，人脑推理就是一个字一个字的，大模型作为模仿人类语言的系统也是这样的

大模型推理效率逐渐提高，groq 可以做到 2000t/s 了，打字机效果反而是负优化，可以一次出结果，但无论多块，推理得一个 token 一个 token 的推

hanqian

7 天前

前端的流式输出是可以关的，而且这可以规避某些外部审查（比如 gemini 的）

而且这种输出效果本来就是大多数用户的选择。我记得很清楚 chatgpt3.5 刚出来那会并没有流式输出

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1109860

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.