V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
samnya
V2EX  ›  OpenAI

AI 应用的方向会是 LLM 描述一切,还是不同内容推出专属的模型?

  •  
  •   samnya · 15 小时 44 分钟前 · 179 次点击

    现在大语言模型的结构化输出能力越来越强,那些可以用文本来描述的数据,是不是全部可以让 LLM 去处理呢?

    比如说图像生成领域有 GAN 和 diffusion 模型,但在有些很常见很有需求的生成场景,却很难想象如何为它专门训练一个模型。

    我举几个例子:

    幻灯片应用

    现有的 AI PPT 应用大部分能够实现的功能其实是:生成内容大纲→填入预定义好的模板。还有根据当前页面内容,自动匹配模板。

    而 PowerPoint 的文件格式实际上是 Office Open XML ,也是文本格式。其实正确的途径是不是应该让大语言模型直接学习 XML 格式内容,然后生成也是直接输出 XML 呢?就像用大语言模型生成 SVG 格式的图像。

    音乐生成

    音乐生成的应用,似乎现在的方向都是直接出音频波形。通过在音频波形上做训练,人声也是使用克隆声音相关的技术。有的产品甚至采用的是在素材库中取一段伴奏,叠加歌词 TTS 的方式实现的...

    但实际上音乐的本质是乐谱,用语言模型来直接训练一种乐谱格式,最终输出成 MIDI ,然后通过音源来合成得到的效果会不会更好?人声也可以用乐谱来描述,典型例子就是 VOCALOID 软件。

    --

    我这么想的原因主要是很多 AI 产品它距离实用化还有很远的路径,主要一点原因就是生成结果不可控、不可改,因为它直接生成了最终产物。而大语言可以通过对话进行逐步修改,这才是用户需要的。

    比如用 AI 生成 PPT 的需求并不是得到一个自动填好大纲的 PPT 模板,而是生成出来之后可以继续修改,加段文字、左右移一点。 生成音乐也应该是输出一个能够在 DAW 里面打开的工程,随时想要增减什么东西都能让 AI 继续修改,这样才对专业用户具有实用价值。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1032 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 19:28 · PVG 03:28 · LAX 11:28 · JFK 14:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.