@wangwaner 总有人写出格式乱七八糟的文档，尤其是客户你还不能让他改（可能他还觉得自己排版很漂亮），我的想法就是把这些通过正常解析器难以处理的场景都交给多模态去处理，顺带让他做一下诸如翻译之类的工作。
多模态模型对内容的理解比纯 OCR 就要强很多了。很多用标准解析器和 OCR 难以处理的场景，用多模态很容易就实现了，当然缺点是不能百分百还原，另外还得花点小钱

2 天前

回复了 lgc653 创建的主题 › 分享发现 › 使用多模态大模型转换 office 文档

@wangwaner ，当然我日常只用他解析排版比较规范的 word 和 PPT ，如果是复杂的 Excel 或者排版比较混乱的 word 我想可能效果不会特别理想。

2 天前

回复了 lgc653 创建的主题 › 分享发现 › 使用多模态大模型转换 office 文档

@wangwaner 因为如果你写各种解析器去解析不同文档，这个工作量就很大了（ nodejs 生态的各种类库也都比较不给力，即使使用 LibreOffice 也没有做的很完美），如果只针对 PDF 一种，只需不断提升 PDF 的解析能力和兼容性即可。
再就是实际应用中，多模态模型能力还是很强大的，虽然诚如你所说，信息的段落可能会混淆，但是通过大模型的推理能力，获得信息完整度和可读性是非常之高的。也没有出现过造成混淆的严重问题。

13 天前

回复了 dafen7 创建的主题 › 程序员 › 有哪些可用的 text2sql 或 text2chart 吗，这个需求可行性怎么样

推荐一下自己的： https://agents.uue.cn/guide/database-agent.html

43 天前

回复了 libasten 创建的主题 › 程序员 › AI 辅助编程用多了，会不会降低自己的编程水平？

水平提升了，好多新的语法原来不了解，看 AI 用了才学会

44 天前

回复了 lgc653 创建的主题 › 分享发现 › AI 鸡娃

@kenshinhu 其实你自己选好范围全部喂给他就行了，不要使用什么 RAG 啥的，反正现在输入 token 都不值钱，但是建议不要一次喂太长，最好以章节来分割喂送，这样它出的题目也比较有针对性

44 天前

回复了 lgc653 创建的主题 › 分享发现 › AI 鸡娃

@kenshinhu 可以试试我这个思路，反正我自己给小孩刷简单题还是蛮好用的，基本我不用介入就能完成整个根据知识点出题、答题、验证的流程。对于有一定难度的题我个人觉得效果不太行。
当然不论什么阶段，什么科目，都少不了需要高度依赖记忆的的知识点，这个就是这类软件的用武之地。

44 天前

回复了 lgc653 创建的主题 › 分享发现 › AI 鸡娃

@qhd1988 现在的推理模型进步还是不小，可以试试看，我看了几题，比较像人在分析问题，一步步求解的感觉，仔细看进去还是有收获。如果有一天，它做理科如履平地，可能对我们从业者来说不是什么好事。

44 天前

回复了 lgc653 创建的主题 › 分享发现 › AI 鸡娃

@xing7673 您说的非常对，所以类似的推理模型是给具备一定水平的小孩或者辅导老师使用才有效果。当然，也可以采用和其它主流辅导软件比对答案的方法来进行粗浅的验证。
其实 AI 编程也是一样，应用过程中需要我们具备一定的代码阅读能力和经验，这样才不会被 AI 蒙蔽。

» lgc653 创建的更多回复