提取音频或者视频为文字信息有什么好办法吗?

2023-09-08 22:28:29 +08:00
 clockwork1122

平时比较喜欢听一些播客或者是看些知识型的视频想记录文字,是否能有工具满足两个场景。

  1. 边听(看)边输出文字
  2. 输入音频或者视频链接,自动输出文本。 (现在同传或者是 AI 字幕都很成熟,有现成工具还是需要调大厂的 API 自己实现呢
2041 次点击
所在节点    问与答
9 条回复
qquantt
2023-09-08 22:42:32 +08:00
提取音频或视频为文字信息,通常被称为“语音识别”或“自动语音转录”。以下是一些常用的方法和工具:

专业转录服务:有些公司提供专业的转录服务,如 Rev 和 TranscribeMe 。这些服务通常提供高精度的转录,但可能需要支付费用。

自动转录软件:

1. Google Cloud Speech-to-Text:这是一个基于云的 API ,可以将音频和视频转换为文字。
2. IBM Watson Speech to Text:IBM 的语音识别服务也提供了类似的功能。
3. Amazon Transcribe:Amazon 的自动语音转录服务。
桌面软件:如 Dragon NaturallySpeaking ,它是一个语音识别软件,可以将说话的内容转化为文字。

免费工具:

1. YouTube:你可以上传视频到 YouTube ,然后开启自动生成字幕功能。之后,你可以下载这些字幕作为文本文件。
2. Audacity:这是一个免费的音频编辑软件,它有一些插件可以进行简单的语音识别。
3. 手机应用:有些手机应用如 Otter.ai ,可以实时转录会议或对话。

4. 专用硬件:如专业的数字录音笔,有些模型带有自动转录功能。科大讯飞的耳机可以。

5. 开源工具:如 CMU Sphinx ,这是一个开源的语音识别系统,适合于那些希望自定义或集成到自己的应用中的开发者。

选择哪种方法取决于你的需求、预算和所需的准确性。对于正式的商业或法律文件,可能需要专业的转录服务以确保准确性。而对于日常使用或草稿,自动转录工具或应用可能已经足够了。
kdwnil
2023-09-08 23:29:40 +08:00
看起来 op 的需求是语音转文字?有个东西叫 openai/whisper ,我记得前段时间有 v2 老哥分享过基于这玩意做的工具
Andim
2023-09-09 00:26:05 +08:00
@kdwnil 中文错误率太高 正确率可能也就 80%多
fyq
2023-09-09 01:44:09 +08:00
和你的诉求稍微有点点出入:
https://github.com/raryelcostasouza/pyTranscriber
可以将你要的音视频转为 mp3 后导入得到文本
ZeroW
2023-09-09 10:05:08 +08:00
通义听悟挺好用的
jancing
2023-09-09 11:56:18 +08:00
1. Microsoft 365 Word
2. Adobe Speech to Text in Premiere Pro
rpish
2023-09-09 16:20:48 +08:00
飞书妙记
unii23i
2023-09-09 18:54:14 +08:00
clockwork1122
2023-09-11 15:02:23 +08:00
@jancing 感谢我试试

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/972151

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX