寻找对齐文本与音频的高效解决方案

[需求]
输入：一篇文本，一段与该文本对应的音频
输出：文本中的每一个句子的开始与结束在音频中所对应的时间点

[已知信息]
1. 最笨的方法：人肉对照文本和音频，把每个时间点手动记下来。
2. 存在貌似具有一定精度的自动对齐工具（但只支持英文）： http://fave.ling.upenn.edu/usingFAAValign.html

[提问]
1. 是否有现成的工具可帮助提高上述“笨方法”的效率？譬如：背景播放该音频，在听到每个句子的开始和结束时按某个键“打点”；可回听之前打过的点并修改之；最后输出每个“点”所对应的时间。
2. 是否存在支持除英语外其他语种的自动对齐工具？粗略搜了下日语和德语的，暂未找到。

//bow

Sephinroth

2015-03-27 06:32:49 +08:00

发现在windows下或可使用如下软件让“笨方法”更有效率：
http://www.aboboo.com/docs/
（见“操作指南”下的“MP3”条目，可导出处理后的文本为srt）

Sephinroth

2015-03-27 15:37:15 +08:00

@msg7086
thx，滚去学习字幕组打轴工具了

@luo362722353
感谢，不过这个平台的自动化功能貌似暂只支持中文和英文？手头是有日语和德语的材料需要对齐

dontmp

2015-03-31 16:37:13 +08:00

这是要做什么呢？
我前几年写过一个学英语App （https://play.google.com/store/apps/details?id=com.leels.splisten&hl=en），如果有音频和对应英文文本，可以把音频分割成一句一句的，然后把对应这句话的文本也分出来，无外乎就是音频分段，语音识别然后合并什么的。这个要求比单纯的作字幕轴要求高，字幕的时间和句子的时间可以不用绝对匹配，这个不行。日语德语什么语都能做，前提是有模型，语音识别要用。

Sephinroth

2015-03-31 23:58:11 +08:00

@dontmp

对此感兴趣主要有两个出发点：
1. 想对齐一本德语小说的文本及相应有声读物（音频长近5小时），用作自己的学习材料。
2. 想对齐一部日本电视剧的剧本及相应剧集音频（音频长约8小时），用作学习iOS开发的素材。

语音识别方面没有接触过。打算先试试Youtube自带的字幕对齐功能效果如何：
https://support.google.com/youtube/answer/2734796?hl=en
（见Transcribe and set timings那一项）

要是找不到既有的自动化工具，考虑到音频量不大，可能暂时就自己用字幕打轴工具手动对齐，弄的时候注意下精度什么的。以后要是有比较大的需求或许会去学习下forced alignment等相关技术。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/179617

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.