求助各位老哥一个音频问题

2024-01-18 16:28:01 +08:00

pipixiarwksb

最近有个语音识别的问题，就是怎么处理断句呢，比如我说了一句话，紧接着说另一句话，我现在的处理是按照固定的时间去识别，比如录了 2 秒之后去识别，这就导致一个问题，这 2 秒内可能有两句话，但另一句可能只说了一半就被录下，导致整个识别之后的句子就不通顺，所以请教各位大佬，这里应该怎么处理，才能让语句识别的更精确一点

1062 次点击

所在节点

程序员

4 条回复

xuelang

2024-01-18 16:38:43 +08:00

试试 azure 的 speech_to_text ？

pipixiarwksb

2024-01-18 16:50:05 +08:00

@xuelang 这个我来试下

raycool

2024-01-18 17:13:39 +08:00

VAD
https://github.com/snakers4/silero-vad

pipixiarwksb

2024-01-18 19:04:23 +08:00

@raycool 好的哥我试下

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1009724

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.