用 pyannote.audio 实现说话人识别

如果用 Azure 的语音识别服务,他有一个说话人识别的功能,会标注这一句话是哪个人说的,特别适合在采访或者对话之类的场景,微软的确实好用,但是贵,找到了一个开源的解决方案,用 pyannote.audio 来解决,我自己对比了一下和微软的结果,基本上没有差别,这样完整的语音识别方案就用了。

说话人识别

20220922yESnWy

从上图可以看到能识别到不同的人,speaker_SPEAKER_01、speaker_SPEAKER_00 就是不同的人说的话,并且能显示时间段。

完整的语音识别开源解决方案

https://github.com/openai/whisper 实现语音转文本,用 pyannote.audio 实现对话人识别,基本上能满足大部分场景了。

发表评论