openai 开放其语音识别模型 whisper

openai 开放了其语音识别模型 GitHub – openai/whisper

hisper是一个通用的语音识别模型。它是在一个大型的多样化音频数据集上训练出来的，也是一个多任务模型，可以进行多语言语音识别，以及语音翻译和语言识别。

只是把模型公开了，但是怎么样训练的并没有开源，把训练的结果开放给大家下载使用。

Whisper是一个自动语音识别(ASR)系统，它是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。我们表明，使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术语言的稳健性。此外，它还能实现多种语言的转录，以及从这些语言翻译成英语。我们正在开放模型和推理代码，作为建立有用的应用程序和进一步研究稳健语音处理的基础。

安装

在 linux 上面安装非常方便，依赖 ffmpeg，我的是 centos，直接编译 ffmpeg 是最快的。

安装 yasm

sudo yum install yasm

安装 ffmpeg

git clone https://git.ffmpeg.org/ffmpeg.git

./configure --enable-shared

make -j 4

sudo make install

修改连接依赖

在 /etc/ld.so.conf 添加如下内容

/usr/local/lib/
/usr/local/lib64/

检查连接库

sudo ldconfig -v  | grep code

安装 whisper

sudo pip3.8  install git+https://github.com/openai/whisper.git

运行语音识别

 whisper a.mp3  --language en  --model medium

我对比了几个常用的语音识别引擎，包括 azure，whisper 基本上与他们保持一致。

应用场景

语音识别的场景应该还是很多的，比如多人会议纪录，字幕生成，podcast 转文本等。

安装