openai 开放了其语音识别模型 GitHub – openai/whisper
hisper是一个通用的语音识别模型。它是在一个大型的多样化音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别,以及语音翻译和语言识别。
只是把模型公开了,但是怎么样训练的并没有开源,把训练的结果开放给大家下载使用。
Whisper是一个自动语音识别(ASR)系统,它是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。我们表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。我们正在开放模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。
安装
在 linux 上面安装非常方便,依赖 ffmpeg,我的是 centos,直接编译 ffmpeg 是最快的。
安装 yasm
sudo yum install yasm
安装 ffmpeg
git clone https://git.ffmpeg.org/ffmpeg.git
./configure --enable-shared
make -j 4
sudo make install
修改连接依赖
在 /etc/ld.so.conf 添加如下内容
/usr/local/lib/
/usr/local/lib64/
检查连接库
sudo ldconfig -v | grep code
安装 whisper
sudo pip3.8 install git+https://github.com/openai/whisper.git
运行语音识别
whisper a.mp3 --language en --model medium
我对比了几个常用的语音识别引擎,包括 azure,whisper 基本上与他们保持一致。
应用场景
语音识别的场景应该还是很多的,比如多人会议纪录,字幕生成,podcast 转文本等。