openai 开放其语音识别模型 whisper

openai 开放了其语音识别模型 GitHub – openai/whisper

hisper是一个通用的语音识别模型。它是在一个大型的多样化音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别,以及语音翻译和语言识别。

只是把模型公开了,但是怎么样训练的并没有开源,把训练的结果开放给大家下载使用。

openai whisper 博客简介

Whisper是一个自动语音识别(ASR)系统,它是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。我们表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。我们正在开放模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。

安装

在 linux 上面安装非常方便,依赖 ffmpeg,我的是 centos,直接编译 ffmpeg 是最快的。

安装 yasm

sudo yum install yasm

安装 ffmpeg

git clone https://git.ffmpeg.org/ffmpeg.git

./configure --enable-shared

make -j 4

sudo make install

修改连接依赖

在 /etc/ld.so.conf 添加如下内容

/usr/local/lib/
/usr/local/lib64/

检查连接库

sudo ldconfig -v  | grep code

安装 whisper

sudo pip3.8  install git+https://github.com/openai/whisper.git

运行语音识别

 whisper a.mp3  --language en  --model medium

我对比了几个常用的语音识别引擎,包括 azure,whisper 基本上与他们保持一致。

应用场景

语音识别的场景应该还是很多的,比如多人会议纪录,字幕生成,podcast 转文本等。

发表评论