openai 开放其语音识别模型 whisper

openai 开放了其语音识别模型 GitHub – openai/whisper

hisper是一个通用的语音识别模型。它是在一个大型的多样化音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别,以及语音翻译和语言识别。

只是把模型公开了,但是怎么样训练的并没有开源,把训练的结果开放给大家下载使用。

openai whisper 博客简介

Whisper是一个自动语音识别(ASR)系统,它是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。我们表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。我们正在开放模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。

安装

在 linux 上面安装非常方便,依赖 ffmpeg,我的是 centos,直接编译 ffmpeg 是最快的。

安装 yasm

安装 ffmpeg

修改连接依赖

在 /etc/ld.so.conf 添加如下内容

检查连接库

安装 whisper

运行语音识别

我对比了几个常用的语音识别引擎,包括 azure,whisper 基本上与他们保持一致。

应用场景

语音识别的场景应该还是很多的,比如多人会议纪录,字幕生成,podcast 转文本等。

发表评论