当前位置:首页 > 谈天说地 > 正文内容

中文语音识别(离线语音识别sdk)

34资源网2022年05月27日 09:53391

日前,中国领先的人工智能公司出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳联合发布1万小时多领域中文语音识别数据集 WenetSpeech,在腾讯会议天籁实验室、华为昇思 MindSpore、 西安未来人工智能计算中心等机构大力支持下,该数据集目前已经开放下载。

WenetSpeech 介绍

近十年以来,在深度学习的推动下,语音识别技术和应用均取得了突飞猛进的发展,搭载语音识别技术的相关产品和服务,诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。但在现有的中文语音识别研究中,由于开源中文语音数据集数据量少,场景单一,缺乏挑战,不能反映研究模型在大数据量和复杂场景下的泛化能力,例如,当前的中文普通话开源数据集 AIShell-2,包含1000小时的朗读风格录制数据,主流识别系统在该数据的测试集上获得的错误率低至5.3%左右。工业界往往使用更大规模的内部数据进行研究,而学术界无法获取这些数据进行研究,这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面,当下研究的热点无监督学习和自学习,在中文语音识别领域,也缺乏公开标准的大数据集的支持。

今年以来,Facebook 发布面向监督学习的5万小时的英文 audiobook 数据集 Multilingual LibriSpeech;SpeechColab 发布1万小时的多领域英文数据集 GigaSpeech。受这些工作的启发,同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集,为此出门问问与西北工业大学音频语音和语言处理研究组(ASLP Lab)、希尔贝壳设计开发了 WenetSpeech 数据集。

WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景,领域详细统计数据如下图所示。

数据收集

WenetSpeech 所有的数据均来源于网络,其中三分之二的数据来自 Youtube,三分之一来自 Podcast。

对于 Youtube 数据,我们人工选择含有嵌入式硬字幕(字幕嵌入在流中,非外挂字幕)的资源,并构建了如下图的基于 OCR 的系统进行数据挖掘,流程如下:

1.文本检测,在当前帧上进行文本检测。

2.字幕位置校验,判断检测到的文本区域是否为合法的字幕区域。

3.字幕切换检测,已得到字幕位置和区域,在连续的帧上对该区域进行检测,直至该区域的字幕变化为止,得到字幕的起始和结束时间。

4.文本识别,将字幕区域进行 OCR 识别,得到文本。

5.将3中对应时间的音频提取出来,结合4中的文本,即得到字幕文本和该文本对应的音频,也就是语音识别训练中所需的文本和语音的候选平行数据。

下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域,红色的框为判定为字幕的文字区域,红色框上方的文本为 OCR 的识别结果。 可以看到,该系统正确的判定了字幕区域,并准确的识别了字幕文本,同时经过我们测试,发现该系统也可以准确判定字幕的起始和结束时间。

对于 Podcast 数据,WeNet使用国内的商业语音识别系统之一,对 Podcast 数据进行切分,并生成切分后音频和其所对应的文本作为候选平行数据。

数据校验

OCR 字幕识别和 ASR 语音转写生成的候选平行数据中不可避免的存在一些错误,如人工字幕本身有错误,字幕时间不准,OCR 识别错误,转写错误等。为了检测该错误,WenetSpeech 中提出一种基于端到端的自动标注错误检测算法,如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图,该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp),终计算 ref 和 hyp 的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致高时,ref 和 hyp 一致高,置信度高,反之,当候选语音和文本一致低时,置信度低。

WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容,请参考我们的论文。

排行榜

除了训练中校验用途的 Dev 集外,还设计了两个人工精标测试集,互联网测试集 Test_Net 和会议测试集 Test_Meeting,作为“匹配”和“不匹配”测试,同时提供三个语音识别主流工具包(Kaldi,ESPNet,WeNet)上搭建的基线系统,方便使用者复现。在 10000+ 小时的高质量标注数据上,目前三个系统的语音识别率如下表所示(结果为 MER%,中文算字错误,英文算词错误)。

WenetSpeech 2.0

虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度,然而希望进一步进行扩展和完善:

1.从领域角度,现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。

2.从数据量角度,现有的2万+小时的总数据,对于无监督学习仍然远远不够。

因此,WenetSpeech 在设计之初,就考虑到了未来做进一步扩展。目前出门问问已经开始 WenetSpeech 2.0 的工作,并且在 2.0 中,希望更多的行业机构和开发者能参与进来,能够集行业之力更好、更快地去做一个更大更泛化的数据集,从而进一步反哺和造福整个行业。

看完文章,还可以用支付宝扫描下面的二维码领取一个支付宝红包,目前可领1-88元不等

支付宝红包二维码

除了扫码可以领取之外,大家还可以(复制 720087999 打开✔支付宝✔去搜索, h`o`n.g.包哪里来,动动手指就能领)。

看下图所示是好多参与这次活动领取红包的朋友:

支付宝红包

扫描二维码推送至手机访问。

版权声明:本文由34楼发布,如需转载请注明出处。

本文链接:https://www.34l.com/post/16322.html

分享给朋友:

相关文章

coco奶茶店加盟费大概多少钱?有哪些优势?
coco奶茶店加盟费大概多少钱?有哪些优势?

CoCo奶茶来自宝岛台湾的奶茶加盟连锁品牌,以绿色健康休闲奶茶饮品为主打的连锁机构,在中国及东南亚地区拥有众多加盟连锁店。相信很多人都想加盟这个奶茶店吧?那么,coco奶茶店加盟费大概多少钱?加盟有哪些优势呢?下面小编就详细和大家介绍下吧。...

经典语录20句分享:这城市风很大,孤独的人总是晚回家
经典语录20句分享:这城市风很大,孤独的人总是晚回家

1、不怕变成自己厌恶的人,我怕的是,过的还不如他们。2、无论受了多少委屈。我只会把它憋在心里。不是不想说,只是不知道该怎么说,能和谁说。3、思念很长,所以一日如两年,时间很短,所以两年如一日。4、你是不是又在苦心翻找一句话,只为给那个人看。...

谈2022年平衡发展策略,我们要平衡的发展
谈2022年平衡发展策略,我们要平衡的发展

2022年解决方案的第二个关键词叫平衡。我们要平衡的发展,长期的发展。你的个人生活,你的公司事业,还有国家的形势,我觉得一定要平衡的去发展,不能说我只赚钱,身体就搞垮,或者说我只赚快钱,但是不关心国家的形势。你看,密室逃脱这个行业,上周国家...

首页页眉怎么去掉横线(教你三招快速处理)
首页页眉怎么去掉横线(教你三招快速处理)

Word可以说是office里算简单的了,不管是谁都能比较好的使用Word,但是要用好Word也不是那么容易的。所以今天介绍的这几个Word小技巧也是十分实用的,快来学起来吧! 字符加圈圈 一 很多时候,我们在编号的时候总会用到这个带...

pdf如何转成图片格式(教你简单免费的方法)
pdf如何转成图片格式(教你简单免费的方法)

现在的pdf应用得很广泛,由于它可以不依赖操作系统的语言和字体及显示设备,阅读起来很方便。我们在工作中几乎每天都会使用到PDF文件,有时候我们需要将PDF文件导出成图片格式的文件,这样更方便我们使用。那么问题来了,pdf如何变成图片格式...

淘宝抢购插件手机版(天猫自动抢购秒杀软件)
淘宝抢购插件手机版(天猫自动抢购秒杀软件)

今天已经是九月份了,没有参与“九月你好”抽奖活动的赶紧去参与吧。 曾经分享过的小助手(秒抢助手)最近又开始更新了,最近版本1.8.1,关键词参考文末的关键词进行下载。 今天分享一款同作者的点击器,各位一直都在找,终于带给大家了。 01...