百度提出使用GAN构建语音识别新框架 ::上海在线 shzx.com

大资讯版块 >> 01 上海资讯 \| 02 长三角频道 CSJonline.cn \| 03 上海大都市圈频道 shquan.cn \| 04 盐城站 \| 05 南通站 \| 06 泰州站 \| 07 绍兴站 \| 08 舟山站 \| 09 宣城站
大生活版块 >> 11 本地生活 \| 12 教育 \| 13 娱乐 \| 14 社会快讯 \| 15 旅游频道 \| 16 体育频道 \| 17 人文历史
大财经·企业版块 >> 21 财经快讯 \| 22 科技频道 \| 23 汽车频道 \| 24 企业 \| 25 人物

您所在的位置：上海在线首页 > 财经企业 > 科技频道> 浏览正文

百度提出使用GAN构建语音识别新框架

2017-11-11 14:30:42

选自arXiv

作者：Anuroop Sriram等

机器之心编译

参与：李亚洲、李泽南

百度最近发表的一篇论文提出使用生成对抗网络（GAN）目标来实现鲁棒的语音识别系统，作者表示新框架不依赖信号处理中经常需要的领域专业知识或简化假设，直接鼓励以数据驱动的方式产生鲁棒性。更多细节内容，请查看论文原文。

自动语音识别（ASR）支持的语音助手、智能音箱等逐渐成为我们日常生活的一部分，例如 Siri、Google Now、Cortana、Amazon Echo、Google Home、Apple HomePod、微软 Invoke、百度 Duer 等等。虽然最近的一些研究突破极大地改进了 ASR 技术，但这些模对混响、环境噪声、口音等人类无障碍就能识别合理变化，都有着相当大的性能衰减。

这些问题中的大部分都可通过在大量数据上进行训练来减轻。但是，在流程不稳定的情况下，例如口音、精确的数据增强不行的情况下，收集高质量的数据集会非常费时、昂贵。以往 ASR 相关文献都有着细致的手动工程前端-后端和数据驱动方法，从而尝试提升质量差的数据价值。虽然这些技术在各自的环境中相当有效，但在实际中因为前面提到的原因，泛化到其他形态时并不好。也就是，从基本原则上，很难在混响与背景噪声下建模。已有的技术没有直接诱导出 ASR 的变体或者不可扩展。同时，也因为语音的时序特性，同一文本的两种不同发音需要对比校准。

本论文中，研究者使用生成对抗网络（GAN）框架，以可扩展、端到端的方式提高序列到序列模型的鲁棒性。编码器组件作为 GAN 的生成器，训练以输出噪声音频样本和干净音频样本之间不可分辨的嵌入。由于没有限制假设，这种新型鲁棒训练方法理论上能够在没有对齐或复杂的推断流程，甚至没有增强的情况下提高鲁棒性。研究者还使用编码器距离目标函数进行实验，以明确限制嵌入空间，展示了获取隐藏表征级别的不变性是鲁棒性自动语音识别有前途的方向。

论文：ROBUST SPEECH RECOGNITION USING GENERATIVE ADVERSARIAL NETWORKS

论文链接：https://arxiv.org/abs/1711.01567

编辑：上海在线 shzx.com

+ 相关信息咨讯

·快手与美团续签合作；华为计划发债 10 亿元

·OpenAI自称AI软件能力接近第二级：相当于受过博士

·“上海5G A²示范之城”建设正式启动 2026年

·数字孪生平台赋能精准招商金山优化营商环境迎来

·虹桥国际中央法务区举办2024世界人工智能大会法律

·B站毕业歌会6月9日上线，朴树、陶喆、张韶涵、周

·出租社交账号赚钱？当心连号都没了！上海警方捣毁

·上网联自媒体专委会新增韵达速递、投中网等35个自

·网游新规征求意见，游戏圈巨震波及海外股市

·华为云用技术赋能喜马拉雅平台，共同延伸数字阅读

版权与免责声明：
1.上海在线 shzx.com 所载作品均转载自境内其他合法网站，均来自我站会员在线投稿，全部转载自其它媒体，转载目的在于传播信息，不代表本网观点，本网不承担直接责任及连带责任。
2. 因难以对所有会员投稿文章事前版权筛查，如因作品内容、版权等被侵权需本网删除的，请根据“避风港原则”在作品在本网发表之日或发现被侵权之日起30日内务必发邮件law###shzx.com（发送时请将###更换为@）书面通知我站，若未书面通知我站不负法律责任。

公安备案号：