UIS-RNN 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
UIS-RNN 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
UIS-RNN 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织 Google
地区 不详
投 递 者 达尔文
适用人群 未知
收录时间 2018-11-13

软件简介

Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音。这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。


其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在 NIST SRE 2000 CALLHOME 基准上是 7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法 DER 为 8.8%。

UIS-RNN 是无界交错状态递归神经网络(Unbounded Interleaved-State Recurrent Neural Network)算法的库。 UIS-RNN 通过学习示例解决了分段和聚类顺序数据的问题。

由于对某些内部库的依赖性,这个开源实现与在论文中用于生成结果的内部实现略有不同。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示,递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (2)

加载中
无话可说,666
2019/01/01 12:21
回复
举报
有点厉害
2018/11/15 19:16
回复
举报
更多评论
发表于行业趋势专区
2018/11/14 08:18

谷歌开源 AI 可在嘈杂环境中区分声音,准确率达92%

据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统,称它“能以一种更有效的方式识别声音”。 这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的...

4
26
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2020/05/20 08:30

初识UIS超融合产品

什么是UIS超融合产品 H3C UIS 超融合产品是H3C公司面向IaaS(基础架构即服务)推出的新一代云数据中心软硬件融合一 体机,由超融合硬件服务器、超融合内核与超融合管理软件三部分构成。 UIS超融合一体机无缝集成了计算、存储、网络、安全、运维监控、云业务等六大软件能力; 开箱即用,30分钟即可搭建云计算环境,实现仅服务器和交换机的极简的硬件架构平台和统一的软件定义数据中心资源池; 帮助客户以更敏捷的速度上线业务,达...

0
1
发表了博客
2018/02/05 17:59

RNN与LSTM

RNN在时间维度上做循环,将当前step的输入和之前的输出状态混合计算作为当前step的输出。 LSTM 解决the long-term dependency problem 贯穿网络始终的核心是cell state ,起了conveyor belt传送带的作用,LSTM使用门gate来对cell state中的信息进行添加和删减。 一个gate的大致结构为,黄色部分为sigmoid控制的layer,以0到1的概率允许信息的通过。 忘记门 基于上一step的输出$h_{t-1}$和当前的输入$x_{t}$操作,决定上一step的...

0
0
发表了博客
2018/03/25 09:54

RNN入门

RNN入门学习 原文地址:http://blog.csdn.net/hjimce/article/details/49095371 作者:hjimce 一、相关理论 RNN(Recurrent Neural Networks)中文名又称之为:循环神经网络(原来还有一个递归神经网络,也叫RNN,搞得我有点混了,菜鸟刚入门,对不上号)。在计算机视觉里面用的比较少,我目前看过很多篇计算机视觉领域的相关深度学习的文章,除了OCR、图片标注、理解问答等这些会把CNN和RNN结合起来,其它的很少见到。RNN主要用于...

0
0
发表了博客
2019/05/01 13:38

RNN的介绍

一、状态和模型 在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题。但更多的数据是不满足IID的,如语言翻译,自动文本生成。它们是一个序列问题,包括时间序列和空间序列。这时就要用到RNN网络,RNN的结构图如下所示: 序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译)。RNN不仅能够处理序列输入,也能够得到序列输...

0
0
发表了博客
2019/05/08 10:34

多层RNN

多层双向GRU 参考:博客 RNN在使用过程中会出现梯度爆炸 (exploding gradients) 和梯度消失 (vanishing gradients) 两种问题: 梯度爆炸 这个问题通常出现在深度神经网络中 (多层网络),当使用梯度回传时,梯度可能会爆炸。这个问题可以使用 gradient clipping 方法解决,即设定一个阈值,当超过这个阈值之后,就把梯度设为一个固定值; 梯度消失 这个问题通常是因为步骤过长,RNN不能很好的捕捉之前的信息; 为了解决这两种问题...

0
0
发表于开发技能专区
2020/02/20 09:44

RNN和LSTM

@Author:By Runsen 原文:https://maoli.blog.csdn.net/article/details/89390069 循环神经网络 循环神经网络,Recurrent Neural Network。神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。 CNN处理图片,RNN处理文本,语音和视频 分类 完全递归网络...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
2 评论
49 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部