Common Voice Dataset 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Common Voice Dataset 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Common Voice Dataset 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MPL-2.0
开发语言 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 Alias_Travis
适用人群 未知
收录时间 2021-08-02

软件简介

Common Voice 是 Mozilla 的开源项目,基于 MPL 协议发行,到目前为止已经诞生了几年时间,它允许志愿者们为语音识别软件的数据库做出贡献,而这个数据库属于公共领域,所有人都可以将这些数据用于语音合成和识别软件。新的数据集大约每 6 个月发布一次。

所有的语音贡献都作为数据集的一部分发布,而不考虑验证状态。只在用户有要求的情况下才会从数据集中删除片段。这些片段被捆绑起来,并使用 Common Voice Bundler 工具上传到 S3。

每个下载的 .tar.gz 文件将有以下结构,其中 [lang] 代表该语言的 ISO 639-1 代码。

[lang].tar.gz/
├── clips/
│   ├── *.mp3 files
|__ dev.tsv
|__ invalidated.tsv
|__ other.tsv
|__ test.tsv
|__ train.tsv
|__ validated.tsv
|__ reported.tsv (as of Corpus 5.0)

字段

tsv 文件的每一行代表一个音频片段,并包含以下信息:

  • client_id - 特定用户的哈希 UUID
  • path - 音频文件的相对路径
  • 文本 - 音频的假定转录
  • up_votes - 音频与文本相符的人的数量
  • down_votes - 音频与文本不匹配的人的数量
  • age -- 说话人的年龄
  • gender - 说话人的性别
  • accent - 说话人的口音
  • segment - 如果句子属于自定义数据集的片段,它将被列在这里

 

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2018/05/07 18:18

[Voice] 01 - What are features of voice

声音有哪些特性? Ref: 实时演唱打分系统评价算法的研究与应用 高音信息,节奏信息 短时平稳特性 音高:频率 音长:持续 音强:振幅 音色:基音+若干泛音 找到基音很重要。 Ref: 语音相似度评价算法研究 - 任雪妮 - 西安建筑科技大学 Research on Phonetic similarity evaluation algorithm 三个重要特征: 基音轨迹 梅尔倒频谱系数MFCC 声音强度 提取特征,然后度量距离。 Ref: 语音模仿相似度评价系统 Ref: 简单的音频相似度对...

0
0
发表了博客
2018/09/09 12:09

LightBGM之Dataset

最近使用了LightBGM的Dataset,记录一下: 1.说明:  classlightgbm.Dataset(data, label=None, reference=None, weight=None, group=None, init_score=None, silent=False, feature_name='auto', categorical_feature='auto', params=None, free_raw_data=True) Bases: object Dataset in LightGBM. Constract Dataset. Parameters: data (string, numpy array, pandas DataFrame, scipy.sparse or list of numpy arrays) –...

0
0
2020/07/11 23:54

Dataset和DataLoader

公众号后台回复关键字:Pytorch,获取项目github地址。 我们将主要介绍Pytorch的如下中阶API 数据管道 模型层 损失函数 TensorBoard可视化 如果把模型比作一个房子,那么中阶API就是【模型之墙】。 本节我们介绍数据管道。 Pytorch通常使用Dataset和DataLoader这两个工具类来构建数据管道。 Dataset定义了数据集的内容,它相当于一个类似列表的数据结构,具有确定的长度,能够用索引获取数据集中的元素。 而DataLoader定义了按b...

0
0
发表了博客
2015/02/03 14:06

DataSet, DataTable

// Copyright (C), 2015, CEU Co., Ltd. // USR Changed by 2015-02-03T14:02:52 Fandy Xie 谢宇帆 // Version       : 1.0 // Description   : AX2009处理,读取dataSet,dataTable // Return        : dataSet, dataTable static System.Data.DataSet dataSet_dataTable_read(     companyId   _companyId,     tableName   _tableName,     fieldName   _fiel...

0
0
发表了博客
2019/02/27 20:44

enlarge your dataset

列举常见的几种数据集增强方法: 1.flip 翻折(左右,上下) # NumPy.'img' = A single image. flip_1 = np.fliplr(img) # TensorFlow. 'x' = A placeholder for an image. shape = [height, width, channels] x = tf.placeholder(dtype = tf.float32, shape = shape) flip_2 = tf.image.flip_up_down(x) flip_3 = tf.image.flip_left_right(x) flip_4 = tf.image.random_flip_up_down(x) flip_5 = tf.image.random_fli...

0
0
发表了博客
2019/02/12 19:06

sparksql dataset

java 1 /** 2 *2.0之后使用sparksession即可,不需要再去创建sqlcontext 3 *@author Tele 4 * 5 */ 6 public class Demo { 7 private static SparkConf conf = new SparkConf().setAppName("dataframedemo").setMaster("local"); 8 private static JavaSparkContext jsc = new JavaSparkContext(conf); 9 10 private static SparkSession session = new SparkSession(jsc.sc()); 11 ...

0
0
发表了博客
2019/07/17 23:42

encypt dataset

import getopt import sys import uuid import hashlib import csv def getIds(totals,encrypt): seed=set() for i in range(totals): uid=uuid.uuid1() if encrypt: encrypt_id=hashlib.sha256((str(uid)+"saltValue").encode("utf-8")).hexdigest() seed.add(encrypt_id) else: seed.add(str(uid).replace('-','')) return seed def gen_Datasets()...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
1 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部