Pre-Training with Whole Word Masking for Chinese BERT(中文 BERT-wwm 系列模型)
在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,哈工大讯飞联合实验室(HFL)发布了基于全词遮罩(Whole Word Masking)技术的中文预训练模型 BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。
Whole Word Masking (wwm),暂翻译为全词Mask
或整词Mask
,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。 简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在全词Mask
中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,即全词Mask
。
需要注意的是,这里的 mask 指的是广义的 mask(替换成[MASK];保持原词汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]
标签的情况。 更详细的说明及样例请参考:#4
同理,由于谷歌官方发布的BERT-base, Chinese
中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。HFL 将全词Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个词的汉字全部进行Mask。
下述文本展示了全词Mask
的生成样例。 注意:为了方便理解,下述例子中只考虑替换成[MASK]标签的情况。
说明 | 样例 |
---|---|
原始文本 | 使用语言模型来预测下一个词的probability。 |
分词文本 | 使用 语言 模型 来 预测 下 一个 词 的 probability 。 |
原始Mask输入 | 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。 |
全词Mask输入 | 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。 |
中文模型下载
本目录中主要包含base模型,故 HFL 不在模型简称中标注base
字样。对于其他大小的模型会标注对应的标记(例如large)。
BERT-large模型
:24-layer, 1024-hidden, 16-heads, 330M parametersBERT-base模型
:12-layer, 768-hidden, 12-heads, 110M parameters
模型简称 | 语料 | Google下载 | 讯飞云下载 |
---|---|---|---|
RBT6, Chinese |
EXT数据[1] | - | TensorFlow(密码XNMA) |
RBT4, Chinese |
EXT数据[1] | - | TensorFlow(密码e8dN) |
RBTL3, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码vySW) |
RBT3, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码b9nx) |
RoBERTa-wwm-ext-large, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码u6gC) |
RoBERTa-wwm-ext, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码Xe1p) |
BERT-wwm-ext, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码4cMG) |
BERT-wwm, Chinese |
中文维基 | TensorFlow PyTorch |
TensorFlow(密码07Xj) |
BERT-base, Chinese Google |
中文维基 | Google Cloud | - |
BERT-base, Multilingual Cased Google |
多语种维基 | Google Cloud | - |
BERT-base, Multilingual Uncased Google |
多语种维基 | Google Cloud | - |
[1] EXT数据包括:中文维基百科,其他百科、新闻、问答等数据,总词数达5.4B。
评论