Spark NLP 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Spark NLP 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Spark NLP 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache-2.0
开发语言 Java Python Scala
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-10-25

软件简介

Spark NLP 是一个构建在 Apache Spark 之上的最先进的自然语言处理库。它为机器学习管道提供简单、高性能且准确的NLP 注释,可在分布式环境中轻松扩展。

Spark NLP 附带超过200 种语言的21000 多个预训练管道和模型。它还提供诸如 Tokenization、Word Segmentation、Part-of-Speech Tagging、词和句子嵌入、命名实体识别、依存解析、拼写检查、文本分类、情感分析、Token 分类、机器翻译(+180 种语言)等任务,摘要、问答、表格问答、文本生成、图像分类、图像到文本(字幕)、自动语音识别、零样本学习以及更多NLP 任务

Spark NLP是生产中唯一的开源 NLP 库,提供最先进的 transformers,例如BERT、CamemBERT、ALBERT、ELECTRA、XLNet、DistilBERT、RoBERTa、DeBERTa、XLM-RoBERTa、Longformer、ELMO、Universal Sentence Encoder、Facebook BART、Instructor、E5、Google T5、MarianMT、OpenAI GPT2和Vision Transformers (ViT)不仅适用于Python和R,还通过原生扩展Apache Spark大规模适用于JVM生态系统(Java、Scala和Kotlin)。

特性:

  • Tokenization
  • Trainable Word Segmentation
  • Stop Words Removal
  • Token Normalizer
  • Document Normalizer
  • Stemmer
  • Lemmatizer
  • NGrams
  • Regex Matching
  • Text Matching
  • Chunking
  • Date Matcher
  • Sentence Detector
  • Deep Sentence Detector (Deep learning)
  • Dependency parsing (Labeled/unlabeled)
  • SpanBertCorefModel (Coreference Resolution)
  • 词性标注
  • 情绪检测(ML 模型)
  • 拼写检查器(ML 和 DL 型号)
  • 词嵌入(GloVe 和 Word2Vec)
  • Doc2Vec(基于Word2Vec)
  • BERT 嵌入(TF Hub 和 HuggingFace 模型)
  • DistilBERT 嵌入(HuggingFace 模型)
  • CamemBERT 嵌入(HuggingFace 模型)
  • RoBERTa 嵌入(HuggingFace 模型)
  • DeBERTa 嵌入(HuggingFace v2 和 v3 模型)
  • XLM-RoBERTa 嵌入(HuggingFace 模型)
  • Longformer 嵌入(HuggingFace 模型)
  • ALBERT 嵌入(TF Hub 和 HuggingFace 模型)
  • XLNet 嵌入
  • ELMO 嵌入(TF Hub 型号)
  • 通用句子编码器(TF Hub 型号)
  • BERT 句子嵌入(TF Hub 和 HuggingFace 模型)
  • RoBerta 句子嵌入(HuggingFace 模型)
  • XLM-RoBerta 句子嵌入(HuggingFace 模型)
  • Instructor 嵌入(HuggingFace 模型)
  • E5 嵌入(HuggingFace 模型)
  • MPNet 嵌入(HuggingFace 模型)
  • OpenAI 嵌入
  • 句子嵌入
  • 块嵌入
  • 无监督关键词提取
  • 语言检测和识别(最多 375 种语言)
  • 多类别情感分析(深度学习)
  • 多标签情感分析(深度学习)
  • 多类文本分类(深度学习)
  • 用于 Token & Sequence Classification 的 BERT
  • 用于 Token & Sequence Classification 的 DistilBERT
  • 用于 Token & Sequence Classification 的 CamemBERT
  • 用于 Token & Sequence Classification 的 ALBERT
  • 用于 Token & Sequence Classification 的 RoBERTa
  • 用于 Token & Sequence Classification 的 DeBERTa
  • 用于 Token & Sequence Classification 的 XLM-RoBERTa
  • 用于 Token & Sequence Classification 的 XLNet
  • 用于 Token & Sequence Classification 的 Longformer
  • 用于 Token & Sequence Classification 的 BERT
  • 用于问答的 BERT
  • 用于问答的 CamemBERT
  • 用于问答的 DistilBERT
  • ALBERT 问答
  • RoBERTa 用于问答
  • 用于问答的 DeBERTa
  • 用于问答的 XLM-RoBERTa
  • 用于问答的 Longformer
  • 表问答 (TAPAS)
  • 零样本 NER 模型
  • Transformers 零镜头文本分类 (ZSL)
  • 神经机器翻译 (MarianMT)
  • 文本到文本传输转换器 (Google T5)
  • 生成式预训练 Transformer 2 (OpenAI GPT2)
  • 用于 NLG、翻译和理解的 Seq2Seq (Facebook BART)
  • 视觉转换器(Google ViT)
  • Swin 图像分类(Microsoft Swin Transformer)
  • ConvNext 图像分类 (Facebook ConvNext)
  • 用于图像到文本(如字幕)的视觉编码器解码器
  • 自动语音识别 (Wav2Vec2)
  • 自动语音识别 (HuBERT)
  • 自动语音识别(OpenAI Whisper)
  • 命名实体识别(深度学习)
  • 轻松集成 ONNX 和 TensorFlow
  • GPU支持
  • 与 Spark ML 功能完全集成
  • +15000 个预训练模型,支持 200 多种语言!
  • +200 种语言的 +5800 个预训练管道!
  • 多语言 NER 模型:阿拉伯语、孟加拉语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、意大利语、日语、韩语、挪威语、波斯语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、乌尔都语等。
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
4 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部