spaCy v3.0.0 版本现已发布,这是一个大版本更新。它具有用于最新模型的基于 transformer 的管道、对 PyTorch 和 TensorFlow 中的自定义模型的支持、新的 training system 以及一些其他功能。
官方表示,为了帮助用户尽可能顺利地从 spaCy v2 过渡到 spaCy v3,他们已为用户的 spaCy 管道提供了商业迁移支持。并进行了大量工作,以简化升级现有代码和培训工作流的过程,但是自定义项目可能始终需要进行一些自定义工作,尤其是在利用新功能方面。具体可查看官方文档。
为了实现最流畅的更新过程,官方建议用户在一个新的虚拟环境中启动:
pip install -U spacy
新功能和改进
- 基于 transformer 的管道,支持多任务学习。
- 针对 18 种以上语言再训练的模型集合以及 58 个训练的管道,其中包括 5 条基于 transformer 的管道。
- 重新训练了适用于所有受支持语言的管道,以及适用于马其顿语和俄语的新核心管道。
- 新的训练工作流和配置系统。
- 使用任何机器学习框架(包括 PyTorch、TensorFlow 和 MXNet)实现自定义模型。
- spaCy 项目用于管理从预处理到模型部署的端到端多步骤工作流。
- 与数据版本控制(DVC)、Streamlit、Weights & Biases、Ray 等的集成。
- 使用 Ray 进行并行训练和分布式计算。
- 新的内置管道组件:
SentenceRecognizer
、Morphologizer
、Lemmatizer
、AttributeRuler
和Transformer
。 - 新的和改进的管道组件 API 和自定义组件的装饰器。
- 从用户的训练配置中的其他管道中获取经过训练的组件。
- 为所有经过训练的 pipeline packages 提供预建和更高效的二进制 wheel。
- 使用 Semgrex 运算符在依赖解析(dependency parse)中提供用于匹配模式的 DependencyMatcher。
- 支持 Matcher 中的 greedy patterns。
- 新的数据结构 SpanGroup 通过 Doc.spans 有效地存储可能重叠的 spans 集合。
- 自定义注册功能的类型提示和基于类型的数据验证。
- 各种新方法、属性和命令。
详情可查看更新说明:https://github.com/explosion/spaCy/releases/tag/v3.0.0
暂无更多评论