阿里巴巴通义千问团队近日发布了其最新的专有模型系列Qwen3-Embedding,专为文本嵌入和排序任务设计。
该系列基于Qwen3系列的密集型基础模型构建,提供了从0.6B到8B多种尺寸的文本嵌入和重排序模型。新模型系列继承了Qwen3基础模型的多语言能力、长文本理解和推理能力,在文本检索、代码检索、文本分类、文本聚类和双语文本挖掘等多个任务上取得了显著进展。
模型类别 |
模型名称 |
---|---|
文本嵌入模型 |
Qwen3-Embedding-0.6B , |
文本重排序模型 |
Qwen3-Reranker-0.6B , |
Qwen3-Embedding系列模型具备多项突出特性。首先是卓越的通用性,其8B尺寸的嵌入模型在MTEB多语言排行榜上(截至2025年5月26日)以70.58分排名第一。其次是全面的灵活性,该系列提供从0.6B到8B的全尺寸范围,开发者可以无缝组合嵌入和重排序两个模块。嵌入模型支持用户自定义输出维度(从32到1024),并且两个模型都支持用户自定义指令以优化特定任务、语言或场景的性能。
此外,该系列还具备强大的多语言能力,得益于Qwen3模型,支持超过100种语言,包括多种编程语言,提供了强大的多语言、跨语言和代码检索能力。
目前,该系列模型已在 HuggingFace、ModelScope 和 GitHub 平台开源,用户也可以直接使用阿里云百炼平台提供的最新的文本向量模型服务。
ModelScope:
- https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
- https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
Hugging Face:
- https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
- https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
GitHub:
技术报告: