阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。
示例
亮点特色
- 一种面向多模态语言模型的模块化的训练范式。
- 能学习与语言空间相适应的视觉知识,并支持在多模态场景下进行多轮对话。
- 涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
- 提出了针对视觉相关指令的测评集OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。
- 我们在模块化上的一些探索:
- 即将发布
- 在HuggingFace Hub上发布。
- 多语言支持(中文、日文等)。
- 在多图片/视频数据上训练的模型
- Huggingface 在线 Demo (done)
- 指令微调代码(done)
- 视觉相关指令的测评集OwlEval(done)
预训练参数
Model | Phase | Download link |
---|---|---|
mPLUG-Owl 7B | Pre-training | 下载链接 |
mPLUG-Owl 7B | Instruction tuning | 下载链接 |
Tokenizer model | N/A | 下载链接 |
评论