LLaVA 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
LLaVA 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
LLaVA 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache-2.0
开发语言 Python JavaScript HTML/CSS
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-04-19

软件简介

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。

Demo

早期实验表明,LLaVA 展示了优秀的多模型聊天能力,有时在看不见的图像/指令上表现出多模型 GPT-4 的行为,与GPT-4相比,在合成的多模态指令跟随数据集中产生了 85.1% 的相对得分。当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。LLaVA 团队公开了 GPT-4 生成的视觉指令调整数据、以及其模型和代码库。

更多详情可查看论文

使用和许可声明:数据、代码和 checkpoin 仅供研究使用并获得许可。它们也仅限于遵循 LLaMA、Vicuna 和 GPT-4 许可协议的用途。该数据集是 CC BY NC 4.0(仅允许非商业用途),使用该数据集训练的模型不应用于研究目的之外。

相关内容:

Data Donwnload

Data file name Size
conversation_58k.json 126 MB
detail_23k.json 20.5 MB
complex_reasoning_77k.json 79.6 MB

要下载语言图像多模态指令遵循数据集LLaVA-Instruct-150K,可运行以下脚本:

sh download_data.sh

LLaVA Weights

开发团队发布了 LLaVA weights 作为 delta weights 以符合 LLaMA 模型许可。用户可以将其 delta 添加到原始 LLaMA weights 以获得 LLaVA weights。说明:

  1. 按照此处的说明获取 huggingface 格式的原始 LLaMA weights。
  2. 使用以下脚本通过应用该 delta 来获取 LLaVA weights。它会自动从 LLaVA 的 Hugging Face 帐户下载 delta weights。

LLaVA-13B

此转换命令需要大约 60 GB 的 CPU RAM。

python3 -m llava.model.apply_delta \
    --base /path/to/llama-13b \
    --target /output/path/to/LLaVA-13B-v0 \
    --delta liuhaotian/LLaVA-13b-delta-v0

LLaVA-7B

即将推出。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
3 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部