腾讯混元文生图模型全面开源

来源: 投稿
2024-05-14 15:20:00

腾讯旗下混元文生图大模型(混元DiT,Diffusion Models with Transformers)宣布全面开源。目前已经在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源地址:https://dit.hunyuan.tencent.com/

腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面,一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白;另一方面混元DiT为全面开放,与现网版本完全一致。

据卢清林介绍,之所以做这次开源尝试,是由于目前开源社区中技术快速迭代,缺乏先进、成熟的DiT架构可以开源利用。此外,现有模型对中文理解较差,中文应用场景受限。

此次开源的混元DiT采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。还支持256字中文理解,全链路自研,也是一款原生中文模型,支持中英文双语输入及理解,参数量15亿。

评测数据显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

且最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型。

展开阅读全文
点击加入讨论🔥(2) 发布并加入讨论🔥
2 评论
2 收藏
分享
返回顶部
顶部