昆仑万维宣布开源 Matrix-3D 大模型,一个融合全景视频生成与三维重建的统一框架。它从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞WorldLabs的生成效果,可实现更大范围的探索空间。
Matrix-3D由以下核心部分组成:
轨迹引导的全景视频生成模块:利用场景Mesh渲染图作为条件输入,训练视频扩散模型生成符合给定相机轨迹的全景视频。有效提升生成视频在空间结构上的一致性,缓解遮挡错误与图像伪影问题。
双路径可选择的全景3D重建模块:优化路径:对生成的视频进行超分与3DGS优化,获取高质量3D结构。前馈网络路径:基于Transformer直接回归,从生成视频Latent特征快速预测3D几何属性,实现高效重建。
Matrix-Pano 数据集:大规模高质量合成数据集,包含116K条带有相机轨迹、深度图和文本注释的静态全景视频序列。
Matrix-3D 核心优势:
场景全局一致:支持360°自由视角浏览,几何结构准确、遮挡关系自然,纹理风格统一。
生成场景范围大:与现有场景生成方法相比,支持更大范围的、可360度自由探索的场景生成。
生成高度可控:同时支持文本和图像输入,结果与输入高度匹配,支持自定义范围与无限扩展。
泛化能力强:基于自研3D数据与视频模型先验,可生成多样、真实感强的高质量场景。
生成速度快:首个Feed-Forward 全景3D场景生成模型,可快速生成高质量3D场景。
Matrix-3D同时支持文本、图像作为输入,生成的3D场景支持自由探索,具备如下特性:
1. 视角一致性:生成3D场景支持360度自由环视,内容始终保持统一一致。
2. 几何、色彩一致性:生成3D场景的几何关系和遮挡关系正确,不同区域颜色统一。
3. 精准控制:根据用户输入轨迹不同,能生成不同的3D场景。
4. 大范围移动:对比李飞飞WorldLabs和HunyuanWorld 1.0方法,Matrix-3D支持更大范围的移动。
5. 无限续写:生成一段场景后,用户可以在此基础上对场景进行扩写。
6. 同时支持全景前馈重建和3DGS优化重建:前馈重建网络LRM支持10s快速场景重建,基于3DGS优化的策略可重建精细准确的场景。
评论删除后,数据将无法恢复
昆仑万维开源 Matrix-3D 大模型
昆仑万维宣布开源 Matrix-3D 大模型,一个融合全景视频生成与三维重建的统一框架。它从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞WorldLabs的生成效果,可实现更大范围的探索空间。
Matrix-3D由以下核心部分组成:
轨迹引导的全景视频生成模块:利用场景Mesh渲染图作为条件输入,训练视频扩散模型生成符合给定相机轨迹的全景视频。有效提升生成视频在空间结构上的一致性,缓解遮挡错误与图像伪影问题。
双路径可选择的全景3D重建模块:优化路径:对生成的视频进行超分与3DGS优化,获取高质量3D结构。前馈网络路径:基于Transformer直接回归,从生成视频Latent特征快速预测3D几何属性,实现高效重建。
Matrix-Pano 数据集:大规模高质量合成数据集,包含116K条带有相机轨迹、深度图和文本注释的静态全景视频序列。
Matrix-3D 核心优势:
场景全局一致:支持360°自由视角浏览,几何结构准确、遮挡关系自然,纹理风格统一。
生成场景范围大:与现有场景生成方法相比,支持更大范围的、可360度自由探索的场景生成。
生成高度可控:同时支持文本和图像输入,结果与输入高度匹配,支持自定义范围与无限扩展。
泛化能力强:基于自研3D数据与视频模型先验,可生成多样、真实感强的高质量场景。
生成速度快:首个Feed-Forward 全景3D场景生成模型,可快速生成高质量3D场景。
Matrix-3D同时支持文本、图像作为输入,生成的3D场景支持自由探索,具备如下特性:
1. 视角一致性:生成3D场景支持360度自由环视,内容始终保持统一一致。
2. 几何、色彩一致性:生成3D场景的几何关系和遮挡关系正确,不同区域颜色统一。
3. 精准控制:根据用户输入轨迹不同,能生成不同的3D场景。
4. 大范围移动:对比李飞飞WorldLabs和HunyuanWorld 1.0方法,Matrix-3D支持更大范围的移动。
5. 无限续写:生成一段场景后,用户可以在此基础上对场景进行扩写。
6. 同时支持全景前馈重建和3DGS优化重建:前馈重建网络LRM支持10s快速场景重建,基于3DGS优化的策略可重建精细准确的场景。