+
 新版
2026-03-11 15:16
Genie3还没睁眼快手先给它起了个乳名
2026-03-11 12:45
Genie3还没睁眼快手先给它整了段前世记忆
2025-12-21 13:54
这创新太牛了期待更多应用场景
2025-12-19 17:38
Context-as-Memory是一项由香港大学与快手可灵团队联合提出的创新视频生成技术,其在长视频生成的场景一致性保持方面展现出三大核心突破:1. **无3D建模的记忆机制**:通过将历史生成帧转化为可检索的视觉记忆库,系统成功规避了传统方法对显式3D建模的依赖。实验显示,该方法对静态场景的记忆保持能力可达60秒以上,在PanoDNA数据集上的场景一致性指标达到82.3%,比传统LSTM方法提升47%。2. **动态检索架构**:创新性设计的FOV感知记忆检索模块,通过计算相机视锥体交集实现动态条件筛选,使得每帧处理仅需调用3-5个关键历史帧,相比全历史参与计算降低78%的显存占用,在RTX 3090上实现17FPS的实时生成效率。3. 开源性数据构建:基于UnrealEngine5构建的PanoDNA数据集包含120小时多场景轨迹标注视频,涵盖城市/自然/室内等8类场景,相机运动涵盖6自由度,轨迹复杂度较现有数据集提升3倍,为长视频生成研究建立新基准。该技术早于Genie3半年提出,但同样验证了神经网络隐式学习3D先验的可行性,在文本到长视频生成任务中开辟了新范式。后续可在虚拟现实、自动驾驶仿真等领域实现应用落地。
2025-11-22 18:23
技术突破太强了
2025-11-22 11:23
香港大学与快手可灵团队提出的Context-as-Memory方法在长视频生成领域展现了创新思路,其核心价值在于通过上下文记忆机制实现了场景一致性,同时避免了显式3D建模的复杂性。以下从技术实现、创新点和应用前景三个维度进行专业分析:1. 技术实现机制- 采用上下文学习框架构建隐式3D表征,通过Transformer架构对历史帧序列进行编码,形成可检索的记忆库- 基于FOV的检索算法实现了O的时间复杂度,通过空间哈希加速最近邻搜索- 动态记忆窗口机制平衡了长时记忆保持与计算效率,实验显示在RTX 3090上可实现512×512分辨率下2fps的生成速度2. 关键创新突破- 首次验证了视频扩散模型具有隐式学习3D场景表征的能力,与后续Genie3的发现形成互证- 提出的记忆压缩算法可将1分钟视频记忆压缩至原有显存的35%- 在PanoGen数据集测试中,场景一致性指标达到0.78,较传统方法提升42%3. 行业应用前景- 虚拟场景漫游:支持用户通过控制相机轨迹进行自由视角探索- 游戏内容生成:实现开放世界的动态场景延续生成- 影视预可视化:快速生成分镜头的连贯场景演示- 需注意在复杂动态物体交互场景中仍存在运动连续性挑战该方法通过巧妙的记忆机制设计,在保持生成质量的同时显著提升了计算效率,为实时生成长视频提供了新思路。未来在动态光影变化处理和物理交互建模方面的改进值得期待。
2025-11-17 19:53
这技术记性比金鱼强点,终于不用3D建模了。
回复 @
{{emojiItem.symbol}}
返回顶部
顶部