NutWorld - 新加坡国立、南洋理工和Skywork AI推出的视频处理框架
2025-04-10 12:02:26
 9人浏览

NutWorld是什么

NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussian Splatting)。NutWorld基于时空对齐高斯(STAG)表示法,在单次前馈传递中实现视频的时空连贯建模,解决传统方法在复杂运动和遮挡下的局限性。NutWorld结合深度和光流正则化技术,有效解决单目视频中的空间模糊和运动不确定性问题。NutWorld支持用高保真度重建视频,实时支持多种下游任务,如新视图合成、视频编辑、帧插值和一致深度预测等。

NutWorld

NutWorld的主要功能

  • 高效视频重建:将日常单目视频转换为动态3D高斯表示(Gaussian Splatting),用高保真度重建视频内容。
  • 实时处理能力:支持实时处理,显著优于传统的优化方法。
  • 多种下游任务支持
    • 新视图合成:从单目视频生成新的视角。
    • 视频编辑:支持精确的帧级编辑和风格化。
    • 帧插值:生成中间帧提高视频帧率。
    • 一致深度预测:提供时空连贯的深度估计。
    • 视频对象分割:基于传播对象掩码实现目标分割。
  • 时空连贯性:基于结构化的时空对齐高斯(STAG)表示,确保视频在时间和空间上的连贯性。

NutWorld的技术原理

  • 时空对齐高斯(STAG)表示:将视频中的每个像素与一个3D高斯分布相关联,基于时空对齐的方式约束高斯分布。每个高斯分布具有位置、尺度、颜色、不透明度等属性,基于可变形场(deformation field)捕捉时间动态。
  • 前馈网络架构:基于Transformer的编码器-解码器架构,将输入视频帧映射到STAG表示。编码器基于Transformer块处理输入帧,捕捉时空对应关系;解码器预测静态高斯属性及其可变形场,支持高效的前馈预测。
  • 深度和光流正则化:引入深度正则化和光流正则化。深度正则化基于校准的单目深度先验增强深度预测的鲁棒性。光流正则化用预计算的光流场监督高斯分布的运动轨迹,确保时间连贯性。
  • 基于片段的推理:基于片段的推理策略,将长视频分割成多个重叠的片段进行处理。在重叠帧中传播高斯分布,保持全局时空一致性。

NutWorld的项目地址

NutWorld的应用场景

  • 视频内容创作与编辑:用在新视图合成,从单目视频生成新视角;支持帧插值提高视频帧率;实现精确的视频编辑和风格化,为视频创作者提供强大的工具。
  • 增强现实与虚拟现实:实时重建动态3D场景,为AR/VR应用提供更准确的场景理解;自然融合虚拟对象到现实场景,增强用户体验。
  • 自动驾驶与机器人视觉:高效重建动态场景,提供深度和运动信息,助力自动驾驶环境感知;支持机器人在复杂环境中实时建模和人机交互。
  • 游戏开发:实时生成高质量3D场景,支持交互式内容和流畅游戏体验。
  • 培训行业:用在驾驶、飞行等培训模拟,提供逼真的动态场景,提高培训效果。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。