核心指标优于混元WorldPlay！快手可灵提出世界模型记忆新范式，实现隐藏对象的动态一致性-噬脐莫及网

近期的核心混元研究虽然通过检索与压缩技术增强了模型的记忆容量，但现有方法擅长处理静止环境，指标却很难应对动态对象自身的优于忆新隐藏运动规律。

为了弥补这一不足，手可实现快手可灵研究团队联合提出一种新的灵提记忆范式：混合记忆（Hybrid Memory），要求模型同时精确记忆静态背景并持续追踪动态对象。出世为此，界模研究团队构建了首个专用大规模视频数据集 HM-World，型记性并提出记忆方法 HyDRA，范式在保持静态背景连贯性的对象的动同时，寻求隐藏对象并维持动态一致性。核心混元

方法

图 1 混合记忆要求模型在保持背景静态一致性的指标同时，在动态对象处于视野外的优于忆新隐藏时间间隔内，维持其运动与外观的手可实现一致性。

2. 混合动态检索注意力

模型必须在保持静态背景的灵提同时追踪运动对象，以维持其外观与运动一致性。为此，提出混合动态检索注意力 HyDRA（Hybrid Dynamic Retrieval Attention）的记忆机制，旨在相机运动条件下，在保持静态背景连贯性的同时，寻求隐藏对象并维持动态一致性。

如图 2 所示，HyDRA 先用一个 memory tokenizer 把隐变量压缩成紧凑、包含运动信息的 memory token。

在生成视频的过程中，一个基于时空相关性的检索模块会计算当前 query 与 memory key 之间的匹配程度，然后选出最相关的 top‑k 个 token。

图 2 HyDRA 整体架构。（a）Memory Tokenization 模块。（b）动态检索注意力机制。

这种有选择性的检索可以把关键的运动和外观信息引入生成过程，帮助模型“重新发现”之前消失的对象，并在它们离开视野后再出现时，自然地接续上原有的运动轨迹。

数据集

由于自然视频中完美捕获、无遮挡的离场与再入场事件极为稀缺，因此研究团队构建了 HM-World——一个专门针对混合记忆定制的数据集。如图 3 所示，数据生成过程沿四个维度展开：场景、对象、对象轨迹及相机轨迹。

图 3 HM-World 的构建流程。

该数据集包含 5.9 万个视频片段，特意将相机轨迹与对象运动轨迹解耦，从而创造出大量对象先滑入未观察区域而后重新出现的自然实例。此外，HM-World 展现出卓越的多样性，涵盖 17 种风格迥异的场景、49 种不同对象（包括多种外观的人类及多个动物物种）、10 种对象运动路径以及 28 种相机轨迹类型。HM-World 具有两个核心特性：

精心设计的、包含动态对象离场与入场的镜头；

高度多样化的场景、对象及运动模式。

评估

所提方法基于 Wan2.1-T2V-1.3B 构建，模型在所提出的 HM-World 数据集上使用 32 块 GPU 训练 10,000 步。基线方法基于 Wan2.1-T2V-1.3B 模型，并配备了相机编码器，直接将上下文隐变量与带噪隐变量拼接作为 DiT 的输入。

评估指标涵盖三个类别：1）通用记忆容量（PSNR、SSIM、LPIPS）衡量整体重建保真度。2）帧级一致性，包含对象一致性（Subject Consistency）与背景一致性（Background Consistency），度量帧级连贯性。3）动态对象一致性（DSC），其中评估相对于真实值的运动与外观保真度，而评估相对于历史上下文的保真度。

表 2 展示了与以卓越一致性著称的先进商业模型 WorldPlay 零样本性能的比较。所提方法在所有指标上均超越 WorldPlay，PSNR 差距尤为显著（高出 5.502）。这些结果凸显了所提模型的卓越能力，证明了其相对于已有商业模型的优越性。

图 4 展示了定性比较结果。在复杂的离场‑入场事件中，基线与 Context-as-Memory 表现出严重的对象扭曲与运动不连贯。DFoT 无法维持对象的完整性，导致对象完全消失。WorldPlay 虽然能够保持对象的外观一致性，但其运动存在卡顿和不自然动作。相比之下，所提方法成功维持了混合一致性，在对象重新进入画面后，既保持了对象的身份特征，也保持了运动连贯性。