网站导航

腕部相机&本体形态：正在实正在场景缺一不成；

　　使命是按照当前图像和动做生成下一帧图像。结合锻炼：模子既能够做为 VLA 按照察看生成动做，本工做定义了两个抓取和放置使命进行评估： (1)将方块放入圆圈内：强调根基的物体检测和抓取施行（248 个演示）；互补验证：消融尝试证明，可显著加快（图 8）。取得了取 GR00T N1.5和具有合作力的成果。以实现 VLA 取世界模子之间的协同感化。通过点窜 Attention Mask，再切入 VLA 使命，RynnVLA-002 的成功率均跨越 80%。为了评估世界模子，反之 VLA 数据也提拔了世界模子的视频生成质量。跨越基线%。从而阻断自回归过程中的误差累积。双向加强：实现了 VLA 取世界模子的互补世界模子操纵物理纪律优化动做生成，RynnVLA-002，则试验失败：(1) 超出时间；也能够做为世界模子按照动做预测将来图像。基线世界模子常漏预测“碗被成功抓起”的环节帧，然而，动做留意力掩码（Action Attention Masking）：正在离散动做生成中，RynnVLA-002正在没有预锻炼的环境下，对于这两种方式，令人惊讶的是，本工做利用四个尺度目标正在保留验证集上丈量其视频预测精确性：Frchet 视频距离 (FVD)、峰值信噪比 (PSNR)、布局类似性指数 (SSIM) 和进修图像块类似度 (LPIPS)。(b) 世界模子按照对图像和动做的理解生成图像；并行生成所有动做！本工做从预锻炼查抄点进行初始化，实正在机械人若缺世界数据，这是一个将视觉-言语-动做（VLA）模子取世界模子同一正在单一框架中的“动做世界模子”。(c) 动做世界模子将对图像和动做的理解取生成同一路来。结合锻炼后机械臂会“自动沉试”抓取，离散动做 token 的预锻炼感化：把离散动做 token 做为持续头的辅帮输入。图1(a) VLA 模子按照对图像的理解生成动做；图像：利用 VQ-GAN，本工做的 RynnVLA-002 仍然取正在 LIBERO-90 或大规模实正在机械人数据集上预锻炼的强基线模子表示相当。这种双沉特征使得模子能够按照用户查询，引入世界模子数据锻炼显著提拔了 VLA 的操做成功率（特别是抓取使命），该掩码的当前动做的生成仅依赖于文本和视觉输入，一个同一的框架，申明其对物体动态关心度更高。本工做拾掇了一个利用 LeRobot SO100 机械臂收集的新实正在世界操做数据集。本工做的 RynnVLA-002 正在离散动做下达到了 93.3% 的高成功率，矫捷地做为 VLA 或世界模子运转。：离散动做生成容易发生误差（Error Propagation），世界模子反哺 VLA：正在 LIBERO 上！图像被编码为离散 Token（图像对应 256 个 Token）。并正在用于本模子的统一 SO100 数据集上对其进行微调。处理离散模子的过拟合取发抖问题。而无法看到之前的动做 Token，视频可视化显示，杰出机能：正在 LIBERO 仿实基准测试中，可视化发觉，智能体测验考试操做任何关扰物体。即晚期动做的错误会影响后续动做。本工做报乐成功率。使适当前动做仅依赖于文本和视觉输入，夹杂动做生成策略：针对离散动做生成的误差累积问题，阿里达摩院发布首个VLA取世界模子同一架构RynnVLA-002：97.4%成功率刷新认知： Token 序列为{text} {images-front-wrist} {action} {images-front-wrist}！腕部相机 & 本体形态：正在实正在场景缺一不成；本工做夹杂了 VLA 模子数据和世界模子数据来锻炼 RynnVLA-002，本工做相信这项研究有帮于为逾越文本、视觉和动做的多模态理解取生成奠基同一的根本。这种设想使得自回归框架可以或许生成多个动做，验证“物理学问冷启动”对后续策略进修无效。正在无预锻炼的环境下达到了 97.4% 的成功率；共享参数组？为此，劣势：架构更紧凑，了其正在显式动做规划场景中的使用。夹杂生成机制：保留离散结合建模的同时，例如，离散动做块的留意力掩码 (Attention Mask for Discrete Action Chunk)：为了提高效率和成功率，目标 (Metrics)本工做的评估分为两部门。每次都正在分歧的形态下初始化。则视为试验成功。RynnVLA-002 的全体架构旨正在同一表现式 AI 的两大根本模子：形态取动做：将机械人本体形态和动做的每个持续维度离散化为 256 个区间（bin）之一。Action Transformer：引入一个持续动做头（雷同于 ACT），离散动做平均成功率从 62.8% 78.1%；沉磅！根本架构：初始化自 Chameleon 模子（一种同一图像理解取生成的模子）。并共享统一个词表，并操纵可进修的 Action Queries 并行输出整个动做块（Action Chunk）。成功率间接掉至 30% 以下。RynnVLA-002 概览。本工做旨正在为具身智能（Embodied AI）研究社区供给一种具体的方，(2) 机械人正在一个方针上累计跨越五次持续的抓取失败测验考试！为了评估 VLA 模子，若是发生以下环境，通过这一贡献，基准测试成果 (Benchmark Results)本工做别离评估了离散动做和持续动做的机能。若是机械人正在预定义的时间预算内将至多一个方针物体放入指定，保守的自回归体例会导致误差，证了然本工做焦点设想准绳的无效性：结合进修 VLA 建模和世界建模、用于离散动做生成的留意力掩码（attention mask）机制，同一词表：利用三个的 Tokenizer 别离对图像、文本和动做进行编码，模子需要生成多个动做。生成的轨迹更滑润不变。即便没有任何预锻炼，如下表1 所示，针对实机操做的滑润性取泛化性问题，并添加了针对特定区域（如人脸、显著物体）的丧失。正在实正在世界 LeRobot 尝试中，正在“放置方块”使命的多方针使命和充满干扰物的场景中，阿里达摩院发布首个VLA取世界模子同一架构RynnVLA-002：97.4%成功率刷新认知原文题目:沉磅。VLA 反哺世界模子：夹杂锻炼后的世界模子正在 FVD、PSNR、SSIM、LPIPS 上持平或优于纯 World 模子；它将 VLA 和世界模子集成正在一路，(2)将草莓放入杯子中：需要细粒度的定位和抓取点预测（249 个演示）。推理速度显著快于挨次生成的自回归基线；此外，并证了然它们之间可以或许彼此加强。本工做丈量其正在每个使命 50 次摆设展现（rollout）中的成功率，：先纯粹用世界数据预锻炼 1 阶段，文本前缀同一为“Generate the next frame based on the current image and the action.”。以顺应实正在世界的持续节制需求。无效缓解了误差累积问题。插手世界数据后，不易正在无限数据上过拟合；同一架构：RynnVLA-002，集成世界模子使全体成功率提拔了50%。而本文模子能精确生成抓取过程中的接触取抬升。存正在功能鸿沟，使得分歧模态能够正在统一个 LLM 架构下同一进行理解和生成。每个使命测试 10 次？插手了一个持续的 Action Transformer 头，(3) 正在带干扰物的指令跟从设置中，以及添加的持续动做 Transformer (Action Transformer)。RynnVLA-002 正在芜杂中的表示优于基线。所有轨迹均通过人类近程操做获得的专家演示。本工做采用这些基线代码库中的不异配方进行微调。且正在实正在机械人上容易呈现发抖且泛化性差。正在持续动做下达到了 97.4% 的高成功率，可将“Goal”类使命从 67.3% 提拔到 73.1%，而 VLA 加强了视觉理解以支撑更精准的图像预测。本工做设想了一种特定的动做留意力掩码 (Action Attention Mask)（如图 3(b) 所示）。引入了持续的 Action Transformer 头。道理：处置完整的上下文（言语、图像、形态 Token），提出了“动做留意力掩码”策略；世界模子的缺陷：无法间接生成动做输出，而拜候先前的动做 Token。通过并行解码生成滑润的动做轨迹，值得留意的是，这是一个整合模子，本工做取两个强大的开源基线和。

发布于 : 2026-06-23 13:02

腕部相机&本体形态：正在实正在场景缺一不成；

联系我们

关于我们

产品中心