Raniy

记录项目、工作、论文、笔记

ManipTrans论文深度解析:两阶段残差学习实现高效双手灵巧操作迁移

引言

想象一下这样的场景:你录下一段自己双手操作物体的视频——拧开瓶盖、挤牙膏、用螺丝刀拧螺丝——然后这段视频就能在短短15分钟内教会机器人用它的机械手做出完全相同的操作。

这听起来像是科幻电影中的情节。但CVPR 2025论文《ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning》将这个梦想极大地向前推进了一步。

核心问题:人类双手操作技能如何高效迁移到灵巧机器人手上?

这个问题的挑战在于:

  1. 形态差异:人手和机器手的关节数、运动范围、自由度完全不同
  2. 物理约束:MoCap记录的人手运动在物理世界中不可行(穿插、悬空)
  3. 物体交互:操作物体需要精确的接触力控制
  4. 双手协调:两只手的协同操作难度远超单手

MANIPTRANS的核心贡献

  • 提出两阶段残差学习框架,将手部模仿与物体交互解耦
  • 训练效率革命:60帧操作仅需15分钟,比此前优化方法快160倍
  • 生成DEXMANIPNET数据集:61任务、3.3K episodes、134万帧
  • 跨本体(4种灵巧手)+ 真实世界部署验证

关键成果:单手成功率58.1%,双手成功率39.5%,全面超越所有基线方法。

阅读全文 »

HOLD论文深度解析:无需先验类别的3D手-物交互重建

引言

想象一下:你随手拿起手机,拍下一段自己握杯喝咖啡的视频——然后计算机就能从这段视频中重建出你的手和杯子完整的三维模型。不需要提前扫描杯子,不需要告诉计算机”这是一只杯子”,甚至不需要任何3D标注数据。

这正是CVPR 2024论文《HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video》所实现的目标。

核心问题:如何从单目RGB视频中,同时重建出与未知物体交互的3D手部姿态和物体表面?

为什么重要:人类每天与上百种不同的物体交互。理解这些交互的3D几何结构,对AR/VR、机器人模仿学习、人机交互等领域至关重要。然而,现有方法要么需要预先扫描的物体模板(实际中不可行),要么只能在少数几个训练过的物体类别上工作。

HOLD的核心贡献

  1. 首个类别无关的联合手-物3D重建方法
  2. 组合式神经隐式模型(Compositional Implicit Model)实现手和物体的分离重建
  3. 利用手-物交互约束(接触、遮挡)联合优化姿态和形状
  4. 无需任何3D标注数据,仅从2D视频即可超越全监督基线方法
阅读全文 »

HaMeR论文深度解析:用Transformer实现3D手部网格重建

引言

2024年,CVPR收录了UC Berkeley等机构发表的论文《Reconstructing Hands in 3D with Transformers》(HaMeR)。这项工作在3D手部重建领域提出了一种简洁而强大的范式——用Vision Transformer(ViT)替代传统CNN骨干,在大规模数据上进行训练,实现了在自然场景中前所未有精度的3D手部网格恢复

核心问题:从单张RGB图像中恢复3D手部网格面临三大挑战:

  1. 严重遮挡:手部常与物体或其他手交互,存在大量自遮挡和外部遮挡
  2. 姿态多样性:手指关节自由度极高(>20 DoF),姿态空间巨大
  3. 数据不足:3D标注数据获取困难,主要集中在受控室内环境

HaMeR的核心创新:遵循”规模带来能力”(Scaling Up)的范式——将数据扩展到270万训练样本(此前最大数据集的4倍),模型升级为ViT-Huge(6.3亿参数),以全Transformer架构实现SOTA精度。

关键成果:在FreiHAND上PA-MPVPE达5.7mm、F@15达0.990;在HO3D上PA-MPJPE达7.7mm、AUCJ达0.846。更难能可贵的是,在全新的自然场景HInt测试集上,PCK精度是此前最佳方法的约3倍。

阅读全文 »

NeuPAN论文深度解析:端到端模型学习的直接点云机器人导航

引言

2025年,IEEE Transactions on Robotics(TRO)发表了论文《NeuPAN: Direct Point Robot Navigation With End-to-End Model-Based Learning》。这项工作在机器人导航领域提出了一种全新的范式——直接从原始LiDAR点云到控制指令的端到端导航,无需建图、无需物体检测、无需显式碰撞避免约束求解。

核心问题:传统的机器人导航采用模块化流水线(感知→规划→控制),存在三大根本性问题:

  1. 误差传播:感知模块的检测误差被后续模块逐级放大
  2. 信息丢失:点云被简化为网格或边界框,丢失了丰富的形状细节
  3. 计算负担重:障碍物数量多时,碰撞避免约束条件数量爆炸

NeuPAN的核心创新:将优化算法”展开”为神经网络(DUNE),再将网络输出作为软正则项嵌入模型预测控制(NRMP),形成端到端的感知-控制闭环。

革命性意义:NeuPAN首次实现了从原始点云到控制指令的可解释端到端导航,在精度和成功率上大幅超越传统方法。

阅读全文 »

CLIP论文深度解析:视觉-语言预训练的范式转移

引言

2021年,OpenAI发布了论文《Learning Transferable Visual Models From Natural Language Supervision》,提出了CLIP(Contrastive Language-Image Pre-training)模型。这项工作在多模态学习领域引起了革命性的变化,彻底改变了视觉模型的训练范式。

核心问题:传统的视觉模型(如ResNet、ViT)依赖于固定的、人工标注的标签集进行监督学习。这种范式存在两个根本性限制:

  1. 有限的语义理解:模型学习的是”这张图对应编号385”,而不知道385代表”火烈鸟”及其相关语义
  2. 泛化能力受限:模型只能识别训练时见过的类别,无法处理新概念或开放域任务

CLIP的核心创新:直接利用互联网上现成的4亿对”图像-文本”数据进行训练,通过对比学习将视觉特征与自然语言语义对齐。这使得模型:

  • 不再受限于预定义的分类列表
  • 获得了理解任意文本描述的能力
  • 实现了真正的零样本迁移

革命性意义:CLIP标志着视觉模型从”离散标签监督”向”自然语言监督”的范式转移,为开放域视觉理解奠定了基础。

阅读全文 »

潜在扩散模型(LDM)论文精读:从像素空间到潜在空间的高效图像生成

引言

2022年,CompVis团队在论文《High-Resolution Image Synthesis with Latent Diffusion Models》中提出了潜在扩散模型(LDM),解决了传统扩散模型在像素空间训练的巨大计算开销问题。这项工作是Stable Diffusion的前身,开启了高效高分辨率图像生成的新篇章。

核心问题:传统的扩散模型(如DDPM、DDIM)直接在像素空间操作,生成高分辨率图像需要数百到数千步的迭代,每次迭代都在高维空间(如256×256×3≈200K维度)进行,导致:

  • 训练成本高昂(GPU内存占用大)
  • 推理速度慢(实时应用困难)
  • 难以扩展到更高分辨率

LDM的核心创新:将扩散过程从像素空间转移到压缩的潜在空间,通过预训练的自动编码器将图像压缩到低维表示(如32×32×4≈4K维度),在这个空间执行扩散过程,最后解码回像素空间。

主要贡献

  1. 计算效率提升:内存占用减少约3-4倍,推理速度提升2-3倍
  2. 高质量生成:在多个基准测试上达到SOTA或接近SOTA
  3. 灵活的conditioning:支持文本、图像、类别等多种条件输入
阅读全文 »

Transformer架构详解:从原理到手撕注意力代码

引言

2017年,Google的研究团队在论文《Attention Is All You Need》中提出了Transformer模型,彻底改变了自然语言处理领域的格局。与传统RNN和CNN不同,Transformer完全基于注意力机制,实现了高效的并行计算和强大的表示能力。如今,Transformer已成为BERT、GPT、T5等SOTA模型的核心架构。

本文将深入解析Transformer的各个组件,重点讲解自注意力机制的原理和实现,并提供了手撕注意力代码的完整指南,帮助你在面试中游刃有余。

阅读全文 »

欢迎!

欢迎来到我的个人技术博客!🎉

这个博客是我记录学习、项目和思考的地方。在这里,我会分享:

  • 🚀 项目开发经验 - 实际项目中的技术实践
  • 📚 学习笔记 - 新技术、框架的学习总结
  • 📖 论文阅读 - 有趣的论文阅读心得
  • 💡 技术思考 - 对技术趋势和发展的观察
阅读全文 »

blog搭建:Hexo + NexT主题完整指南

本文详细记录使用 Hexo 8.1.1 静态博客框架配合 NexT 主题(Mist 方案)搭建个人技术博客的完整过程,包括环境准备、主题配置、功能增强、SEO优化和自动化部署。

阅读全文 »
0%