robotics-paper-notes / ICRA 2025 IV Top 10
ICRA 2025 / intelligent vehicles / curated

IV Top 10 curated feed

expanded 521 corpus から、まず読む価値が高い IV / autonomous driving 論文 10 本を優先順で並べた curated feed。localization / perception / planning / safety を横断して入門しやすい並びにした。

このページの見方

  • 1-3 は localization / relocalization、4-6 は perception / occupancy、7-9 は prediction / planning、10 は security
  • 各スライドは note 本文と representative figure をまとめて流し見できる
  • draft-first note を含むが、入口としての比較価値を優先して curated している

Topic spread

  • Top 1010 papers
01 / 10 Top 10 LocalizationGNSS FusionLiDARSensor Fusion

GNSS/Multi-Sensor Fusion Using Continuous-Time Factor Graph Optimization for Robust Localization

センサ周波数に依存しない **time-centric** な因子グラフ構築にして、推定時刻を任意に選べるようにした点。

TL;DR

  • 都市峡谷やトンネルで GNSS が壊れても動くように、連続時間の因子グラフで GNSS・IMU・速度・LiDAR odometry をまとめて融合する `gnssFGO` を提案している。
  • Gaussian process による連続時間軌跡表現を使うので、非同期センサを無理に同期させず、任意時刻の状態を補間して因子を張れる。
  • Aachen の 17 km シーケンスでは、tight coupling で平均 2D 誤差 0.48 m を出しており、GNSS 劣化区間で LiDAR 中心の従来法よりかなり粘る。

何を解決?

都市環境では GNSS が multipath や NLOS で壊れやすく、LiDAR 側もトンネルや退化区間で外すので、単一センサ主導の localization だと破綻しやすい。

何が新しい?

センサ周波数に依存しない **time-centric** な因子グラフ構築にして、推定時刻を任意に選べるようにした点。

どうやってる?

軌跡は GP prior 付きの連続時間状態列として表現し、測定時刻に厳密な state がなくても補間して残差評価する。

どこが強い?

非同期センサ融合をかなり自然に扱えていて、実ロボットの現実的な timestamp ずれ・周波数差に強い。

non-AI として見る価値

localization を「どのセンサを何時刻の状態に結び付けるか」という因子設計の問題として学べる。

自分の理解 / 感想

GNSS + LiDAR の論文の中でも、単に精度が良いだけでなく「非同期センサをどう graph に入れるか」が主題になっていて学びやすい。

SessionLocalization 1
Difficulty★★★★☆
AI依存度Non-AI
KeywordsContinuous-Time FGO / Gaussian Process / Tight Coupling / GNSS Pseudorange / Doppler
02 / 10 Top 10 Visual LocalizationUncertainty QuantificationBayesian FilteringAutonomous Driving Localization

Semantic and Feature Guided Uncertainty Quantification of Visual Localization for Autonomous Vehicles

localization result の後段に、**フレーム単位の uncertainty predictor** を外付けしている。

TL;DR

  • visual localization の推定値そのものより、**その測定誤差分布を学習して Bayesian filter に渡す**ことを主題にした論文。
  • keypoint / matching score / semantic class を入力にして、各フレームごとの **2D error distribution** を KSE-Net で予測する。
  • 単一 Gaussian でなく **Gaussian mixture** を使うことで、夜間や雪で出やすい長い裾の誤差を吸収し、Ithaca365 で gating と localization を安定化している。

何を解決?

自動運転の visual localization は、推定位置が出ても **その信頼度をどれだけ正しく見積もれるか** が安全側の挙動に直結する。

何が新しい?

localization result の後段に、**フレーム単位の uncertainty predictor** を外付けしている。

どうやってる?

ベースの localization pipeline は NetVLAD + SuperPoint / SuperGlue 系で query-reference 対応を作る。

どこが強い?

不確実性を「あとで calibration する」のではなく、**localization module の出力条件に応じて変える**点が実務的。

non-AI として見る価値

学習は使っているが、主眼は「deep output をどう filter に接続するか」という **system integration** にある。

自分の理解 / 感想

かなり良い折衷案で、network を増やして accuracy を盛るというより、**filter が壊れにくい learned localization** を作ろうとしているのが好印象。

SessionLocalization 4
Difficulty★★★★☆
AI依存度Hybrid
KeywordsGaussian Mixture Model / KSE-Net / Sensor Error Model / Gating / Ithaca365
03 / 10 Top 10 Radar NavigationTeach and RepeatOff-Road AutonomyLocalization

Radar Teach and Repeat: Architecture and Initial Field Testing

FMCW radar を使った **closed-loop teach and repeat** の一式アーキテクチャ。

TL;DR

  • FMCW radar だけで **teach and repeat** を閉ループ実証した off-road navigation 論文。
  • continuous-time ICP と高レート gyro 補間で、4 Hz radar でも path tracking を成立させている。
  • LiDAR より精度は落ちるが、**dust / fog / darkness に強い sensor choice** として radar を現実的に評価しているのが良い。

何を解決?

LiDAR や camera は悪天候・粉塵・暗所でつらく、GPS も当てにできない環境がある。

何が新しい?

FMCW radar を使った **closed-loop teach and repeat** の一式アーキテクチャ。

どうやってる?

teach phase では人が運転しながら radar scan から local submap を作り、odometry でつなぐ。

どこが強い?

「radar が使えるか」を demo でなく **実際の自律走行距離**で見せている。

non-AI として見る価値

radar autonomy を learned perception ではなく、**ICP / gyro fusion / controller** で堅く組んでいる。

自分の理解 / 感想

method novelty は大きくないが、「radar だけで本当に走れるのか」にちゃんと答えているのが価値。

SessionRADAR-Based Navigation
Difficulty★★★☆☆
AI依存度Non-AI
KeywordsFMCW Radar / ICP / Teach-and-Repeat / Gyro Fusion / Path Tracking
04 / 10 Top 10 Lane Topology ExtractionMapless Autonomous Driving PerceptionNeuro-Symbolic ReasoningVision-Language Reasoning

Chameleon: Fast-Slow Neuro-Symbolic Lane Topology Extraction

simple case を処理する **fast system** と、corner case を処理する **slow system** を分離している。

TL;DR

  • lane topology extraction を、**fast symbolic path と slow VLM reasoning path** に分けて解く neuro-symbolic 論文。
  • 単純ケースは合成プログラムで高速に処理し、交差点などの corner case だけを **VLM + chain-of-thought** に回す。
  • 全部を dense visual prompting で解くより現実的で、OpenLane-V2 で few-shot ベースでもかなり戦える構成にしている。

何を解決?

lane topology extraction は、lane や traffic element を検出するだけでなく、**どの lane がどこへつながるか** まで推論しないといけない。

何が新しい?

simple case を処理する **fast system** と、corner case を処理する **slow system** を分離している。

どうやってる?

まず lane / traffic element detector でインスタンスを取る。

どこが強い?

VLM を使うが、**全部を expensive reasoning にしない**ので、計算コストのバランスが良い。

non-AI として見る価値

AI-heavy な論文だが、「どの部分を symbolic に残し、どの部分だけ foundation model に任せるか」という設計が面白い。

自分の理解 / 感想

VLM を使った IV 論文の中では、わりと筋が良い部類で、「全部を end-to-end にしない」判断に好感が持てる。

SessionAutonomous Vehicle Perception 1
Difficulty★★★★☆
AI依存度AI-heavy
KeywordsOpenLane-V2 / VLM / Program Synthesis / Chain-of-Thought / Lane-Element Relations
05 / 10 Top 10 3D Occupancy PredictionAutonomous Driving PerceptionMulti-Camera Scene UnderstandingEfficient 3D Representation Learning

H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision

画像特徴から 3D voxel feature を作る段で、重い attention ではなく **projection + bilinear sampling + averaging** を使っている。

TL;DR

  • 3D occupancy prediction を、**cross-attention を減らした軽量 view transformation** と heterogeneous supervision で効率化した論文。
  • camera feature を 3D grid へ投影して平均化するかなり素朴な構成だが、深度・セマンティック・法線の **2D teacher** を volume rendering で入れることで精度を戻している。
  • Occ3D-nuScenes / SemanticKITTI で、計算量をかなり落としつつ occupancy 精度を維持・改善する、という方向性が明快。

何を解決?

3D occupancy は planning に使いやすい表現だが、既存法は 2D-3D cross-attention や heavy 3D processing でかなり重い。

何が新しい?

画像特徴から 3D voxel feature を作る段で、重い attention ではなく **projection + bilinear sampling + averaging** を使っている。

どうやってる?

multi-camera image から 2D backbone feature を取り、各 3D grid point を各カメラへ投影して特徴をサンプルする。

どこが強い?

メッセージが明快で、**効率と精度のトレードオフ改善**に集中している。

non-AI として見る価値

AI 依存は強いが、「どこを重くし、どこを教師信号で補うか」という **system design** が非常にわかりやすい。

自分の理解 / 感想

派手な新モジュールより、**軽くして教師を増やす**方向で勝っているのが実務寄りで面白い。

SessionAutonomous Vehicle Perception 2
Difficulty★★★★☆
AI依存度Hybrid
KeywordsOccupancy Grid / Volume Rendering / Heterogeneous Supervision / Occ3D-nuScenes / SemanticKITTI
06 / 10 Top 10 Camera-Radar Fusion3D Object DetectionBEV PerceptionAutonomous Driving Perception

CRAB: Camera-Radar Fusion for Reducing Depth Ambiguity in Backward Projection Based View Transformation

backward projection 系で見落とされがちな **same-ray depth ambiguity** を問題の中心に据えている。

TL;DR

  • camera-radar BEV perception で、backward projection の **depth ambiguity** を正面から潰しにいく論文。
  • 中心は **ROSCA** と **RCSCA** の 2 モジュールで、レーダ占有とレーダコンテキストを使って BEV query の深度対応を改善する。
  • nuScenes で backward projection 系の camera-radar fusion 手法としてかなり強く、悪天候や夜間も意識した評価が入っている。

何を解決?

camera-only の backward projection BEV は、同じ視線上の別深度点が画像上で潰れてしまい、**同一 ray 上の物体を区別しづらい**。

何が新しい?

backward projection 系で見落とされがちな **same-ray depth ambiguity** を問題の中心に据えている。

どうやってる?

カメラ側は通常の BEV pipeline で image feature と depth-related feature を作る。

どこが強い?

問題設定がかなりクリアで、「camera-radar fusion の何が本当に難しいか」を depth ambiguity に絞っている。

non-AI として見る価値

学習ベースではあるが、核は **センサ幾何と表現設計** にある。

自分の理解 / 感想

camera-radar fusion 論文としてかなり読みやすく、問題設定がきれい。

SessionAutonomous Vehicle Perception 6
Difficulty★★★★☆
AI依存度Hybrid
KeywordsBackward Projection / Depth Ambiguity / ROSCA / RCSCA / nuScenes / BEV Detection
07 / 10 Top 10 Multi-Agent Trajectory PredictionAutonomous Driving ForecastingCausal Representation LearningRobust Prediction under Distribution Shift

Curb Your Attention: Causal Attention Gating for Robust Trajectory Prediction in Autonomous Driving

**causal discovery network (CDN)** を入れて、過去軌跡から agent 間の causal graph を推定している。

TL;DR

  • trajectory prediction が **非因果的エージェントへの注意**に引きずられて壊れる、という問題を正面から扱う論文。
  • 提案する **CRiTIC** は causal discovery network で agent 間因果関係を推定し、Transformer の attention を **Causal Attention Gating** で制約する。
  • Waymo 系評価と cross-domain 実験で、通常精度を大きく落とさずに robustness と generalization をかなり改善している。

何を解決?

既存の trajectory predictor は、未来軌跡を当てても **本当に効いている相手** と **たまたま相関しているだけの相手** を区別しない。

何が新しい?

**causal discovery network (CDN)** を入れて、過去軌跡から agent 間の causal graph を推定している。

どうやってる?

まず AgentNet で各 agent の過去軌跡や map context を埋め込み表現へ変える。

どこが強い?

「prediction が何を見ているか」を causal graph として切り出せるので、**ロバスト性の理由を説明しやすい**。

non-AI として見る価値

AI-heavy だが、課題設定はかなり本質的で、「prediction stack の何が危ないか」をうまく言語化している。

自分の理解 / 感想

trajectory prediction 論文としてかなり筋が良くて、単なる精度競争より一歩深い。

SessionTracking and Prediction 1
Difficulty★★★★☆
AI依存度AI-heavy
KeywordsCausal Discovery Network / Causal Attention Gating / Granger Causality / Waymo / Domain Generalization
08 / 10 Top 10 Trajectory PlanningImitation Learning for Autonomous DrivingClosed-Loop EvaluationScenario Generalization

CAFE-AD: Cross-Scenario Adaptive Feature Enhancement for Trajectory Planning in Autonomous Driving

Transformer encoder 内で、ego の attention を使って **重要 token だけを残す adaptive pruning** を行う。

TL;DR

  • imitation learning ベースの planning が抱える **causal confusion** と **long-tail scenario bias** を、feature 操作で緩和しようとする論文。
  • 提案法 **CAFE-AD** は、Adaptive Pruning Transformer と Cross-Scenario Feature Interpolation の 2 本柱で、重要でない情報を削りつつ dominant scenario への過学習を抑える。
  • nuPlan Test14-Hard の closed-loop 評価で、PLUTO 系より良い R-Score を出しており、学習ベース planner の open-loop / closed-loop gap をかなり意識した設計。

何を解決?

imitation learning で学習した planner は、open-loop ではよく見えても closed-loop にすると壊れやすい。

何が新しい?

Transformer encoder 内で、ego の attention を使って **重要 token だけを残す adaptive pruning** を行う。

どうやってる?

scene token を Transformer へ入れ、ego vehicle の attention score から token importance を測る。

どこが強い?

自動運転 planner が失敗する理由を、**causal confusion** と **long-tail bias** に切り分けて処理しているのが良い。

non-AI として見る価値

学習ベース論文だが、planner failure を **どの特徴が悪さしているか** で整理しているのが読みやすい。

自分の理解 / 感想

かなり実務寄りの改善で、SOTA を大きく塗り替えるというより **壊れ方を減らすための feature surgery** という印象。

SessionAutonomous Vehicle Navigation 1
Difficulty★★★★☆
AI依存度Hybrid
KeywordsnuPlan / PLUTO / Adaptive Pruning / Feature Interpolation / Causal Confusion / Long-Tail Distribution
09 / 10 Top 10 World Model EvaluationAutonomous Driving SimulationPlanning-Oriented BenchmarkingCausality-Aware Traffic Modeling

Beyond Simulation: Benchmarking World Models for Planning and Causality in Autonomous Driving

ego replay あり / なしを比較する **ΔM, ΔMsim** 系のメトリクスを作り、partial-control 感度を測る。

TL;DR

  • learned world model を「traffic prediction 精度」でなく、**planning の訓練環境として本当に使えるか** で評価し直す論文。
  • WOSAC 的な標準評価だけでは見えない問題として、ego を replay 固定した partial-control 条件での性能崩れを測る **新しい評価指標** を提案している。
  • さらに **Control Dropout** を導入し、autoregressive world model が uncontrollable object に過敏になる問題を和らげている。

何を解決?

最近の world model は learned traffic simulator として使われ始めているが、標準ベンチで高スコアでも **policy training environment として健全か** は別問題。

何が新しい?

ego replay あり / なしを比較する **ΔM, ΔMsim** 系のメトリクスを作り、partial-control 感度を測る。

どうやってる?

Waymo Open Motion Dataset / WOSAC 系 world model を対象に、通常 rollout と ego replay 固定 rollout の両方を回す。

どこが強い?

world model を prediction benchmark から切り離し、**planner の学習環境として再評価する**観点が非常に良い。

non-AI として見る価値

学習ベースの論文だが、価値の中心は **benchmark design** と **evaluation methodology** にある。

自分の理解 / 感想

かなり好きなタイプの評価論文で、world model の hype に対してちゃんとブレーキをかけている。

SessionAutonomous Vehicle Navigation 1
Difficulty★★★☆☆
AI依存度Hybrid
KeywordsWOSAC / WOMD / Partial Control / Control Dropout / Learned Simulator / Causal Agents
10 / 10 Top 10 SecurityLocalizationLiDARRobustness Analysis

SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis

scan matching の Hessian / 感度解析から、点群のどの部分が pose estimation に強く効くかを測る vulnerability score。

TL;DR

  • LiDAR-based localization に対する spoofing を、scan matching の脆弱部位解析に基づいて評価した **security paper**。
  • 論文の芯は、どの点群領域が registration を強く支配するかを測る **vulnerability score** の考え方にある。
  • 重要なのは攻撃テクニックそのものより、**LiDAR 単独 localization は思ったより攻撃面がある**と示した点。

何を解決?

これまでの LiDAR spoofing 研究は、点群を乱すだけでは localization を大きく崩せないことも多かった。

何が新しい?

scan matching の Hessian / 感度解析から、点群のどの部分が pose estimation に強く効くかを測る vulnerability score。

どうやってる?

ICP / NDT 系の registration がどの点群構造に強く依存しているかを、最適化感度の観点から解析する。

どこが強い?

security 論文として、単なる脅しでなく **scan matching の構造理解**に踏み込んでいる。

non-AI として見る価値

classical localization は高精度でも、**明示的な脆弱性解析なしでは安全でない**ことがよく分かる。

自分の理解 / 感想

攻撃論文として読むより、LiDAR localization の failure / vulnerability analysis 論文として読むと価値が高い。

SessionResiliency and Security 1
Difficulty★★★★☆
AI依存度Non-AI
KeywordsLocalization Security / Scan Matching / Vulnerability Analysis / LiDAR / Robustness