robotics-paper-notes / ICRA 2025 IV 24
ICRA 2025 / expanded arXiv corpus / intelligent vehicles

IV 24 feed

expanded 521 corpus から、Intelligent Vehicles / Autonomous Driving を軸に 24 本を curated した feed。localization / perception / prediction / planning / safety を横断して流し見する入口です。

このページの見方

  • IV 系は AI-heavy な論文も多いため、Non-AI / Hybrid / AI-heavy を混ぜて curated している
  • 左側で TL;DR / 問題設定 / 新規性 / 手法をざっと確認する
  • 右側の representative figure で full-stack autonomy の論点を素早く掴む

Topic spread

  • Perception / Occupancy / Sensor Fusion / Adverse Conditions8 papers
  • Localization / Re-localization6 papers
  • Prediction / Planning / Control5 papers
  • Safety / Security / Benchmarks3 papers
  • Maps / Topology / Driving Structure2 papers
01 / 24 Localization / Re-localization LocalizationGNSS FusionLiDARSensor Fusion

GNSS/Multi-Sensor Fusion Using Continuous-Time Factor Graph Optimization for Robust Localization

センサ周波数に依存しない **time-centric** な因子グラフ構築にして、推定時刻を任意に選べるようにした点。

TL;DR

  • 都市峡谷やトンネルで GNSS が壊れても動くように、連続時間の因子グラフで GNSS・IMU・速度・LiDAR odometry をまとめて融合する `gnssFGO` を提案している。
  • Gaussian process による連続時間軌跡表現を使うので、非同期センサを無理に同期させず、任意時刻の状態を補間して因子を張れる。
  • Aachen の 17 km シーケンスでは、tight coupling で平均 2D 誤差 0.48 m を出しており、GNSS 劣化区間で LiDAR 中心の従来法よりかなり粘る。

何を解決?

都市環境では GNSS が multipath や NLOS で壊れやすく、LiDAR 側もトンネルや退化区間で外すので、単一センサ主導の localization だと破綻しやすい。

何が新しい?

センサ周波数に依存しない **time-centric** な因子グラフ構築にして、推定時刻を任意に選べるようにした点。

どうやってる?

軌跡は GP prior 付きの連続時間状態列として表現し、測定時刻に厳密な state がなくても補間して残差評価する。

どこが強い?

非同期センサ融合をかなり自然に扱えていて、実ロボットの現実的な timestamp ずれ・周波数差に強い。

non-AI として見る価値

localization を「どのセンサを何時刻の状態に結び付けるか」という因子設計の問題として学べる。

自分の理解 / 感想

GNSS + LiDAR の論文の中でも、単に精度が良いだけでなく「非同期センサをどう graph に入れるか」が主題になっていて学びやすい。

SessionLocalization 1
Difficulty★★★★☆
AI依存度Non-AI
KeywordsContinuous-Time FGO / Gaussian Process / Tight Coupling / GNSS Pseudorange / Doppler
02 / 24 Localization / Re-localization Visual LocalizationUncertainty QuantificationBayesian FilteringAutonomous Driving Localization

Semantic and Feature Guided Uncertainty Quantification of Visual Localization for Autonomous Vehicles

localization result の後段に、**フレーム単位の uncertainty predictor** を外付けしている。

TL;DR

  • visual localization の推定値そのものより、**その測定誤差分布を学習して Bayesian filter に渡す**ことを主題にした論文。
  • keypoint / matching score / semantic class を入力にして、各フレームごとの **2D error distribution** を KSE-Net で予測する。
  • 単一 Gaussian でなく **Gaussian mixture** を使うことで、夜間や雪で出やすい長い裾の誤差を吸収し、Ithaca365 で gating と localization を安定化している。

何を解決?

自動運転の visual localization は、推定位置が出ても **その信頼度をどれだけ正しく見積もれるか** が安全側の挙動に直結する。

何が新しい?

localization result の後段に、**フレーム単位の uncertainty predictor** を外付けしている。

どうやってる?

ベースの localization pipeline は NetVLAD + SuperPoint / SuperGlue 系で query-reference 対応を作る。

どこが強い?

不確実性を「あとで calibration する」のではなく、**localization module の出力条件に応じて変える**点が実務的。

non-AI として見る価値

学習は使っているが、主眼は「deep output をどう filter に接続するか」という **system integration** にある。

自分の理解 / 感想

かなり良い折衷案で、network を増やして accuracy を盛るというより、**filter が壊れにくい learned localization** を作ろうとしているのが好印象。

SessionLocalization 4
Difficulty★★★★☆
AI依存度Hybrid
KeywordsGaussian Mixture Model / KSE-Net / Sensor Error Model / Gating / Ithaca365
03 / 24 Localization / Re-localization SLAMLocalizationLiDARState Estimation

SuperLoc: The Key to Robust LiDAR-Inertial Localization Lies in Predicting Alignment Risks

point correspondence の Jacobian から、最適化前に **alignment risk** を計算する予測的な退化検知。

TL;DR

  • LiDAR localization の失敗を ICP の後で検知するのでなく、**最適化前に alignment risk を予測**して回避する `SuperLoc` を提案している。
  • point-plane 対応の Jacobian から各自由度の観測性を推定し、退化方向だけ代替 odometry の拘束を強める能動的 sensor fusion が肝。
  • 洞窟・長廊下・階段のような退化環境で大きく効いており、従来の Hessian 事後解析よりかなり実用寄り。

何を解決?

map-based LiDAR localization は、幾何特徴が弱い環境で ICP が不安定になりやすい。

何が新しい?

point correspondence の Jacobian から、最適化前に **alignment risk** を計算する予測的な退化検知。

どうやってる?

point-to-plane 対応の Jacobian を解析し、X/Y/Z/Roll/Pitch/Yaw 方向の観測可能性を評価する。

どこが強い?

退化を後追いでなく事前に見るので、安全側に寄せやすい。

non-AI として見る価値

localization failure を「最適化器の不調」ではなく「どの自由度が観測されていないか」で考えられる。

自分の理解 / 感想

退化問題への向き合い方が良く、LiDAR localization の壊れ方をかなり実務的に捉えている。

SessionLocalization 6
Difficulty★★★★☆
AI依存度Non-AI
KeywordsLiDAR Localization / Alignment Risk / Observability / Degeneracy / Sensor Fusion
04 / 24 Localization / Re-localization Radar NavigationTeach and RepeatOff-Road AutonomyLocalization

Radar Teach and Repeat: Architecture and Initial Field Testing

FMCW radar を使った **closed-loop teach and repeat** の一式アーキテクチャ。

TL;DR

  • FMCW radar だけで **teach and repeat** を閉ループ実証した off-road navigation 論文。
  • continuous-time ICP と高レート gyro 補間で、4 Hz radar でも path tracking を成立させている。
  • LiDAR より精度は落ちるが、**dust / fog / darkness に強い sensor choice** として radar を現実的に評価しているのが良い。

何を解決?

LiDAR や camera は悪天候・粉塵・暗所でつらく、GPS も当てにできない環境がある。

何が新しい?

FMCW radar を使った **closed-loop teach and repeat** の一式アーキテクチャ。

どうやってる?

teach phase では人が運転しながら radar scan から local submap を作り、odometry でつなぐ。

どこが強い?

「radar が使えるか」を demo でなく **実際の自律走行距離**で見せている。

non-AI として見る価値

radar autonomy を learned perception ではなく、**ICP / gyro fusion / controller** で堅く組んでいる。

自分の理解 / 感想

method novelty は大きくないが、「radar だけで本当に走れるのか」にちゃんと答えているのが価値。

SessionRADAR-Based Navigation
Difficulty★★★☆☆
AI依存度Non-AI
KeywordsFMCW Radar / ICP / Teach-and-Repeat / Gyro Fusion / Path Tracking
05 / 24 Localization / Re-localization LocalizationLiDARMotion Planning

TDFANet: Encoding Sequential 4D Radar Point Clouds Using Trajectory-Guided Deformable Feature Aggregation for Place Recognition

Real-world experimental results validate the feasibility of the proposed method and demonstrate its robustness in handling dynamic environments.

TL;DR

  • Place recognition is essential for achieving closed-loop or global positioning in autonomous vehicles and mobile robots.
  • Despite recent advancements in place recognition using 2D cameras or 3D LiDAR, it remains to be seen how to use 4D radar for place recognition - an increasingly popular sensor for its robustness against adverse weather and lighting conditions.
  • Compared to LiDAR point clouds, radar data are drastically sparser, noisier and in much lower resolution, which hampers their ability to effectively represent scenes, posing significant challenges for 4D radar-based place recognition.

何を解決?

Place recognition is essential for achieving closed-loop or global positioning in autonomous vehicles and mobile robots.

何が新しい?

Real-world experimental results validate the feasibility of the proposed method and demonstrate its robustness in handling dynamic environments.

どうやってる?

Real-world experimental results validate the feasibility of the proposed method and demonstrate its robustness in handling dynamic environments.

どこが強い?

Real-world experimental results validate the feasibility of the proposed method and demonstrate its robustness in handling dynamic environments.

non-AI として見る価値

幾何 / 最適化 / 推定 / 制御の設計をそのまま追いやすく、実装や再利用の観点で学びが大きい。

自分の理解 / 感想

初見では、古典的な数理設計や推定器の構成を学ぶ材料としてかなり良さそう。

SessionPlace Recognition 1
Difficulty★★★★☆(abstract 初見ベース)
AI依存度Non-AI
KeywordsLocalization / Autonomous Vehicle Navigation
06 / 24 Localization / Re-localization LocalizationAerial RoboticsSoftware Tools

Evaluating Global Geo-Alignment for Precision Learned Autonomous Vehicle Localization Using Aerial Data

Recently there has been growing interest in the use of aerial and satellite map data for autonomous vehicles, primarily due to its potential for significant cost reduction and enhanced scalability.

TL;DR

  • Recently there has been growing interest in the use of aerial and satellite map data for autonomous vehicles, primarily due to its potential for significant cost reduction and enhanced scalability.
  • Despite the advantages, aerial data also comes with challenges such as a sensor-modality gap and a viewpoint difference gap.
  • Learned localization methods have shown promise for overcoming these challenges to provide precise metric localization for autonomous vehicles.

何を解決?

Recently there has been growing interest in the use of aerial and satellite map data for autonomous vehicles, primarily due to its potential for significant cost reduction and enhanced scalability.

何が新しい?

Recently there has been growing interest in the use of aerial and satellite map data for autonomous vehicles, primarily due to its potential for significant cost reduction and enhanced scalability.

どうやってる?

Learned localization methods have shown promise for overcoming these challenges to provide precise metric localization for autonomous vehicles.

どこが強い?

Finally, we evaluate a learned localization system using the data alignment methods on a comprehensive (1600km) autonomous vehicle dataset and demonstrate localization error below 0.3m and 0.5�?sufficient for autonomous vehicle applications.

non-AI として見る価値

学習要素は含むが、周辺のシステム設計や問題設定の切り方には実装上の学びがある。

自分の理解 / 感想

初見では、学習と従来手法のつなぎ方を見る材料として良さそう。

SessionNovel Methods for Mapping and Localization
Difficulty★★★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsLocalization / Mapping / Intelligent Transportation Systems
07 / 24 Maps / Topology / Driving Structure PerceptionSoftware Tools

SMART: Advancing Scalable Map Priors for Driving Topology Reasoning

To address this, we propose SMART, a scalable solution that leverages easily available standard-definition (SD) and satellite maps to learn a map prior model, supervised by large-scale geo-referenced high-definition (HD) maps independent of sensor settings.

TL;DR

  • Topology reasoning is crucial for autonomous driving as it enables comprehensive understanding of connectivity and relationships between lanes and traffic elements.
  • While recent approaches have shown success in perceiving driving topology using vehicle-mounted sensors, their scalability is hindered by the reliance on training data captured by consistent sensor configurations.
  • We identify that the key factor in scalable lane perception and topology reasoning is the elimination of this sensor-dependent feature.

何を解決?

Topology reasoning is crucial for autonomous driving as it enables comprehensive understanding of connectivity and relationships between lanes and traffic elements.

何が新しい?

To address this, we propose SMART, a scalable solution that leverages easily available standard-definition (SD) and satellite maps to learn a map prior model, supervised by large-scale geo-referenced high-definition (HD) maps independent of sensor settings.

どうやってる?

Extensive experiments further demonstrate that SMART can be seamlessly integrated into any online topology reasoning method, yielding significant improvements by up to 28% on the OpenLane-V2 benchmark.

どこが強い?

Extensive experiments further demonstrate that SMART can be seamlessly integrated into any online topology reasoning method, yielding significant improvements by up to 28% on the OpenLane-V2 benchmark.

non-AI として見る価値

幾何 / 最適化 / 推定 / 制御の設計をそのまま追いやすく、実装や再利用の観点で学びが大きい。

自分の理解 / 感想

初見では、古典的な数理設計や推定器の構成を学ぶ材料としてかなり良さそう。

SessionRobot Mapping 2
Difficulty★★★☆☆(abstract 初見ベース)
AI依存度Non-AI
KeywordsMapping / Computer Vision for Transportation
08 / 24 Maps / Topology / Driving Structure Lane Topology ExtractionMapless Autonomous Driving PerceptionNeuro-Symbolic ReasoningVision-Language Reasoning

Chameleon: Fast-Slow Neuro-Symbolic Lane Topology Extraction

simple case を処理する **fast system** と、corner case を処理する **slow system** を分離している。

TL;DR

  • lane topology extraction を、**fast symbolic path と slow VLM reasoning path** に分けて解く neuro-symbolic 論文。
  • 単純ケースは合成プログラムで高速に処理し、交差点などの corner case だけを **VLM + chain-of-thought** に回す。
  • 全部を dense visual prompting で解くより現実的で、OpenLane-V2 で few-shot ベースでもかなり戦える構成にしている。

何を解決?

lane topology extraction は、lane や traffic element を検出するだけでなく、**どの lane がどこへつながるか** まで推論しないといけない。

何が新しい?

simple case を処理する **fast system** と、corner case を処理する **slow system** を分離している。

どうやってる?

まず lane / traffic element detector でインスタンスを取る。

どこが強い?

VLM を使うが、**全部を expensive reasoning にしない**ので、計算コストのバランスが良い。

non-AI として見る価値

AI-heavy な論文だが、「どの部分を symbolic に残し、どの部分だけ foundation model に任せるか」という設計が面白い。

自分の理解 / 感想

VLM を使った IV 論文の中では、わりと筋が良い部類で、「全部を end-to-end にしない」判断に好感が持てる。

SessionAutonomous Vehicle Perception 1
Difficulty★★★★☆
AI依存度AI-heavy
KeywordsOpenLane-V2 / VLM / Program Synthesis / Chain-of-Thought / Lane-Element Relations
09 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions 3D Occupancy PredictionAutonomous Driving PerceptionMulti-Camera Scene UnderstandingEfficient 3D Representation Learning

H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision

画像特徴から 3D voxel feature を作る段で、重い attention ではなく **projection + bilinear sampling + averaging** を使っている。

TL;DR

  • 3D occupancy prediction を、**cross-attention を減らした軽量 view transformation** と heterogeneous supervision で効率化した論文。
  • camera feature を 3D grid へ投影して平均化するかなり素朴な構成だが、深度・セマンティック・法線の **2D teacher** を volume rendering で入れることで精度を戻している。
  • Occ3D-nuScenes / SemanticKITTI で、計算量をかなり落としつつ occupancy 精度を維持・改善する、という方向性が明快。

何を解決?

3D occupancy は planning に使いやすい表現だが、既存法は 2D-3D cross-attention や heavy 3D processing でかなり重い。

何が新しい?

画像特徴から 3D voxel feature を作る段で、重い attention ではなく **projection + bilinear sampling + averaging** を使っている。

どうやってる?

multi-camera image から 2D backbone feature を取り、各 3D grid point を各カメラへ投影して特徴をサンプルする。

どこが強い?

メッセージが明快で、**効率と精度のトレードオフ改善**に集中している。

non-AI として見る価値

AI 依存は強いが、「どこを重くし、どこを教師信号で補うか」という **system design** が非常にわかりやすい。

自分の理解 / 感想

派手な新モジュールより、**軽くして教師を増やす**方向で勝っているのが実務寄りで面白い。

SessionAutonomous Vehicle Perception 2
Difficulty★★★★☆
AI依存度Hybrid
KeywordsOccupancy Grid / Volume Rendering / Heterogeneous Supervision / Occ3D-nuScenes / SemanticKITTI
10 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions Visual-InertialCalibrationPerceptionSoftware Tools

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction

We propose an efficient adaptation of an uncertainty estimation technique for 3D occupancy prediction.

TL;DR

  • Autonomous driving has the potential to significantly enhance productivity and provide numerous societal benefits.
  • Ensuring robustness in these safety-critical systems is essential, particularly when vehicles must navigate adverse weather conditions and sensor corruptions that may not have been encountered during training.
  • Current methods often overlook uncertainties arising from adversarial conditions or distributional shifts, limiting their real-world applicability.

何を解決?

Autonomous driving has the potential to significantly enhance productivity and provide numerous societal benefits.

何が新しい?

We propose an efficient adaptation of an uncertainty estimation technique for 3D occupancy prediction.

どうやってる?

Current methods often overlook uncertainties arising from adversarial conditions or distributional shifts, limiting their real-world applicability.

どこが強い?

Our evaluation under various camera corruption scenarios, such as fog or missing cameras, demonstrates that our approach effectively quantifies epistemic uncertainty by assigning higher uncertainty values to unseen data.

non-AI として見る価値

学習要素は含むが、周辺のシステム設計や問題設定の切り方には実装上の学びがある。

自分の理解 / 感想

初見では、学習と従来手法のつなぎ方を見る材料として良さそう。

SessionAutonomous Vehicle Perception 2
Difficulty★★★★☆(abstract 初見ベース)
AI依存度Hybrid
KeywordsSemantic Scene Understanding / Computer Vision for Transportation / Deep Learning for Visual Perception
11 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions Camera-Radar Fusion3D Object DetectionBEV PerceptionAutonomous Driving Perception

CRAB: Camera-Radar Fusion for Reducing Depth Ambiguity in Backward Projection Based View Transformation

backward projection 系で見落とされがちな **same-ray depth ambiguity** を問題の中心に据えている。

TL;DR

  • camera-radar BEV perception で、backward projection の **depth ambiguity** を正面から潰しにいく論文。
  • 中心は **ROSCA** と **RCSCA** の 2 モジュールで、レーダ占有とレーダコンテキストを使って BEV query の深度対応を改善する。
  • nuScenes で backward projection 系の camera-radar fusion 手法としてかなり強く、悪天候や夜間も意識した評価が入っている。

何を解決?

camera-only の backward projection BEV は、同じ視線上の別深度点が画像上で潰れてしまい、**同一 ray 上の物体を区別しづらい**。

何が新しい?

backward projection 系で見落とされがちな **same-ray depth ambiguity** を問題の中心に据えている。

どうやってる?

カメラ側は通常の BEV pipeline で image feature と depth-related feature を作る。

どこが強い?

問題設定がかなりクリアで、「camera-radar fusion の何が本当に難しいか」を depth ambiguity に絞っている。

non-AI として見る価値

学習ベースではあるが、核は **センサ幾何と表現設計** にある。

自分の理解 / 感想

camera-radar fusion 論文としてかなり読みやすく、問題設定がきれい。

SessionAutonomous Vehicle Perception 6
Difficulty★★★★☆
AI依存度Hybrid
KeywordsBackward Projection / Depth Ambiguity / ROSCA / RCSCA / nuScenes / BEV Detection
12 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions PerceptionSensor FusionMotion PlanningIntelligent Vehicles

Towards Latency-Aware 3D Streaming Perception for Autonomous Driving

We propose a new benchmark tailored for online evaluation by considering runtime latency.

TL;DR

  • Although existing 3D perception algorithms have demonstrated significant improvements in performance, their deployment on edge devices continues to encounter critical challenges due to substantial runtime latency.
  • We propose a new benchmark tailored for online evaluation by considering runtime latency.
  • Based on the benchmark, we build a Latency-Aware 3D Streaming Perception (LASP) framework that addresses the latency issue through two primary components: 1) latency-aware history integration, which extends query propagation into a continuous process, ensuring the integration of historical data regardless of varying latency; 2) latency-aware predictive detection, a mechanism that compensates the detection results with the predicted trajectory and the posterior accessed latency.

何を解決?

Although existing 3D perception algorithms have demonstrated significant improvements in performance, their deployment on edge devices continues to encounter critical challenges due to substantial runtime latency.

何が新しい?

We propose a new benchmark tailored for online evaluation by considering runtime latency.

どうやってる?

By incorporating the latency-aware mechanism, our method shows generalization across various latency levels, achieving an online performance that closely aligns with 80% of its offline evaluation on the Jetson AGX Orin without any acceleration techniques.

どこが強い?

Although existing 3D perception algorithms have demonstrated significant improvements in performance, their deployment on edge devices continues to encounter critical challenges due to substantial runtime latency.

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionAutonomous Vehicle Perception 1
Difficulty★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsDeep Learning for Visual Perception / Sensor Fusion
13 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions PerceptionCalibrationIntelligent Vehicles

Unveiling the Black Box: Independent Functional Module Evaluation for Bird's-Eye-View Perception Model

Pioneering in the issue, we present the Independent Functional Module Evaluation for Bird’s-Eye-View Perception Model (BEV-IFME), a novel framework that juxtaposes the module's feature maps against Ground Truth within a unified semantic Representation Space to quantify their similarity, thereby assessing the training maturity of individual functional modules.

TL;DR

  • End-to-end models are emerging as the mainstream in autonomous driving perception.
  • Pioneering in the issue, we present the Independent Functional Module Evaluation for Bird’s-Eye-View Perception Model (BEV-IFME), a novel framework that juxtaposes the module's feature maps against Ground Truth within a unified semantic Representation Space to quantify their similarity, thereby assessing the training maturity of individual functional modules.
  • However, the inability to meticulously deconstruct their internal mechanisms results in diminished development efficacy and impedes the establishment of trust.

何を解決?

End-to-end models are emerging as the mainstream in autonomous driving perception.

何が新しい?

Pioneering in the issue, we present the Independent Functional Module Evaluation for Bird’s-Eye-View Perception Model (BEV-IFME), a novel framework that juxtaposes the module's feature maps against Ground Truth within a unified semantic Representation Space to quantify their similarity, thereby assessing the training maturity of individual functional modules.

どうやってる?

The core of the framework lies in the process of feature map encoding and representation aligning, facilitated by our proposed two-stage Alignment AutoEncoder, which ensures the preservation of salient information and the consistency of feature structure.

どこが強い?

However, the inability to meticulously deconstruct their internal mechanisms results in diminished development efficacy and impedes the establishment of trust.

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionAutonomous Vehicle Perception 4
Difficulty★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsComputer Vision for Automation / Deep Learning Methods / Representation Learning
14 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions LiDARPerceptionSoftware Tools

SaViD: Spectravista Aesthetic Vision Integration for Robust and Discerning 3D Object Detection in Challenging Environments

We present SaViD, a novel framework comprised of a three-stage fusion alignment mechanism designed to address long-range detection challenges in the presence of natural corruption.

TL;DR

  • The fusion of LiDAR and camera sensors has demonstrated significant effectiveness in achieving accurate detection for short-range tasks in autonomous driving.
  • However, this fusion approach could face challenges when dealing with long-range detection scenarios due to disparity between sparsity of LiDAR and high-resolution camera data.
  • Moreover, sensor corruption introduces complexities that affect the ability to maintain robustness, despite the growing adoption of sensor fusion in this domain.

何を解決?

The fusion of LiDAR and camera sensors has demonstrated significant effectiveness in achieving accurate detection for short-range tasks in autonomous driving.

何が新しい?

We present SaViD, a novel framework comprised of a three-stage fusion alignment mechanism designed to address long-range detection challenges in the presence of natural corruption.

どうやってる?

SaViD exhibits a robust performance improvement of 31.43% for AV2 and 16.13% for WOD in RCE value compared to other existing fusion-based methods while considering all the corruptions for both datasets.

どこが強い?

Comprehensive experiments are carried out to showcase its robustness against 14 natural sensor corruptions.

non-AI として見る価値

幾何 / 最適化 / 推定 / 制御の設計をそのまま追いやすく、実装や再利用の観点で学びが大きい。

自分の理解 / 感想

初見では、古典的な数理設計や推定器の構成を学ぶ材料としてかなり良さそう。

SessionAutonomous Vehicle Perception 6
Difficulty★★★☆☆(abstract 初見ベース)
AI依存度Non-AI
KeywordsObject Detection / Segmentation and Categorization / Autonomous Vehicle Navigation
15 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions LiDARPerceptionControlIntelligent Vehicles

Enhancing Autonomous Navigation by Imaging Hidden Objects Using Single-Photon LiDAR

We present a novel approach that leverages Non-Line-of-Sight (NLOS) sensing using single-photon LiDAR to improve visibility and enhance autonomous navigation.

TL;DR

  • Robust autonomous navigation in environments with limited visibility remains a critical challenge in robotics.
  • We present a novel approach that leverages Non-Line-of-Sight (NLOS) sensing using single-photon LiDAR to improve visibility and enhance autonomous navigation.
  • We evaluate our approach through simulations and real-world experiments on a mobile robot navigating an L-shaped corridor with hidden obstacles.

何を解決?

Robust autonomous navigation in environments with limited visibility remains a critical challenge in robotics.

何が新しい?

We present a novel approach that leverages Non-Line-of-Sight (NLOS) sensing using single-photon LiDAR to improve visibility and enhance autonomous navigation.

どうやってる?

Our method enables mobile robots to ``see around corners" by utilizing multi-bounce light information, effectively expanding their perceptual range without additional infrastructure.

どこが強い?

We evaluate our approach through simulations and real-world experiments on a mobile robot navigating an L-shaped corridor with hidden obstacles.

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionAutonomous Vehicle Perception 2
Difficulty★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsDeep Learning for Visual Perception
16 / 24 Perception / Occupancy / Sensor Fusion / Adverse Conditions PerceptionCalibrationIntelligent Vehicles

Low-Rank Adaptation-Based All-Weather Removal for Autonomous Navigation

In this paper, we propose using Low-Rank Adaptation (LoRA) to efficiently adapt a pre-trained all-weather model to novel weather restoration tasks.

TL;DR

  • In this paper, we propose using Low-Rank Adaptation (LoRA) to efficiently adapt a pre-trained all-weather model to novel weather restoration tasks.
  • To address this issue, we introduce a LoRA-based fine-tuning method called LoRA-Align (LoRA-A) which seeks to align the singular vectors of the fine-tuned and pre-trained weight matrices using Singular Value Decomposition (SVD).
  • We show that images restored with LoRA and LoRA-A can be effectively used for computer vision tasks in autonomous navigation, such as semantic segmentation and depth estimation.

何を解決?

To overcome this issue, existing models must either be retrained or fine-tuned, both of which are inefficient and impractical, with retraining needing access to large datasets, and fine-tuning involving many parameters.

何が新しい?

In this paper, we propose using Low-Rank Adaptation (LoRA) to efficiently adapt a pre-trained all-weather model to novel weather restoration tasks.

どうやってる?

But this causes them to often struggle with out-of-distribution (OoD) samples or unseen degradations which limits their effectiveness for real-world autonomous navigation.

どこが強い?

評価条件や比較対象の強さは本文確認が必要。

non-AI として見る価値

幾何 / 最適化 / 推定 / 制御の設計をそのまま追いやすく、実装や再利用の観点で学びが大きい。

自分の理解 / 感想

初見では、古典的な数理設計や推定器の構成を学ぶ材料としてかなり良さそう。

SessionAutonomous Vehicle Perception 3
Difficulty★★(abstract 初見ベース)
AI依存度Non-AI
KeywordsComputer Vision for Automation / Autonomous Vehicle Navigation
17 / 24 Prediction / Planning / Control Multi-Agent Trajectory PredictionAutonomous Driving ForecastingCausal Representation LearningRobust Prediction under Distribution Shift

Curb Your Attention: Causal Attention Gating for Robust Trajectory Prediction in Autonomous Driving

**causal discovery network (CDN)** を入れて、過去軌跡から agent 間の causal graph を推定している。

TL;DR

  • trajectory prediction が **非因果的エージェントへの注意**に引きずられて壊れる、という問題を正面から扱う論文。
  • 提案する **CRiTIC** は causal discovery network で agent 間因果関係を推定し、Transformer の attention を **Causal Attention Gating** で制約する。
  • Waymo 系評価と cross-domain 実験で、通常精度を大きく落とさずに robustness と generalization をかなり改善している。

何を解決?

既存の trajectory predictor は、未来軌跡を当てても **本当に効いている相手** と **たまたま相関しているだけの相手** を区別しない。

何が新しい?

**causal discovery network (CDN)** を入れて、過去軌跡から agent 間の causal graph を推定している。

どうやってる?

まず AgentNet で各 agent の過去軌跡や map context を埋め込み表現へ変える。

どこが強い?

「prediction が何を見ているか」を causal graph として切り出せるので、**ロバスト性の理由を説明しやすい**。

non-AI として見る価値

AI-heavy だが、課題設定はかなり本質的で、「prediction stack の何が危ないか」をうまく言語化している。

自分の理解 / 感想

trajectory prediction 論文としてかなり筋が良くて、単なる精度競争より一歩深い。

SessionTracking and Prediction 1
Difficulty★★★★☆
AI依存度AI-heavy
KeywordsCausal Discovery Network / Causal Attention Gating / Granger Causality / Waymo / Domain Generalization
18 / 24 Prediction / Planning / Control Trajectory PlanningImitation Learning for Autonomous DrivingClosed-Loop EvaluationScenario Generalization

CAFE-AD: Cross-Scenario Adaptive Feature Enhancement for Trajectory Planning in Autonomous Driving

Transformer encoder 内で、ego の attention を使って **重要 token だけを残す adaptive pruning** を行う。

TL;DR

  • imitation learning ベースの planning が抱える **causal confusion** と **long-tail scenario bias** を、feature 操作で緩和しようとする論文。
  • 提案法 **CAFE-AD** は、Adaptive Pruning Transformer と Cross-Scenario Feature Interpolation の 2 本柱で、重要でない情報を削りつつ dominant scenario への過学習を抑える。
  • nuPlan Test14-Hard の closed-loop 評価で、PLUTO 系より良い R-Score を出しており、学習ベース planner の open-loop / closed-loop gap をかなり意識した設計。

何を解決?

imitation learning で学習した planner は、open-loop ではよく見えても closed-loop にすると壊れやすい。

何が新しい?

Transformer encoder 内で、ego の attention を使って **重要 token だけを残す adaptive pruning** を行う。

どうやってる?

scene token を Transformer へ入れ、ego vehicle の attention score から token importance を測る。

どこが強い?

自動運転 planner が失敗する理由を、**causal confusion** と **long-tail bias** に切り分けて処理しているのが良い。

non-AI として見る価値

学習ベース論文だが、planner failure を **どの特徴が悪さしているか** で整理しているのが読みやすい。

自分の理解 / 感想

かなり実務寄りの改善で、SOTA を大きく塗り替えるというより **壊れ方を減らすための feature surgery** という印象。

SessionAutonomous Vehicle Navigation 1
Difficulty★★★★☆
AI依存度Hybrid
KeywordsnuPlan / PLUTO / Adaptive Pruning / Feature Interpolation / Causal Confusion / Long-Tail Distribution
19 / 24 Prediction / Planning / Control World Model EvaluationAutonomous Driving SimulationPlanning-Oriented BenchmarkingCausality-Aware Traffic Modeling

Beyond Simulation: Benchmarking World Models for Planning and Causality in Autonomous Driving

ego replay あり / なしを比較する **ΔM, ΔMsim** 系のメトリクスを作り、partial-control 感度を測る。

TL;DR

  • learned world model を「traffic prediction 精度」でなく、**planning の訓練環境として本当に使えるか** で評価し直す論文。
  • WOSAC 的な標準評価だけでは見えない問題として、ego を replay 固定した partial-control 条件での性能崩れを測る **新しい評価指標** を提案している。
  • さらに **Control Dropout** を導入し、autoregressive world model が uncontrollable object に過敏になる問題を和らげている。

何を解決?

最近の world model は learned traffic simulator として使われ始めているが、標準ベンチで高スコアでも **policy training environment として健全か** は別問題。

何が新しい?

ego replay あり / なしを比較する **ΔM, ΔMsim** 系のメトリクスを作り、partial-control 感度を測る。

どうやってる?

Waymo Open Motion Dataset / WOSAC 系 world model を対象に、通常 rollout と ego replay 固定 rollout の両方を回す。

どこが強い?

world model を prediction benchmark から切り離し、**planner の学習環境として再評価する**観点が非常に良い。

non-AI として見る価値

学習ベースの論文だが、価値の中心は **benchmark design** と **evaluation methodology** にある。

自分の理解 / 感想

かなり好きなタイプの評価論文で、world model の hype に対してちゃんとブレーキをかけている。

SessionAutonomous Vehicle Navigation 1
Difficulty★★★☆☆
AI依存度Hybrid
KeywordsWOSAC / WOMD / Partial Control / Control Dropout / Learned Simulator / Causal Agents
20 / 24 Prediction / Planning / Control PerceptionControlIntelligent Vehicles

Actor-Critic Cooperative Compensation to Model Predictive Control for Off-Road Autonomous Vehicles under Unknown Dynamics

Abstract ベースでは、提案手法のコア設計を本文で要確認。

TL;DR

  • This study presents an Actor-Critic Cooperative Compensated Model Predictive Controller (AC3MPC) designed to address unknown system dynamics.
  • To avoid the difficulty of modeling highly complex dynamics and ensuring real-time control feasibility and performance, this work uses deep reinforcement learning with a model predictive controller in a cooperative framework to handle unknown dynamics.
  • We evaluate this framework for off-road autonomous driving on unknown deformable terrains that represent sandy deformable soil, sandy and rocky soil, and cohesive clay-like deformable soil.

何を解決?

This study presents an Actor-Critic Cooperative Compensated Model Predictive Controller (AC3MPC) designed to address unknown system dynamics.

何が新しい?

Abstract ベースでは、提案手法のコア設計を本文で要確認。

どうやってる?

This study presents an Actor-Critic Cooperative Compensated Model Predictive Controller (AC3MPC) designed to address unknown system dynamics.

どこが強い?

Our findings demonstrate that our controller statistically outperforms standalone model-based and learning-based controllers by upto 29.2% and 10.2%.

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionReinforcement Learning 2
Difficulty★★★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsMachine Learning for Robot Control / Motion Control / Autonomous Vehicle Navigation
21 / 24 Prediction / Planning / Control PerceptionMotion PlanningIntelligent VehiclesAerial Robotics

Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models

In this paper, we present a novel dataset and modeling framework designed to study motion planning in these understructured environments.

TL;DR

  • These understructured roads pose substantial challenges for autonomous vehicle motion planning, where efficient and safe navigation relies on understanding decentralized human coordination for collision avoidance.
  • In this paper, we present a novel dataset and modeling framework designed to study motion planning in these understructured environments.
  • We demonstrate that a consensus-based modeling approach can effectively explain the emergence of priority orders observed in our dataset, and is therefore a viable framework for decentralized collision avoidance planning.

何を解決?

These understructured roads pose substantial challenges for autonomous vehicle motion planning, where efficient and safe navigation relies on understanding decentralized human coordination for collision avoidance.

何が新しい?

In this paper, we present a novel dataset and modeling framework designed to study motion planning in these understructured environments.

どうやってる?

手法詳細は本文確認前のため、現時点では abstract 由来の把握に留まる。

どこが強い?

We demonstrate that a consensus-based modeling approach can effectively explain the emergence of priority orders observed in our dataset, and is therefore a viable framework for decentralized collision avoidance planning.

non-AI として見る価値

幾何 / 最適化 / 推定 / 制御の設計をそのまま追いやすく、実装や再利用の観点で学びが大きい。

自分の理解 / 感想

初見では、古典的な数理設計や推定器の構成を学ぶ材料としてかなり良さそう。

SessionAutonomous Vehicle Navigation 2
Difficulty★★★(abstract 初見ベース)
AI依存度Non-AI
KeywordsAutonomous Vehicle Navigation / Collision Avoidance / Distributed Robot Systems
22 / 24 Safety / Security / Benchmarks ControlIntelligent Vehicles

CaDRE: Controllable and Diverse Generation of Safety-Critical Driving Scenarios Using Real-World Trajectories

This paper addresses this challenge by introducing a novel framework, CaDRE, to generate realistic, diverse, and controllable safety-critical scenarios.

TL;DR

  • An outstanding challenge with simulation-based testing is the generation of safety-critical scenarios, which are essential to ensure that AVs can handle rare but potentially fatal situations.
  • Simulation is an indispensable tool in the development and testing of autonomous vehicles (AVs), offering an efficient and safe alternative to road testing.
  • The results demonstrate superior performance in generating diverse and high-quality scenarios with greater sample efficiency than existing reinforcement learning (RL) and sampling-based methods.

何を解決?

An outstanding challenge with simulation-based testing is the generation of safety-critical scenarios, which are essential to ensure that AVs can handle rare but potentially fatal situations.

何が新しい?

This paper addresses this challenge by introducing a novel framework, CaDRE, to generate realistic, diverse, and controllable safety-critical scenarios.

どうやってる?

This paper addresses this challenge by introducing a novel framework, CaDRE, to generate realistic, diverse, and controllable safety-critical scenarios.

どこが強い?

Simulation is an indispensable tool in the development and testing of autonomous vehicles (AVs), offering an efficient and safe alternative to road testing.

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionSafe Control 1
Difficulty★★★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsRobot Safety / Intelligent Transportation Systems / Autonomous Vehicle Navigation
23 / 24 Safety / Security / Benchmarks GNSS FusionPerceptionMotion PlanningState Estimation

BETTY Dataset: A Multi-Modal Dataset for Full-Stack Autonomy

We present the BETTY dataset, a large-scale, multi-modal dataset collected on several autonomous racing vehicles, targeting supervised and self-supervised state estimation, dynamics modeling, motion forecasting, perception, and more.

TL;DR

  • We present the BETTY dataset, a large-scale, multi-modal dataset collected on several autonomous racing vehicles, targeting supervised and self-supervised state estimation, dynamics modeling, motion forecasting, perception, and more.
  • Existing large-scale datasets, especially autonomous vehicle datasets, focus primarily on supervised perception, planning, and motion forecasting tasks.
  • Our work enables multi-modal, data-driven methods by including all sensor inputs and the outputs from the software stack, along with semantic metadata and ground truth information.

何を解決?

We present the BETTY dataset, a large-scale, multi-modal dataset collected on several autonomous racing vehicles, targeting supervised and self-supervised state estimation, dynamics modeling, motion forecasting, perception, and more.

何が新しい?

We present the BETTY dataset, a large-scale, multi-modal dataset collected on several autonomous racing vehicles, targeting supervised and self-supervised state estimation, dynamics modeling, motion forecasting, perception, and more.

どうやってる?

手法詳細は本文確認前のため、現時点では abstract 由来の把握に留まる。

どこが強い?

評価条件や比較対象の強さは本文確認が必要。

non-AI として見る価値

学習要素はあるが、どこまでが古典手法でどこからが学習依存かを切り分けて読む価値がある。

自分の理解 / 感想

初見では、学習と古典手法の分担がどこで効いているかを見極めたい。

SessionAutonomous Vehicle Navigation 2
Difficulty★★★(abstract 初見ベース)
AI依存度Hybrid
KeywordsAutonomous Vehicle Navigation / Data Sets for Robot Learning / Dynamics
24 / 24 Safety / Security / Benchmarks SecurityLocalizationLiDARRobustness Analysis

SLAMSpoof: Practical LiDAR Spoofing Attacks on Localization Systems Guided by Scan Matching Vulnerability Analysis

scan matching の Hessian / 感度解析から、点群のどの部分が pose estimation に強く効くかを測る vulnerability score。

TL;DR

  • LiDAR-based localization に対する spoofing を、scan matching の脆弱部位解析に基づいて評価した **security paper**。
  • 論文の芯は、どの点群領域が registration を強く支配するかを測る **vulnerability score** の考え方にある。
  • 重要なのは攻撃テクニックそのものより、**LiDAR 単独 localization は思ったより攻撃面がある**と示した点。

何を解決?

これまでの LiDAR spoofing 研究は、点群を乱すだけでは localization を大きく崩せないことも多かった。

何が新しい?

scan matching の Hessian / 感度解析から、点群のどの部分が pose estimation に強く効くかを測る vulnerability score。

どうやってる?

ICP / NDT 系の registration がどの点群構造に強く依存しているかを、最適化感度の観点から解析する。

どこが強い?

security 論文として、単なる脅しでなく **scan matching の構造理解**に踏み込んでいる。

non-AI として見る価値

classical localization は高精度でも、**明示的な脆弱性解析なしでは安全でない**ことがよく分かる。

自分の理解 / 感想

攻撃論文として読むより、LiDAR localization の failure / vulnerability analysis 論文として読むと価値が高い。

SessionResiliency and Security 1
Difficulty★★★★☆
AI依存度Non-AI
KeywordsLocalization Security / Scan Matching / Vulnerability Analysis / LiDAR / Robustness