ICCV 2025
時(shí)間:2025-07-12 10:03:23 出處:熱點(diǎn)閱讀(143)
來(lái)自加州大學(xué)河濱分校(UC Riverside)、密歇根大學(xué)(University of Michigan)、威斯康星大學(xué)麥迪遜分校(University of Wisconsin–Madison)、德州農(nóng)工大學(xué)(Texas A&M University)的團(tuán)隊(duì)在 ICCV 2025 發(fā)表首個(gè)面向自動(dòng)駕駛語(yǔ)義占用柵格構(gòu)造或預(yù)測(cè)任務(wù)的統(tǒng)一基準(zhǔn)框架 UniOcc。
UniOcc 融合真實(shí)世界(nuScenes、Waymo)與仿真環(huán)境(CARLA、OpenCOOD)的多源數(shù)據(jù),統(tǒng)一體素(voxel)格式與語(yǔ)義(semantic)標(biāo)簽,首次引入體素級(jí)前后向運(yùn)動(dòng)流標(biāo)注,并支持多車(chē)協(xié)同占位預(yù)測(cè)與推理。為擺脫偽標(biāo)簽(pseudo-label)評(píng)估限制,UniOcc 設(shè)計(jì)了多項(xiàng)免真值(ground-truth-free)指標(biāo),用于衡量物體形狀合理性與時(shí)序一致性。在多個(gè) SOTA 模型上驗(yàn)證了其在運(yùn)動(dòng)流信息利用、跨域泛化和協(xié)同預(yù)測(cè)方面的顯著優(yōu)勢(shì)。
UniOcc 已全面開(kāi)源,支持占位預(yù)測(cè)、長(zhǎng)時(shí)序預(yù)測(cè)、動(dòng)態(tài)追蹤等多種任務(wù),致力于構(gòu)建標(biāo)準(zhǔn)化的感知研究平臺(tái),推動(dòng)自動(dòng)駕駛邁向多模態(tài)、泛化能力更強(qiáng)的新階段。
論文標(biāo)題:UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving
論文鏈接: https://arxiv.org/abs/2503.24381
項(xiàng)目主頁(yè): https://uniocc.github.io/
代碼開(kāi)源: https://github.com/tasl-lab/UniOcc
數(shù)據(jù)集下載:
Hugging Face: https://huggingface.co/datasets/tasl-lab/uniocc
Google Drive: https://drive.google.com/drive/folders/18TSklDPPW1IwXvfTb6DtSNLhVud5-8Pw?usp=sharing
百度網(wǎng)盤(pán): https://pan.baidu.com/s/17Pk2ni8BwwU4T2fRmVROeA?pwd=kdfj 提取碼 kdfj
背景與挑戰(zhàn)
占用柵格(3D Occupancy Grid)是自動(dòng)駕駛感知的重要方向,旨在從傳感器數(shù)據(jù)構(gòu)造或預(yù)測(cè)(Prediction and Forecasting)三維占用格柵。然而當(dāng)前研究面臨諸多挑戰(zhàn):
偽標(biāo)簽缺陷:主流數(shù)據(jù)集(如 nuScenes、Waymo)缺乏真實(shí)占位標(biāo)注,只能依賴(lài) LiDAR 啟發(fā)式生成的偽標(biāo)簽。這些偽標(biāo)簽通常僅覆蓋可見(jiàn)表面,無(wú)法反映真實(shí)物體的完整形狀,導(dǎo)致訓(xùn)練出的模型結(jié)果欠佳,且使用傳統(tǒng) IoU 等指標(biāo)無(wú)法發(fā)現(xiàn)此類(lèi)問(wèn)題。Figure 3 展示了 Occ3D 偽標(biāo)簽的缺失形狀與模型預(yù)測(cè)的對(duì)比。
數(shù)據(jù)割裂:現(xiàn)有方法多局限于單一數(shù)據(jù)源,不同數(shù)據(jù)集間配置、采樣率、格式、注釋不統(tǒng)一,訓(xùn)練和評(píng)估都需分別適配。為此迫切需要統(tǒng)一格式和工具鏈來(lái)跨數(shù)據(jù)集訓(xùn)練和測(cè)試,提高模型泛化能力。
動(dòng)態(tài)信息缺失:當(dāng)前三維占位標(biāo)簽通常不包含物體運(yùn)動(dòng)信息,模型無(wú)法利用運(yùn)動(dòng)線(xiàn)索進(jìn)行預(yù)測(cè)。與以往單個(gè)物體層面(Object-level)的運(yùn)動(dòng)流(Occupancy Flow)不同,UniOcc 首次在占位數(shù)據(jù)中提供體素級(jí)(Voxel-level)的三維運(yùn)動(dòng)流標(biāo)注(對(duì)比如下圖),可以捕捉物體的平移和旋轉(zhuǎn)信息,從而增強(qiáng)對(duì)動(dòng)態(tài)場(chǎng)景的建模。
協(xié)同駕駛:盡管多車(chē)協(xié)同感知是前沿方向,之前缺乏多車(chē)協(xié)同占位預(yù)測(cè)的數(shù)據(jù)集。UniOcc 基于 OpenCOOD 擴(kuò)展了多車(chē)場(chǎng)景,成為首個(gè)支持多車(chē)協(xié)同占位預(yù)測(cè)的開(kāi)放基準(zhǔn)。
UniOcc?的四項(xiàng)關(guān)鍵創(chuàng)新
多源數(shù)據(jù)統(tǒng)一處理:UniOcc 匯聚了真實(shí)場(chǎng)景(nuScenes、Waymo)和仿真場(chǎng)景(CARLA、OpenCOOD)的數(shù)據(jù),統(tǒng)一格式并提供標(biāo)準(zhǔn)化的數(shù)據(jù)預(yù)處理和加載 Dataloader。這是首個(gè)將多個(gè)占位數(shù)據(jù)源集成在同一個(gè)框架下的工作,使得研究者可以 “開(kāi)箱即用” 地進(jìn)行跨域訓(xùn)練和評(píng)估 (Table 1)。
體素級(jí)運(yùn)動(dòng)流標(biāo)注:UniOcc 為每個(gè)三維體素同時(shí)標(biāo)注了前向和反向三維速度向量,全面記錄物體的平移與旋轉(zhuǎn)。這種體素級(jí)運(yùn)動(dòng)流標(biāo)注是占位預(yù)測(cè)領(lǐng)域首次提出的創(chuàng)新,有助于模型更好地捕捉場(chǎng)景中的動(dòng)態(tài)變化(Figure 2)。
免真值評(píng)估指標(biāo):UniOcc 提出了免真值的評(píng)估指標(biāo)和工具,避免只依賴(lài)偽標(biāo)簽進(jìn)行評(píng)價(jià)。通過(guò)學(xué)習(xí)真實(shí)物體尺寸分布的高斯混合模型(GMM)等方法,UniOcc 可以在無(wú)完美標(biāo)簽的情況下定量評(píng)估預(yù)測(cè)合理性。在時(shí)間維度上,UniOcc 提供的工具可以對(duì)連續(xù)幀中同一物體及背景的 Voxel 分別進(jìn)行提取和對(duì)齊,實(shí)現(xiàn)了對(duì)于時(shí)序一致性的評(píng)估(Figure 4)。
支持協(xié)同預(yù)測(cè)能力:通過(guò)擴(kuò)展 OpenCOOD 框架,UniOcc 涵蓋了多車(chē)協(xié)同感知場(chǎng)景,使得研究者可以探索多車(chē)傳感器融合的方法。
實(shí)驗(yàn)驗(yàn)證
引入運(yùn)動(dòng)流信息:將 UniOcc 提供的體素運(yùn)動(dòng)流輸入 OccWorld 等 3D 占位預(yù)測(cè)模型后,預(yù)測(cè)性能顯著提升。Table 3 中可見(jiàn),在 nuScenes 和 Waymo 上加入流信息后,各類(lèi)別的 mIoU 指標(biāo)均有提高。
多源聯(lián)合訓(xùn)練:利用多源數(shù)據(jù)進(jìn)行訓(xùn)練可增強(qiáng)跨域泛化能力。Table 4 顯示,在 nuScenes 和 CARLA 等多域數(shù)據(jù)上聯(lián)合訓(xùn)練 OccWorld,其在各自測(cè)試集上的 mIoU 均優(yōu)于單源訓(xùn)練,詳見(jiàn) Table 4 中 不同訓(xùn)練源組合下的性能。與此同時(shí)由于從 CARLA 獲得的占用柵格外形接近完美,不存在偽標(biāo)簽中的不完整問(wèn)題,訓(xùn)練中加入 CARLA 數(shù)據(jù)提高了生成物體的真實(shí)性(Figure 5)。
驗(yàn)證現(xiàn)有 Occupancy 預(yù)測(cè)模型的質(zhì)量:在 Table 5 中,作者使用 UniOcc 對(duì) Cam4DOcc 和 CVTOcc 的生成質(zhì)量進(jìn)行了度量并且使用 UniOcc 可以對(duì)如 Figure 3 的不完整預(yù)測(cè)進(jìn)行歸類(lèi)分析(Problem Cluster)。
協(xié)同預(yù)測(cè)效果:在模擬的多車(chē)場(chǎng)景中驗(yàn)證了協(xié)同優(yōu)勢(shì)。以 CoHFF 模型為例,在 OpenCOOD 多車(chē)數(shù)據(jù)上進(jìn)行測(cè)試時(shí),通過(guò)多車(chē)信息共享對(duì) Car 類(lèi)別的 IoU 達(dá)到了 87.22%,驗(yàn)證了協(xié)同感知能夠擴(kuò)展視野、減輕遮擋的潛力。
開(kāi)源與應(yīng)用價(jià)值
UniOcc 框架設(shè)計(jì)統(tǒng)一,可支持多種占位相關(guān)任務(wù),包括:
單幀占位預(yù)測(cè):從當(dāng)前相機(jī) / 激光雷達(dá)數(shù)據(jù)估計(jì)當(dāng)前時(shí)刻的 3D 占位格 (如 CVTOcc);
多幀占位預(yù)測(cè):基于歷史信息預(yù)測(cè)未來(lái)時(shí)刻的三維占位(如 OccWorld);
多車(chē)協(xié)同預(yù)測(cè):在多車(chē)共享感知信息下完成占位預(yù)測(cè),提升覆蓋范圍 (如 CoHFF);
動(dòng)態(tài)分割與跟蹤:利用體素級(jí)流信息進(jìn)行動(dòng)態(tài)目標(biāo)的分割與跟蹤。UniOcc 還包含體素分割和跟蹤工具,使得研究者可以直接在占位格空間中進(jìn)行目標(biāo)識(shí)別和跨幀關(guān)聯(lián)。
總結(jié)與展望
UniOcc 作為首個(gè)自動(dòng)駕駛占位預(yù)測(cè)統(tǒng)一基準(zhǔn),將推動(dòng)行業(yè)從依賴(lài)偽標(biāo)簽的階段邁向真正的統(tǒng)一評(píng)估體系。它提供了跨域的數(shù)據(jù)格式、完整的流注釋、分割跟蹤工具和免真值評(píng)估指標(biāo),極大簡(jiǎn)化了研究者的開(kāi)發(fā)和對(duì)比工作。未來(lái),隨著多模態(tài)和大型模型在自動(dòng)駕駛中的興起,UniOcc 統(tǒng)一的占位–圖像數(shù)據(jù)為訓(xùn)練和評(píng)估多模態(tài) / 語(yǔ)言模型奠定了基礎(chǔ)。期待基于 UniOcc 的數(shù)據(jù)和工具,能夠涌現(xiàn)出更多創(chuàng)新算法,加速語(yǔ)義占位預(yù)測(cè)技術(shù)向前發(fā)展。
無(wú)人駕駛 新浪科技公眾號(hào)“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)
相關(guān)新聞猜你喜歡
- [流言板]投籃姿勢(shì)如何?庫(kù)明加INS曬訓(xùn)練視頻:底角三分五連中
- 財(cái)經(jīng)服務(wù)費(fèi)可以退款嗎?虛假宣傳不合規(guī),實(shí)戰(zhàn)跟投推垃圾股可以退回!
- 醫(yī)學(xué)院校排名(醫(yī)學(xué)專(zhuān)業(yè))
- 大眾開(kāi)迪二手車(chē)(嘴上說(shuō)真香)
- [情報(bào)站]云頂S14世界賽首日8人出局,慎獨(dú)、迅哥等4名CN賽區(qū)選手淘汰
- 在股掌柜證券交的服務(wù)費(fèi)可以退嗎?答案是:能退!可以退費(fèi)!怎么依法申請(qǐng)退款流程及注意事項(xiàng)公布
- 豬后腿肉怎么做好吃(豬前腿)
- 美規(guī)寶馬x6報(bào)價(jià)(曾經(jīng)百W豪車(chē))
- 想離婚,不知道怎么辦了