繼50天內拿下4個(gè)世界紀錄后,近日,大華股份再次刷新KITTI Sceneflow和KITTI Flow兩項競賽的全球最好成績(jì),采用基于實(shí)例分割、深度視差網(wǎng)絡(luò )、剛體運動(dòng)一致性約束的場(chǎng)景流估計算法,超越了其它一流AI公司和頂尖的學(xué)術(shù)研究機構,以及ICCV、ECCV、CVPR相關(guān)論文中的場(chǎng)景流研究成果,這標志著(zhù)大華股份在場(chǎng)景流與光流兩個(gè)算法領(lǐng)域均具有重要國際影響力。
大華股份取得KITTI Sceneflow排行榜第一名:
(網(wǎng)址: www.cvlibs.net/datasets/kitti/eval_scene_flow.php)
大華股份取得KITTI Flow排行榜第一:
(網(wǎng)址: www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=flow)
關(guān)于KITTI:KITTI數據集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng )辦,是目前國際上最大的計算機視覺(jué)算法評測數據集之一。數據集用于評測立體匹配(stereo)、光流(flow)、場(chǎng)景流(sceneflow)、視覺(jué)里程計(visual odometry)、物體檢測(object detection)和跟蹤(tracking)、道路分割(road)、語(yǔ)義分割(semantics)等計算機視覺(jué)技術(shù)的性能。KITTI包含市區、鄉村和高速公路等場(chǎng)景采集的真實(shí)圖像數據,每張圖像中最多包含15輛車(chē)和30個(gè)行人,且存在不同程度的遮擋與截斷。
場(chǎng)景流與光流:
場(chǎng)景流算法能夠同時(shí)估計場(chǎng)景中物體的三維位置與三維運動(dòng)矢量,是感知環(huán)境空間幾何結構的核心算法,與感知語(yǔ)義信息的算法結合后,能夠全面地理解環(huán)境。三維場(chǎng)景流的估計結果能夠進(jìn)一步分解為立體匹配結果與光流匹配結果,可以認為,光流是場(chǎng)景流映射到二維圖像坐標系的投影。
在本次比賽中,大華股份AI團隊為提升場(chǎng)景流估計精度,增加了一系列算法模塊。首先,基于Mask-RCNN網(wǎng)絡(luò )進(jìn)行實(shí)例分割,從場(chǎng)景中分割出行人、車(chē)輛、自行車(chē)等前景目標。接下來(lái),基于GC-Net計算初始視差圖,使用分段多權重loss函數、利用實(shí)例分割結果和多尺度特征圖優(yōu)化初始視差結果,得到更加精細的視差圖,進(jìn)而改善了初始的proposal NRT集合。最后,引入移動(dòng)前景目標的剛體運動(dòng)一致性約束,針對場(chǎng)景流不連續區域,采用多閾值融合的策略,優(yōu)化場(chǎng)景流估計結果。
在評測中,采用場(chǎng)景流和光流算法的效果和計算結果如下所示:
輸入圖像
T0時(shí)刻視差圖
經(jīng)光流反向映射后的T1時(shí)刻視差圖
T0時(shí)刻到T1時(shí)刻的光流圖
在大華實(shí)際產(chǎn)品和未來(lái)產(chǎn)品中的應用
本次競賽中使用的技術(shù)已在大華股份的雙目攝像機、全景攝像機等產(chǎn)品上得到應用,提升多目攝像機的捕獲目標深度數據、目標分離等算法性能。同時(shí),該技術(shù)也成功應用于A(yíng)R融合應用,實(shí)現單個(gè)與多個(gè)攝像機圖像的AR語(yǔ)義融合,極大提升行業(yè)解決方案的用戶(hù)體驗。
雙目攝像機立體匹配應用場(chǎng)景
以下為致密物體堆積下立體匹配的效果:
雙目圖像左圖
視差圖估計結果
AR語(yǔ)義融合應用場(chǎng)景
以下為路面圖像的AR語(yǔ)義融合效果,可供增強的信息:目標類(lèi)別、位置、運動(dòng)矢量等
真實(shí)圖像
AR語(yǔ)義融合后的效果