阿里云ET城市大腦所要解決的世界級難題,正在催生出一系列世界級的技術。1月8日,全球權威機器視覺算法排行榜KITTI刷新了排名,阿里巴巴人工智能研究機構iDST奪得行人檢測單項冠軍。于此同時,在知名的行人再識別數據集Market1501中,他們也取得重大突破,首位命中率提升至96.17%,位居世界第一。
行人檢測、行人再識別是交通管理、城市平安、無人駕駛等領域的兩項核心基礎技術。
行人檢測要求機器能夠從圖像或者視頻中判斷是否有行人,行人在哪里;行人再識別則要求機器能夠識別出特定人員在不同攝像頭下出現的所有圖像。在景區(qū)商場人流預測、人群個性化分析、行人交通安全、無人駕駛、尋找丟失老人兒童等應用上,這兩項技術可以發(fā)揮巨大的作用。
這并非簡單的人臉識別。阿里巴巴iDST副院長、IEEE Fellow華先勝說,在實際的城市場景下,大多數攝像頭拍攝到的圖像看不清人臉,但通過行人的整體和局部特征則可實現人員的識別。然而,實際場景中遮擋、光照、拍攝角度、拍攝距離、人物姿態(tài)等因素的變化,以及攝像頭設備的不同,對行人檢測和行人再識別的準確性提出了極大的挑戰(zhàn)。
為了解決這一難題,華先勝領導的機器視覺團隊采用了多項技術創(chuàng)新:
在行人檢測技術方面,他們提出了基于目標尺寸分級的級聯(lián)網絡,并充分發(fā)揮感興趣區(qū)域的上下文信息,提升網絡特征提取的能力,以解決行人檢測問題中存在的目標尺寸浮動大、遮擋、形變且定位不準等問題;與此同時在目標定位方面采用交叉熵正則約束來優(yōu)化邊框定位準確度。
在行人再識別方面,他們不僅利用最新的深度學習技術提取行人的全局特征,還提出了超分辨率模塊和深度注意力網絡來獲得頭部、軀干、四肢、攜帶物等局部細節(jié)特征,并提出了融合粗粒度全局特征和細粒度局部特征的新方法,進一步提高了跨攝像頭場景下行人表征的一致性和行人再識別的準確性。
除了行人檢測、行人識別之外,iDST還長期占據著KITTI的車輛檢測世界冠軍,他們在計算機視覺國際頂級期刊和會議TIP、ACM MM等發(fā)表多篇論文,與世界分享中國技術。
目前,這些技術已經全部集成到阿里云ET城市大腦當中,并在多地落地使用。華先勝說,“正如60年代的登月計劃帶來了通訊技術、生物工程技術大爆發(fā)一樣,城市大腦已經成為世界頂尖的科技創(chuàng)新的平臺,前所未有的難題倒逼科學家們創(chuàng)造前所未有的技術”。不久前,城市大腦正式成為國家四大人工智能開放創(chuàng)新平臺之一,未來將吸引全球頂尖的研究機構共同參與創(chuàng)新。
據了解,阿里云ET城市大腦已經在杭州、蘇州、衢州、烏鎮(zhèn)等地落地。得益于精良的機器視覺算法,杭州城市大腦可以做到準確偵測、發(fā)現交通事故,日均事件報警500次以上,準確率達92%。
掃一掃在手機上閱讀本文章