91情侣在线国产性色色婷婷久,AV福利在线观看

10月21日，中國(guó)智慧交通管理聯(lián)盟第五次年會(huì)-交通管理大數(shù)據(jù)技術(shù)應(yīng)用論壇在線上舉行，公安部交通管理科學(xué)研究所五部副主任黃淑兵就《低價(jià)值密度下公安交管大數(shù)據(jù)應(yīng)用實(shí)踐》進(jìn)行分享，本文為演講速記，未經(jīng)本人審核。

黃淑兵：大家好，今天我給大家匯報(bào)的主題是低價(jià)值密度下公安交管大數(shù)據(jù)的應(yīng)用實(shí)踐，大家看到題目可能會(huì)有一個(gè)疑問(wèn)，什么樣的交管數(shù)據(jù)價(jià)值密度比較低。今天分享的交管大數(shù)據(jù)價(jià)值，是指在大數(shù)據(jù)業(yè)務(wù)應(yīng)用中可以發(fā)揮的作用。

大數(shù)據(jù)的5V特征

有說(shuō)是四維特征，有說(shuō)是五維特征，實(shí)際上大同小異了。大數(shù)據(jù)的第一個(gè)特征，數(shù)據(jù)量非常龐大？那么大到什么樣的程度才算大呢？一般來(lái)說(shuō)是要達(dá)到Pb級(jí)量級(jí)才能認(rèn)為是大數(shù)據(jù)。從嚴(yán)格意義上來(lái)說(shuō)，機(jī)動(dòng)車(chē)駕駛員靜態(tài)數(shù)據(jù)還不能算是大數(shù)據(jù)，不能說(shuō)是嚴(yán)格意義上的大數(shù)據(jù)，今天主要匯報(bào)的內(nèi)容是公安交管集成指揮平臺(tái)，通過(guò)路面前端卡口設(shè)備采集到機(jī)動(dòng)車(chē)通行軌跡數(shù)據(jù)，這個(gè)數(shù)據(jù)量非常龐大。目前我們匯聚的數(shù)據(jù)量已經(jīng)達(dá)到了萬(wàn)億級(jí)別，每天的增量大概是12.5億左右，毫無(wú)疑問(wèn)，這是一個(gè)龐大的數(shù)據(jù)量。

大數(shù)據(jù)的第二個(gè)特征是價(jià)值特征，就是說(shuō)價(jià)值非常龐大，是針對(duì)于總體價(jià)值來(lái)說(shuō)的。還有一種說(shuō)法說(shuō)是大數(shù)據(jù)的價(jià)值密度實(shí)際比較低，數(shù)據(jù)量非常龐大，但單條數(shù)據(jù)價(jià)值相對(duì)比較低的。一個(gè)說(shuō)大，一個(gè)說(shuō)低，實(shí)際上并不矛盾，一個(gè)是從總體出發(fā)，一個(gè)是從單條數(shù)據(jù)可以發(fā)揮的作用而言，大家關(guān)注的點(diǎn)不一樣?，F(xiàn)在，大數(shù)據(jù)發(fā)展應(yīng)用到一定階段以后，又開(kāi)始考慮大數(shù)據(jù)到底能夠發(fā)揮多大的作用？數(shù)據(jù)價(jià)值到底能到一個(gè)什么樣的程度？

交管大數(shù)據(jù)的價(jià)值密度低體現(xiàn)在哪里

有很多因素。

首先從數(shù)據(jù)質(zhì)量的角度出發(fā)，交管大數(shù)據(jù)是指通過(guò)道路上各種交管設(shè)備傳感器采集到的數(shù)據(jù)，數(shù)據(jù)質(zhì)量并不高。根據(jù)《道路車(chē)輛智能監(jiān)測(cè)記錄系統(tǒng)通用技術(shù)條件》標(biāo)準(zhǔn)提出的車(chē)牌識(shí)別準(zhǔn)確率要求，白天識(shí)別準(zhǔn)確率不能低于95%，夜間識(shí)別準(zhǔn)確率不能低于90%。一般情況下，產(chǎn)品檢測(cè)時(shí)是按照理想的光線和跟車(chē)環(huán)境來(lái)做檢測(cè)，成像的角度數(shù)，圖片的清晰度，包括測(cè)試場(chǎng)景都比較單一，測(cè)試的時(shí)候產(chǎn)品能達(dá)到這兩個(gè)指標(biāo)，問(wèn)題不大。

但實(shí)際上卡口是安裝在路面上，識(shí)別就有些問(wèn)題。比如像首漢字的識(shí)別，很多設(shè)備的首漢字識(shí)別錯(cuò)誤的現(xiàn)象還是比較嚴(yán)重，比如像“湘”很容易被識(shí)別成“浙”和“冀”，比較容易混淆。包括一些非均衡的號(hào)牌，經(jīng)常會(huì)被誤識(shí)別，甚至有些車(chē)的車(chē)身廣告數(shù)字和條紋，都會(huì)被誤識(shí)別成車(chē)牌。還有一些容易混淆的字母或數(shù)字，比如像D和Q很容易會(huì)被識(shí)別成0，P容易被識(shí)別成F等?；谀壳暗臄?shù)據(jù)情況，其實(shí)卡口設(shè)備的識(shí)別準(zhǔn)確率在實(shí)際環(huán)境中是比較低的，識(shí)別準(zhǔn)確率低，也就意味著采集的數(shù)據(jù)跟實(shí)際情況不相符合。

前一段時(shí)間，我們選取了條件比較好的高速公路路段上功能相對(duì)單一的、拍攝單個(gè)車(chē)道的卡口所采集到的、能識(shí)別車(chē)牌的圖片進(jìn)行分析，發(fā)現(xiàn)大車(chē)的車(chē)牌識(shí)別準(zhǔn)確率目前只有80%，小車(chē)的識(shí)別準(zhǔn)確率是87%。表面上看起來(lái)距離行業(yè)標(biāo)準(zhǔn)比較接近了，但這只是已經(jīng)抓拍和識(shí)別后的車(chē)牌分析，還有大量未被識(shí)別、無(wú)號(hào)牌的抓拍圖片，也還不包括未被卡口抓拍到的車(chē)輛。也就是說(shuō)，目前卡口的車(chē)牌抓拍識(shí)別率實(shí)際上不足70%。曾經(jīng)我們拿過(guò)卡口抓拍到的車(chē)牌數(shù)據(jù)，跟交通運(yùn)輸部重點(diǎn)營(yíng)運(yùn)車(chē)輛聯(lián)網(wǎng)聯(lián)控系統(tǒng)平臺(tái)的GPS車(chē)輛軌跡數(shù)據(jù)做了一個(gè)碰撞分析，但兩邊數(shù)據(jù)能重合的，大概也就百分之五六十左右。也就是說(shuō)，盡管我們現(xiàn)在擁有了上萬(wàn)億條的卡口數(shù)據(jù)，但只有70%不到的數(shù)據(jù)是準(zhǔn)確的，還有1/3左右的數(shù)據(jù)不可識(shí)別或者識(shí)別錯(cuò)誤，這會(huì)帶來(lái)什么影響？

舉一個(gè)簡(jiǎn)單的例子，比如這個(gè)模型是一個(gè)我們用來(lái)分析從事非法營(yíng)運(yùn)車(chē)車(chē)輛的模型，模型比較理想，也能夠發(fā)揮一些作用。

模型的原理比較簡(jiǎn)單，頻繁往返于機(jī)場(chǎng)、客運(yùn)車(chē)站等場(chǎng)所的車(chē)輛，比如面包車(chē)、小客車(chē)等不具備營(yíng)運(yùn)資格的車(chē)輛，就可以被預(yù)警為疑似非法營(yíng)運(yùn)車(chē)輛。在理想的數(shù)據(jù)情況下，只要是從事非法營(yíng)運(yùn)車(chē)輛的嫌疑車(chē)輛，基本都能被發(fā)現(xiàn)。但在實(shí)際應(yīng)用中出現(xiàn)了一些問(wèn)題。比如真正從事非法營(yíng)運(yùn)車(chē)輛的車(chē)輛號(hào)牌根本就沒(méi)有被識(shí)別到或者識(shí)別錯(cuò)誤，系統(tǒng)無(wú)法識(shí)別也就無(wú)法預(yù)警，就會(huì)出現(xiàn)漏報(bào)。還有將具備資質(zhì)的營(yíng)運(yùn)車(chē)輛識(shí)別成其他車(chē)輛的號(hào)牌，系統(tǒng)分析就會(huì)造成誤報(bào)。不管是哪種情形，這兩種情況都會(huì)對(duì)實(shí)際應(yīng)用造成較大影響。

第二個(gè)價(jià)值密度低的表現(xiàn)是覆蓋面不均衡不完整。

現(xiàn)在全國(guó)所有卡口都要求接入到公安部交通管理集成指揮平臺(tái)里，實(shí)際上還有大量的卡口還沒(méi)有接進(jìn)，因此就導(dǎo)致數(shù)據(jù)覆蓋不全。另外，道路上的卡口設(shè)備沒(méi)有達(dá)到路段100%覆蓋。

數(shù)據(jù)覆蓋不全，就可能導(dǎo)致分析結(jié)果的偏差。比如說(shuō)分析某高速公路的車(chē)流量什么時(shí)候最大，什么時(shí)候最小，什么時(shí)候哪些路段車(chē)流量最大。若是路段中間卡口設(shè)備空缺，不管怎么分析，都會(huì)出現(xiàn)錯(cuò)誤。

根據(jù)《2020年加強(qiáng)重要點(diǎn)位交通監(jiān)控設(shè)備聯(lián)網(wǎng)接入和運(yùn)維管理工作方案》要求年底前，國(guó)家高速公路服務(wù)區(qū)、收費(fèi)站卡口聯(lián)網(wǎng)率達(dá)到60%以上。但到目前為止，高速公路服務(wù)區(qū)的卡口聯(lián)網(wǎng)率只有43%，收費(fèi)站的卡口聯(lián)網(wǎng)率更低，只有21%。當(dāng)然這里有很多的因素，設(shè)備不是交管部門(mén)建和用，采用交通運(yùn)輸部的設(shè)備可能通訊協(xié)議和數(shù)據(jù)格式，和交管部門(mén)可能會(huì)有差異，這些設(shè)備就沒(méi)有被接進(jìn)來(lái)。有些服務(wù)區(qū)，可能根本就沒(méi)安裝卡口，這樣就做不到全覆蓋。

如果做不到全覆蓋，對(duì)大數(shù)據(jù)分析有什么影響？可以看一下比較典型的專(zhuān)項(xiàng)大數(shù)據(jù)案例。很多時(shí)候我們拿大數(shù)據(jù)和傳統(tǒng)的民警經(jīng)驗(yàn)來(lái)做比較，比如以往要組織一些專(zhuān)項(xiàng)行動(dòng)，更多靠一些老民警的經(jīng)驗(yàn)來(lái)實(shí)現(xiàn)，有了大數(shù)據(jù)以后，就可以依靠數(shù)據(jù)來(lái)實(shí)現(xiàn)輔助決策。

舉個(gè)例子。我們通過(guò)卡口識(shí)別車(chē)牌，通過(guò)車(chē)牌信息在車(chē)駕管數(shù)據(jù)中了解到車(chē)輛基本信息，包括車(chē)輛類(lèi)型，年限，荷載人數(shù)或者噸數(shù)等，這是單條數(shù)據(jù)。積累了一定量的數(shù)據(jù)以后，就能夠分析出來(lái)在哪些道路、哪些時(shí)段上，到了報(bào)廢期限仍上路的大貨車(chē)比較多，從而有助于決策，是否開(kāi)展一次針對(duì)于大貨車(chē)逾期未報(bào)廢的專(zhuān)項(xiàng)整治行動(dòng)？

專(zhuān)項(xiàng)行動(dòng)有沒(méi)有取得效果，也是根據(jù)大數(shù)據(jù)的分析和運(yùn)算來(lái)復(fù)盤(pán)，如果逾期沒(méi)報(bào)廢的車(chē)輛確實(shí)減少了，專(zhuān)項(xiàng)行動(dòng)就可以結(jié)束了，而不像以前沒(méi)有數(shù)據(jù)支撐，不知道要開(kāi)展幾次專(zhuān)項(xiàng)行動(dòng)執(zhí)法，才有效果，只能固定排班，浪費(fèi)警力。但如果某一條路沒(méi)有一個(gè)卡口接進(jìn)來(lái)，數(shù)據(jù)分析就不完整，有可能這條路上逾期未報(bào)廢卻上路通行的車(chē)輛最多。

所以如果數(shù)據(jù)不全面，就很可能做出誤導(dǎo)性的決策。雖然模型很好，但實(shí)際上因?yàn)閿?shù)據(jù)沒(méi)有做到全覆蓋，數(shù)據(jù)分析結(jié)果就出現(xiàn)問(wèn)題。為什么會(huì)出現(xiàn)這樣的情況？我們也簡(jiǎn)單做了分析，從技術(shù)層面來(lái)說(shuō)，現(xiàn)在公安交通集成指揮平臺(tái)接入的卡口設(shè)備，大概有5.1萬(wàn)套是三年前備案，此外，即便是三年前備案接入，設(shè)備實(shí)際的建設(shè)應(yīng)用可能更早，早期設(shè)備的技術(shù)條件還沒(méi)有目前這么先進(jìn)，當(dāng)時(shí)用的識(shí)別技術(shù)、算法跟目前的技術(shù)完全不是一回事。

這些卡口的成像條件也沒(méi)有現(xiàn)在這么好，因而可能造成識(shí)別錯(cuò)誤。比如這張抓拍圖片，車(chē)身上噴涂的順豐快遞專(zhuān)用服務(wù)電話號(hào)碼比車(chē)牌本身要清晰，正好也是5個(gè)數(shù)字，卡口就容易將這個(gè)電話號(hào)碼識(shí)別成號(hào)牌。比如這種農(nóng)用車(chē)，因?yàn)闃颖緮?shù)據(jù)少，更多的被識(shí)別成小型汽車(chē)。比如這兩年開(kāi)始規(guī)模上路的新能源車(chē)輛，不少卡口在安裝時(shí)，還沒(méi)有新能源號(hào)牌，也就不具備識(shí)別的能力，很多前端設(shè)備又沒(méi)有及時(shí)的升級(jí)，沒(méi)有更新識(shí)別算法，因此這些新能源號(hào)牌通過(guò)此類(lèi)卡口后，基本上車(chē)牌數(shù)字會(huì)少一位。

還有很多摩托車(chē)和電動(dòng)自行車(chē)卡口基本識(shí)別不了，甚至有些摩托車(chē)和非機(jī)動(dòng)車(chē)抓拍照片壓根就沒(méi)有傳到公安交通集成指揮平臺(tái)里面去，這樣就會(huì)造成很多數(shù)據(jù)的錯(cuò)誤和缺失。

從管理角度來(lái)看，還有很多卡口位置的地圖標(biāo)注存在問(wèn)題。因?yàn)楹芏嗄Ｐ蜁?huì)根據(jù)兩個(gè)卡口設(shè)備間距離，從而推算出車(chē)輛通行的速度。但這些卡口位置的地圖標(biāo)注都是人工標(biāo)注的，人工標(biāo)注就可能存在誤差。比如有相當(dāng)一部分設(shè)備，根本沒(méi)有標(biāo)注在路上，甚至標(biāo)到了河流、湖泊、山脈上。還有一些比較難以發(fā)現(xiàn)，比如城區(qū)一個(gè)卡口被標(biāo)注到城際公路上，也就是位置錯(cuò)標(biāo)。這樣的數(shù)據(jù)，如果拿過(guò)來(lái)做數(shù)據(jù)分析，輸入業(yè)務(wù)模型，就會(huì)存在問(wèn)題，也就不能得到一個(gè)有效的價(jià)值信息。

還有，對(duì)前端設(shè)備的運(yùn)維，可能也沒(méi)做到位。比如被樹(shù)葉被遮擋，強(qiáng)烈反光，補(bǔ)光不足，以及設(shè)備安裝角度出現(xiàn)偏差，就沒(méi)辦法較好的采集到車(chē)牌數(shù)據(jù)并識(shí)別。

價(jià)值密度低的影響

通過(guò)前面的分析，可以看出目前公安交管大數(shù)據(jù)主要還是通過(guò)車(chē)輛軌跡數(shù)據(jù)實(shí)現(xiàn)各種目標(biāo)。數(shù)據(jù)質(zhì)量不高會(huì)帶來(lái)什么影響？目前的算法、技術(shù)走到了前面，即便數(shù)據(jù)存在問(wèn)題，但業(yè)務(wù)模型仍可以產(chǎn)生一些效果。技術(shù)解決了能不能的問(wèn)題，后面能不能用好，就依賴(lài)于基礎(chǔ)的數(shù)據(jù)質(zhì)量。也就是說(shuō)，現(xiàn)在解決了從0到1，下面就是如何從1走到100。

要實(shí)現(xiàn)這個(gè)目標(biāo)，要解決兩個(gè)問(wèn)題。

有兩個(gè)很大的問(wèn)題需要去解決。

第一個(gè)鴻溝，技術(shù)和業(yè)務(wù)的鴻溝，技術(shù)是為業(yè)務(wù)服務(wù)的，技術(shù)能不能用于業(yè)務(wù)，中間有一個(gè)很大的跨度需要去通過(guò)。舉一個(gè)簡(jiǎn)單的例子，我們的技術(shù)指標(biāo)可以達(dá)到很高，通過(guò)各種算法的一個(gè)訓(xùn)練優(yōu)化，使準(zhǔn)確率達(dá)到99%。比如說(shuō)套牌車(chē)的識(shí)別，套牌車(chē)是怎么識(shí)別的呢？就是通過(guò)卡口電警等設(shè)備識(shí)別出車(chē)牌后，再將車(chē)輛特征與車(chē)駕管的登記數(shù)據(jù)進(jìn)行核對(duì)，不符合的極可能是套牌車(chē)。假設(shè)一個(gè)城市里套牌車(chē)的比例是萬(wàn)分之五，10萬(wàn)輛車(chē)?yán)锟赡苡?輛套牌車(chē)，但識(shí)別準(zhǔn)確率是99%，那可能1萬(wàn)輛車(chē)?yán)锩嬗?00輛被識(shí)別出疑似套牌，但真正的套牌車(chē)實(shí)際上只有5輛。所以，即便準(zhǔn)確率達(dá)到了99%，但對(duì)于應(yīng)用人員來(lái)說(shuō)，能發(fā)現(xiàn)套牌車(chē)的準(zhǔn)確率只有5%。目前技術(shù)手段雖然已經(jīng)很成熟，但要真正的投入業(yè)務(wù)應(yīng)用，還有很多功課要做。

第二個(gè)鴻溝就是理論和實(shí)際的鴻溝。理論上模型很完美，但實(shí)際應(yīng)用時(shí)，又會(huì)發(fā)現(xiàn)各種各樣的問(wèn)題。簡(jiǎn)單舉兩個(gè)例子，比如車(chē)輛限尾號(hào)通行，怎樣科學(xué)合理的制定限行政策和措施，要不要限行？什么時(shí)段限行？應(yīng)該限哪些車(chē)？目前多是組織去北京上海深圳杭州廣州等地考察一下，但實(shí)際上不同城市的交通流車(chē)輛類(lèi)型和通行規(guī)律，是不同的，借鑒作用有限。

若是通過(guò)數(shù)據(jù)來(lái)，比如說(shuō)通過(guò)這個(gè)城市的卡口采集了很多數(shù)據(jù)，通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)車(chē)流量在什么時(shí)段最大，由哪些類(lèi)型的車(chē)輛組成，本地車(chē)和外牌車(chē)各有多少，哪些是長(zhǎng)期行駛，哪些是短期通行，哪些車(chē)輛通勤距離很長(zhǎng)，哪些很短？通過(guò)數(shù)據(jù)的預(yù)演推算，就可以模擬制定出一套比較合理的限行政策。

之前我們經(jīng)常會(huì)拿這個(gè)來(lái)舉例，但發(fā)現(xiàn)很少有地方拿這個(gè)數(shù)據(jù)來(lái)作為決策依據(jù)。理論上是可行的，但目前的數(shù)據(jù)質(zhì)量，包括準(zhǔn)確率、覆蓋面都還達(dá)不到實(shí)際應(yīng)用的要求。如果數(shù)據(jù)質(zhì)量不高，反過(guò)來(lái)還會(huì)產(chǎn)生負(fù)面的影響。

再舉個(gè)例子?，F(xiàn)在有很多地方在提，根據(jù)卡口采集的車(chē)輛通行軌跡特征對(duì)城市出行做一個(gè)畫(huà)像。包括車(chē)輛基本信息，每天什么時(shí)間出行，通行距離多少，通行強(qiáng)度是多少……但多停在理論階段，因?yàn)槟軌驖M足出行畫(huà)像要求的車(chē)輛，可能只有10%左右。因?yàn)楹芏嘬?chē)采集到的軌跡數(shù)據(jù)很少，如果只有幾條或者十幾條軌跡數(shù)量，就達(dá)不到畫(huà)像的要求。即便數(shù)據(jù)量達(dá)到了一定的要求，但因?yàn)閿?shù)據(jù)質(zhì)量比較低，對(duì)該車(chē)輛的出行畫(huà)像準(zhǔn)確性，也沒(méi)有辦法驗(yàn)證。

可以簡(jiǎn)單的總結(jié)一下，目前大數(shù)據(jù)處理分析技術(shù)已經(jīng)非常成熟，但是交管大數(shù)據(jù)的應(yīng)用還遠(yuǎn)遠(yuǎn)沒(méi)有跟上。技術(shù)的研究發(fā)展和推進(jìn)，主要由一些企業(yè)和高校在研究，技術(shù)上沒(méi)有問(wèn)題。但在應(yīng)用的過(guò)程中，就涉及到真正的數(shù)據(jù)應(yīng)用。

一般一些模型訓(xùn)練的數(shù)據(jù)量比較少，很多的數(shù)據(jù)還是模擬的。有些地方為了避免模擬數(shù)據(jù)帶來(lái)的問(wèn)題，會(huì)挑一些城市的真實(shí)數(shù)據(jù)輸入，但即便是真實(shí)的數(shù)據(jù)，也不能代表全國(guó)的城市。

所以說(shuō)，在理想的數(shù)據(jù)環(huán)境下，模型已經(jīng)很成熟，沒(méi)有問(wèn)題，但投入到應(yīng)用后，你就發(fā)現(xiàn)不同城市的情況是不一樣的。前一段時(shí)間我們也在調(diào)研，發(fā)現(xiàn)很多地方都上了很多大數(shù)據(jù)應(yīng)用模型，也確實(shí)收集了很多的數(shù)據(jù)，但這些模型真正應(yīng)用上，還是很少。

沒(méi)有常態(tài)化的應(yīng)用，主要還是因?yàn)閮蓚€(gè)鴻溝，一個(gè)是技術(shù)和業(yè)務(wù)的的鴻溝，一個(gè)是理論和實(shí)際的鴻溝。

低密度價(jià)值下大數(shù)據(jù)應(yīng)用常用方法

今天匯報(bào)的主要內(nèi)容，就是如何在現(xiàn)有情況下，來(lái)更好的實(shí)現(xiàn)交管大數(shù)據(jù)應(yīng)用。

先回顧一下標(biāo)準(zhǔn)的大數(shù)據(jù)處理流程，一般通過(guò)幾個(gè)步驟，先是采集數(shù)據(jù)，采集完后是數(shù)據(jù)清洗，清洗完后再對(duì)數(shù)據(jù)做分析和挖掘，最后對(duì)數(shù)據(jù)分析挖掘的結(jié)果做應(yīng)用。

但根據(jù)我們長(zhǎng)時(shí)間的經(jīng)驗(yàn)發(fā)現(xiàn)，數(shù)據(jù)清洗不是一個(gè)預(yù)制的動(dòng)作，而是一個(gè)從前到后由始至終都需要的操作，就是說(shuō)在數(shù)據(jù)采集過(guò)程中需要清洗數(shù)據(jù)，數(shù)據(jù)分析挖掘時(shí)也要清洗數(shù)據(jù)，甚至最后的應(yīng)用過(guò)程中，還是需要清洗數(shù)據(jù)。目前數(shù)據(jù)質(zhì)量就擺在面前，整個(gè)應(yīng)用過(guò)程都離不開(kāi)數(shù)據(jù)的清洗和數(shù)據(jù)的處理。

數(shù)據(jù)清洗和處理有哪些方法？簡(jiǎn)單列了幾個(gè)，和大家分享一下。

第一種方法是二次加工，2014年我們就開(kāi)始做。通過(guò)二次識(shí)別以后，識(shí)別的結(jié)果再跟卡口所采集數(shù)據(jù)做一個(gè)比較，如果結(jié)果是一致的，就可認(rèn)為數(shù)據(jù)是可用的。

如果對(duì)比對(duì)結(jié)果不滿，再來(lái)一個(gè)二次識(shí)別，因?yàn)槎巫R(shí)別的算法可以有多種不同的算法，采用不同的算法交叉驗(yàn)證，驗(yàn)證完以后，將可信度更高的數(shù)據(jù)拉入后續(xù)應(yīng)用。二次加工方法也不是一個(gè)單獨(dú)的應(yīng)用，可能會(huì)跟其他的數(shù)據(jù)加工方法結(jié)合在一起，也不是說(shuō)在每個(gè)環(huán)節(jié)都適合。二次識(shí)別需要對(duì)圖片做特征的提取，算力消耗比較大，時(shí)間也相對(duì)較長(zhǎng)。所以這個(gè)過(guò)程一般不會(huì)放在第一環(huán)節(jié)，第一環(huán)節(jié)經(jīng)過(guò)初步的加工初篩以后，得到一個(gè)數(shù)據(jù)量比較小的數(shù)據(jù)集以后，再采取二次加工的方式。

二次識(shí)別除對(duì)機(jī)動(dòng)車(chē)號(hào)牌進(jìn)行識(shí)別以外，還可以對(duì)駕駛?cè)俗龆巫R(shí)別。很多模型里面會(huì)對(duì)同一路程中，駕駛員是否同一個(gè)人進(jìn)行識(shí)別，非機(jī)動(dòng)車(chē)駕駛員是否戴了頭盔等進(jìn)行識(shí)別，并不要很精確。當(dāng)然有些緝查需要知曉駕駛員身份，包括身份證號(hào)碼、駕駛證信息等。

怎么判斷一個(gè)車(chē)底有沒(méi)有更換駕駛員，主要應(yīng)用場(chǎng)景是大客車(chē)和重載貨車(chē)，一是是否符合準(zhǔn)駕資格，二是是否有疲勞駕駛的嫌疑。通過(guò)大數(shù)據(jù)分析得出嫌疑車(chē)輛，如何確定到底有沒(méi)有換駕駛員？只要把主駕駛和副駕駛兩人的特征來(lái)提取出來(lái)，再交叉驗(yàn)證一下，兩人有沒(méi)有換座位，主駕駛位上是不是同一個(gè)人就可以了，并不需要知道駕駛員是誰(shuí)，甚至都不需要人臉信息，只要提取大概特征，比如對(duì)衣服樣式和顏色進(jìn)行提取然后分析。

第二個(gè)方法是叫條件過(guò)濾。

這可能是在大數(shù)據(jù)處理中最常用的一個(gè)方法，例子也可多舉幾個(gè)。第一個(gè)是城市套牌車(chē)分析，原理也比較簡(jiǎn)單，同一個(gè)號(hào)牌的兩輛車(chē)，不大可能再一個(gè)很短的時(shí)間內(nèi)，出現(xiàn)在兩個(gè)不同的地方。如果出現(xiàn)，某一輛車(chē)可能套牌嫌疑車(chē)。原理比較簡(jiǎn)單。很早以前就提出來(lái)了，但當(dāng)時(shí)數(shù)據(jù)的處理能力還不夠，還是比較難實(shí)現(xiàn)，但現(xiàn)在有了大數(shù)據(jù)技術(shù)以后，很容易就能實(shí)現(xiàn)。

但在應(yīng)用的過(guò)程當(dāng)中也發(fā)現(xiàn)了問(wèn)題，比如原始數(shù)據(jù)中2100個(gè)卡口，7天的抓拍圖像數(shù)據(jù)總量匯集達(dá)到了1.66個(gè)億車(chē)輛數(shù)據(jù)。

對(duì)這些數(shù)據(jù)輸入模型然后運(yùn)算，結(jié)果是有46.9萬(wàn)對(duì)的嫌疑車(chē)同時(shí)出現(xiàn)了兩地。用常識(shí)想也知道，不可能有46.9萬(wàn)套牌車(chē)，為什么會(huì)出現(xiàn)這樣的數(shù)據(jù)結(jié)果？主要還是因?yàn)閿?shù)據(jù)質(zhì)量。比如如何界定異地，首先會(huì)用到兩個(gè)卡口之間的位置。如果本來(lái)兩個(gè)卡口距離很遠(yuǎn)，但被人為的標(biāo)注到比較近，抓取車(chē)牌后也就可能被認(rèn)為是套牌嫌疑車(chē)。此外就是號(hào)牌識(shí)別錯(cuò)誤。比如一個(gè)是Q一個(gè)是0，但都被識(shí)別成0，也會(huì)被認(rèn)為是同一個(gè)號(hào)牌。怎么辦？

所以要用條件過(guò)濾，比如剛提到的同一個(gè)卡口，本來(lái)是距離很遠(yuǎn)，誤標(biāo)注到一起以后就被認(rèn)為是嫌疑套牌車(chē)。怎么過(guò)濾呢？就把符合這樣條件的卡口所采集到的數(shù)據(jù)，全去掉。通過(guò)篩選以后就剩下2萬(wàn)對(duì)嫌疑車(chē)，基本比較接近實(shí)際情況，但還是有號(hào)牌識(shí)別錯(cuò)誤的情況。

號(hào)牌識(shí)別錯(cuò)誤怎么解決？前面也說(shuō)了，可以通過(guò)二次加工對(duì)吧？采用另一種算法二次識(shí)別一下，這樣的數(shù)據(jù)才認(rèn)為是嫌疑套牌車(chē)的數(shù)據(jù)。通過(guò)二次識(shí)別后，剩下2000多對(duì)車(chē)有套牌嫌疑。

第二個(gè)例子是黑校車(chē)識(shí)別。原理也不復(fù)雜，就是篩選出那些在上學(xué)、放學(xué)時(shí)段，經(jīng)常在學(xué)校附近出現(xiàn)但平時(shí)又不出現(xiàn)的面包車(chē)。通過(guò)大數(shù)據(jù)運(yùn)算以后，確實(shí)能夠篩選出符合這樣特征的車(chē)輛。

當(dāng)然同樣我們也發(fā)現(xiàn)有些車(chē)輛并不是面包車(chē)，只是因?yàn)樘?hào)牌識(shí)別錯(cuò)誤，被錯(cuò)認(rèn)為是面包車(chē)，這時(shí)同樣可以增加圖片二次加工環(huán)節(jié)，來(lái)過(guò)濾數(shù)據(jù)。

此外，黑校車(chē)一般會(huì)在車(chē)廂內(nèi)塞很多學(xué)生，可能存在某幾輛面包車(chē)每天給學(xué)校去送貨，也會(huì)每天在這個(gè)時(shí)段出現(xiàn)，這時(shí)候再加一個(gè)前排人臉識(shí)別，只要識(shí)別出車(chē)前排坐了幾個(gè)人。通過(guò)二次加工以后，就能初步判斷是否有非法營(yíng)運(yùn)的嫌疑。除此之外，通過(guò)長(zhǎng)期跟蹤發(fā)現(xiàn)，有一些車(chē)輛也會(huì)被誤識(shí)別，比如一些學(xué)校周邊的家庭，有兩個(gè)小孩，每天送小孩上學(xué)放學(xué)，這也要用到一個(gè)過(guò)濾，比如說(shuō)一些白名單的集合，在分析的結(jié)果中剔除。

還有一些其他的過(guò)濾方法，比如像按軌跡次數(shù)過(guò)濾，軌跡天數(shù)過(guò)濾等。前面說(shuō)到對(duì)車(chē)輛出行進(jìn)行畫(huà)像，首先軌跡的數(shù)量要達(dá)到一定的數(shù)量值。比如可以設(shè)定一個(gè)閥值，出行軌跡條數(shù)一定要超過(guò)多少條，一個(gè)月內(nèi)通行天數(shù)要超過(guò)多少天，符合這樣條件的，才給車(chē)輛去做出行畫(huà)像，這也是條件過(guò)濾。

第三個(gè)方法是多元數(shù)據(jù)的融合。

用一維的數(shù)據(jù)來(lái)分析，也沒(méi)有辦法確定分析結(jié)果的準(zhǔn)確性，也沒(méi)有辦法去過(guò)濾，但可以通過(guò)另外的數(shù)據(jù)來(lái)跟現(xiàn)有的數(shù)據(jù)做交叉融合，驗(yàn)證之后來(lái)確定結(jié)果的準(zhǔn)確性。

比如疲勞駕駛的數(shù)據(jù)分析。此前是通過(guò)車(chē)輛的定位軌跡數(shù)據(jù)，連續(xù)行駛4個(gè)小時(shí)以上就認(rèn)為存在疲勞駕駛的嫌疑，但模型也是比較簡(jiǎn)單、理想，在運(yùn)用的過(guò)程當(dāng)中就發(fā)現(xiàn)很多問(wèn)題，比如有些車(chē)輛沒(méi)有正常開(kāi)啟GPS裝置，或者上傳偽造的定位數(shù)據(jù)，這些車(chē)輛即便有疲勞駕駛的嫌疑，也很難發(fā)現(xiàn)。還有一些車(chē)輛定位設(shè)備正常，數(shù)據(jù)也上傳，發(fā)現(xiàn)存在疲勞駕駛的嫌疑，但駕駛?cè)丝赡軙?huì)抵賴(lài)，說(shuō)換了人了，但是IC卡忘了換，這個(gè)時(shí)候也沒(méi)有充足的證據(jù)證明他有疲勞駕駛嫌疑。還有一些是換了卡，但沒(méi)有換駕駛?cè)?，還是同一個(gè)人開(kāi)，這樣也很難發(fā)現(xiàn)是否疲勞駕駛。

針對(duì)這些情況就可以用到多元數(shù)據(jù)的融合交叉驗(yàn)證，把定位數(shù)據(jù)和卡口數(shù)據(jù)做交叉融合，卡口是能夠拍到貨車(chē)前部的照片，這個(gè)時(shí)間點(diǎn)是哪個(gè)駕駛員，如果把這個(gè)圖片作為證據(jù)給駕駛員，駕駛員很難抵賴(lài)。

若是換卡不換人，或者關(guān)閉設(shè)備，這些沒(méi)有被發(fā)現(xiàn)的疲勞駕駛?cè)藛T，也可以通過(guò)算法來(lái)做簡(jiǎn)單的驗(yàn)證。車(chē)輛在兩個(gè)卡口之間通行了多長(zhǎng)時(shí)間，可以算出行駛速度，如果速度是在100以上或者是80以上，基本可以認(rèn)定在這兩個(gè)卡口之間沒(méi)有停車(chē)休息的，一旦休息了滿20分鐘，行駛速度肯定是達(dá)不到80以及100。根據(jù)這個(gè)原理去累計(jì)分析，超過(guò)4個(gè)小時(shí)行駛速度都在80以上，就證明沒(méi)有休息過(guò)，有疲勞駕駛的嫌疑。再拿卡口數(shù)據(jù)和GPS定位數(shù)據(jù)來(lái)做一個(gè)交叉的驗(yàn)證。一方面能認(rèn)定四小時(shí)內(nèi)沒(méi)有停車(chē)，同時(shí)也讀不到GPS數(shù)據(jù)，但車(chē)輛是連續(xù)行駛，同時(shí)又能知道車(chē)內(nèi)駕駛員沒(méi)有更換，通過(guò)這些數(shù)據(jù)的交叉融合，去提高數(shù)據(jù)的準(zhǔn)確性，如果你是用單一的數(shù)據(jù)，分析結(jié)果是不準(zhǔn)確的。

第四個(gè)方法是人工干預(yù)。

目前的大數(shù)據(jù)分析還沒(méi)有達(dá)到非常準(zhǔn)確、智能的程度，要完全通過(guò)算法運(yùn)算推出來(lái)的結(jié)果不一定是準(zhǔn)確的，所以就需要人工干預(yù)，但人工干預(yù)也分很多場(chǎng)景，有些是事前人工干預(yù)，有些是事后干預(yù)，有些是事前事后都需要人工干預(yù)，常見(jiàn)的人工干預(yù)方法就是人工匹配。

比如要分析一些區(qū)間的車(chē)輛通行速度，首先得知道哪個(gè)是起點(diǎn)，哪個(gè)是終點(diǎn)，需要提前人工標(biāo)注好。比如設(shè)定一些參數(shù)的閾值，像套牌嫌疑車(chē)的分析，區(qū)間設(shè)置的分析，可以設(shè)定一個(gè)速度，因?yàn)橛行┛诘臅r(shí)間不一定準(zhǔn)確，算出來(lái)的速度可能會(huì)有偏差，閥值可以調(diào)高一點(diǎn)。

最常用的是人工審核，最終分析的結(jié)果還需要人工審核判斷，因?yàn)楹芏嘟还軜I(yè)務(wù)應(yīng)用都會(huì)涉及，如果存在交通違法，就可能會(huì)涉及到處罰。如果涉及到處罰的話，就要保證數(shù)據(jù)是準(zhǔn)確的，所以基本上每一個(gè)業(yè)務(wù)模型的最后都會(huì)有一道人工審核確認(rèn)的環(huán)節(jié)。

總結(jié)和展望

前面主要是介紹了低價(jià)值密度下交管大數(shù)據(jù)常用的幾個(gè)方法。

簡(jiǎn)單總結(jié)一下，這些應(yīng)用主要針對(duì)數(shù)據(jù)應(yīng)用，在這方面下一步主要的工作是深化數(shù)據(jù)治理，很多數(shù)據(jù)的清洗、模型的優(yōu)化、迭代都屬于數(shù)據(jù)治理的內(nèi)容。另一個(gè)工作是需要有更多的數(shù)據(jù)接入進(jìn)來(lái)，比如保險(xiǎn)大數(shù)據(jù)、事故數(shù)據(jù)等等，進(jìn)行多維的交叉的驗(yàn)證。

就數(shù)據(jù)采集來(lái)說(shuō)，加強(qiáng)源頭管理很重要。前面說(shuō)的都是基于現(xiàn)狀怎么數(shù)據(jù)治理，如果加強(qiáng)數(shù)據(jù)源頭管理，保證第一手采集的數(shù)據(jù)是準(zhǔn)確及時(shí)無(wú)誤，就能做更好的應(yīng)用。下一步我們會(huì)組織全國(guó)交通監(jiān)控前端設(shè)備的升級(jí)和運(yùn)維保障，并計(jì)劃組織開(kāi)展視頻專(zhuān)網(wǎng)公安交通集成指揮平臺(tái)的建設(shè)，從而加強(qiáng)前端卡口設(shè)備的運(yùn)維管理。通過(guò)AI智能運(yùn)維，自動(dòng)檢測(cè)卡口設(shè)備采集的角度是不是準(zhǔn)確，數(shù)據(jù)是不是及時(shí)傳輸?shù)取?/p>

最后希望通過(guò)大家共同的努力，然后能夠把公安交管大數(shù)據(jù)應(yīng)用用得更好，謝謝大家。

電話

18140091980撥打

新聞中心

低價(jià)值密度下公安交管大數(shù)據(jù)應(yīng)用實(shí)踐