四川中衛(wèi)北斗科技有限公司

在線咨詢(xún)
電話(huà)

18140091980撥打

微信

微信掃一掃

長(zhǎng)按二維碼關(guān)注微信加好友

在大數(shù)據(jù)面前,每個(gè)人都是赤裸的

發(fā)布時(shí)間:2020-04-24 12:32


導(dǎo)讀:剪不斷理還亂,大數(shù)據(jù)和云計(jì)算,人工智能,以及5G之間究竟什么關(guān)系。



「我的女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,這是在鼓勵(lì)她懷孕嗎?」

一個(gè)男子沖進(jìn)一家商店,要求經(jīng)理出來(lái)見(jiàn)他,并怒不可遏地說(shuō)出了上述這句話(huà)。

幾天后,經(jīng)理打電話(huà)向這個(gè)男人致歉時(shí),他的語(yǔ)氣卻變得平和了起來(lái):

「我跟我女兒談過(guò)了,她的預(yù)產(chǎn)期是8月份。是我完全沒(méi)有意識(shí)到這個(gè)事情的發(fā)生,說(shuō)抱歉的人應(yīng)該是我。」

——《大數(shù)據(jù)時(shí)代》

上面這段內(nèi)容講的是美國(guó)一家零售商通過(guò)分析大量女性的消費(fèi)記錄,根據(jù)購(gòu)物的內(nèi)容變化來(lái)推測(cè)懷孕的月份乃至預(yù)產(chǎn)期,據(jù)此來(lái)精準(zhǔn)投放購(gòu)物廣告。

結(jié)果表明,擁有大量數(shù)據(jù)的機(jī)器比粗心的父親更早知道女兒的身體狀況。這無(wú)疑是讓人汗顏的。

這個(gè)例子僅僅只是大數(shù)據(jù)應(yīng)用的一個(gè)縮影。事實(shí)上,在這個(gè)大數(shù)據(jù)時(shí)代,萬(wàn)事萬(wàn)物產(chǎn)生的海量數(shù)據(jù)之中蘊(yùn)藏著豐富的信息,把握好了就是無(wú)數(shù)的商機(jī)。

什么是大數(shù)據(jù)?

從字面的意思來(lái)看,大數(shù)據(jù)就是大量的數(shù)據(jù)。業(yè)界一般認(rèn)為數(shù)據(jù)量達(dá)到普通的設(shè)備存不下,算不動(dòng)的程度,就可以稱(chēng)之為大數(shù)據(jù)了。

「大數(shù)據(jù)又稱(chēng)為巨量資料,指的是在傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理的大或復(fù)雜的數(shù)據(jù)集的術(shù)語(yǔ)?!?/p>

——維基百科

「大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!?/p>

—— 百度百科

「大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集大小常超出人類(lèi)在可接受時(shí)間下的收集、庋用、管理和處理能力?!?/p>

——MBA智庫(kù)

從上面的幾種定義可以看出,首先,數(shù)據(jù)量要大到常規(guī)方式無(wú)法處理的程度;再者,大數(shù)據(jù)作為信息資產(chǎn),需要通過(guò)處理從中獲取價(jià)值信息。

大數(shù)據(jù)到底有多大?

普通個(gè)人電腦所能存儲(chǔ)的數(shù)據(jù),一般是幾百個(gè)GB到幾個(gè)TB的級(jí)別。

例如,常見(jiàn)的固態(tài)硬盤(pán),512GB就已經(jīng)比較大了;常見(jiàn)的機(jī)械硬盤(pán),可達(dá)1TB/2TB/4TB的容量。

表達(dá)數(shù)據(jù)容量的KB,MB,GB和TB之間的關(guān)系,大家應(yīng)該都很熟悉了:

KB(Kilo Byte) — 千字節(jié),也就是1024B

MB(MegaByte) — 兆字節(jié),也就是1024KB

GB(GigaByte) — 吉字節(jié),也就是1024MB

TB(Tera Byte) — 太字節(jié),也就是1024GB

而大數(shù)據(jù)是什么級(jí)別呢?PB/EB級(jí)別。其實(shí)就是在TB的基礎(chǔ)上每一級(jí)接著乘以1024。

PB(Peta Byte) — 皮字節(jié),也就是1024TB

EB(Exa Byte) — 艾字節(jié),也就是1024PB

ZB(Zetta Byte) — 澤字節(jié),也就是1024EB

YB(YottaByte) — 堯字節(jié),也就是1024ZB

上述的這些大的單位在日常生活中幾乎接觸不到,而且常人也已經(jīng)無(wú)法直觀地感受到這些單位能大到什么讓人吃驚的程度。下面我們舉個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。

一本《紅樓夢(mèng)》:純文本(未壓縮),約2MB

一張1200萬(wàn)像素的照片(未壓縮):約34MB

一部90分鐘的電影(H.264編碼):約2.5GB(也就是2500MB)

這樣算下來(lái),一塊1TB的硬盤(pán)大約可以存儲(chǔ)50萬(wàn)本電子書(shū),3萬(wàn)張圖片,400部電影。假定三天時(shí)間看完一本書(shū),這50萬(wàn)本就需要4000多年才能看完。

1PB的容量大約可存儲(chǔ)5億本書(shū),3千萬(wàn)張圖片,或40萬(wàn)部90分鐘的電影。看書(shū)的時(shí)間過(guò)于夸張就不說(shuō)了,這些電影也需要持續(xù)近140年時(shí)間才能看完。

1EB這個(gè)單位的龐大已經(jīng)超乎了人們的想象,僅僅存放這些數(shù)據(jù)需要大約2000個(gè)機(jī)柜的存儲(chǔ)設(shè)備。

如果并排放這些機(jī)柜,可以連綿1.2公里那么長(zhǎng)。如果擺放在機(jī)房里,需要21個(gè)標(biāo)準(zhǔn)籃球場(chǎng)那么大的機(jī)房,才能放得下。

真的有企業(yè)會(huì)產(chǎn)生如此海量的數(shù)據(jù)嗎?

事實(shí)上,阿里、百度、騰訊這樣的互聯(lián)網(wǎng)巨頭,因?yàn)槠鋼碛袛?shù)億的用戶(hù),這些海量用戶(hù)產(chǎn)生的數(shù)據(jù)量早已超越PB級(jí),接近EB級(jí)。

大數(shù)據(jù)是怎樣產(chǎn)生的?

隨著互聯(lián)網(wǎng),物聯(lián)網(wǎng)的發(fā)展,萬(wàn)事萬(wàn)物皆可連接,皆可源源不斷地產(chǎn)生數(shù)據(jù),從涓涓細(xì)流匯聚成汪洋大海。

經(jīng)過(guò)移動(dòng)互聯(lián)網(wǎng)的大爆發(fā),中國(guó)的上網(wǎng)用戶(hù)數(shù)已經(jīng)約等于智能手機(jī)的用戶(hù)數(shù),通過(guò)4G網(wǎng)絡(luò)隨時(shí)連接,實(shí)時(shí)在線。

這些用戶(hù)在手機(jī)上的每一次滑動(dòng)和點(diǎn)擊,都會(huì)被各式各樣的APP上傳并存儲(chǔ),以及在微博,微信,知乎,抖音等各種社交或者UGC類(lèi)APP上創(chuàng)作的文本,圖片和視頻,形成海量的數(shù)據(jù)。

物聯(lián)網(wǎng)方面也不遑多讓。據(jù)GSMA智庫(kù)預(yù)測(cè),到2025年全球?qū)?huì)有18億移動(dòng)物聯(lián)網(wǎng)連接(總共31億蜂窩物聯(lián)網(wǎng)連接),以及138億工業(yè)物聯(lián)網(wǎng)連接,其中63億在亞太地區(qū)和中國(guó),占總數(shù)的65%。

如果放在以前,計(jì)算機(jī)的硬件(存儲(chǔ),計(jì)算)等資源還很金貴的情況下,這些數(shù)據(jù)只能是經(jīng)過(guò)簡(jiǎn)單匯總之后就被丟掉。

然而隨著技術(shù)的發(fā)展,計(jì)算機(jī)硬件的存儲(chǔ)和計(jì)算能力越來(lái)越強(qiáng),越來(lái)越不值錢(qián),這些原本被認(rèn)為食之無(wú)肉棄之有味數(shù)據(jù)才能被大量存儲(chǔ)和處理,并挖掘價(jià)值。

目前微信擁有11億的用戶(hù),每天發(fā)送數(shù)百億條消息,還有朋友圈,支付,掃一掃,搖一搖等多種行為都存儲(chǔ)在微信的后臺(tái)。

如果要從這些海量數(shù)據(jù)中分析所有微信用戶(hù)的行為習(xí)慣,比如每天的使用時(shí)長(zhǎng),偏好發(fā)語(yǔ)音還是文字,對(duì)哪些類(lèi)型的公眾號(hào)感興趣等數(shù)據(jù)就沒(méi)有那么簡(jiǎn)單了。

這就是各種大數(shù)據(jù)技術(shù)誕生及發(fā)展的驅(qū)動(dòng)力。

大數(shù)據(jù)有哪些特點(diǎn)?

由于大數(shù)據(jù)的描述眾說(shuō)紛紜,4個(gè)V,5個(gè)V,乃至8個(gè)V的說(shuō)法都有。本文就簡(jiǎn)采用IBM的4V說(shuō):大量(Volume),高速(Velocity),多樣(Variety),價(jià)值(Value)。

1、大量:這一點(diǎn)是大數(shù)據(jù)最基礎(chǔ)的屬性,前面講過(guò)了。也就是說(shuō):大數(shù)據(jù)分析的是所有樣本,不是隨機(jī)抽樣,因此可進(jìn)行多維度,任意縮放地進(jìn)行分析。

2、高速:數(shù)據(jù)產(chǎn)生快,對(duì)分析和使用的速度要求也很高。如果像刻舟求劍一樣,分析地雖然精確,但耗時(shí)過(guò)長(zhǎng),以至于結(jié)論早已過(guò)時(shí),終究是沒(méi)有用處的。

試想一下,在網(wǎng)上買(mǎi)書(shū)的時(shí)候,系統(tǒng)會(huì)根據(jù)目前瀏覽的書(shū)來(lái)智能推薦用戶(hù)還可能感興趣的其他書(shū),這個(gè)是要求秒級(jí)響應(yīng)的。如果過(guò)了半小時(shí)才算出結(jié)果來(lái),用戶(hù)很可能早都購(gòu)物結(jié)束了。

3、多樣:數(shù)據(jù)的來(lái)源多種多樣,格式不一,既有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更多的則是非結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)就是可以按照預(yù)定義的關(guān)系模型來(lái)存儲(chǔ)的數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)指的那些沒(méi)有固定格式,內(nèi)容需要分析識(shí)別才知道的數(shù)據(jù),一般就是網(wǎng)頁(yè),圖片,音頻,視頻等數(shù)據(jù)。這些數(shù)據(jù)占比可達(dá)80%以上。

也就是說(shuō),大數(shù)據(jù)不是精確性,而是混雜性。這些數(shù)據(jù)不論格式,只要擁有可供挖掘的信息,就都來(lái)者不拒。

4、價(jià)值:數(shù)據(jù)雖多,但價(jià)值密度很低,必須經(jīng)過(guò)大量的分析和提取,才能較為準(zhǔn)確地發(fā)現(xiàn)其中蘊(yùn)藏的規(guī)律。

據(jù)不完全統(tǒng)計(jì),公安機(jī)關(guān)全國(guó)每年需要存儲(chǔ)的數(shù)據(jù)量高達(dá)3.3EB,結(jié)合視頻監(jiān)控和人臉識(shí)別,實(shí)現(xiàn)犯罪嫌疑人的快速識(shí)別和實(shí)時(shí)布控。

中國(guó)的犯罪率是很低的,收集并存儲(chǔ)如此多的數(shù)據(jù),就是為了進(jìn)行大海撈針,可見(jiàn)大數(shù)據(jù)的價(jià)值密度之低。

并且,大數(shù)據(jù)的價(jià)值體現(xiàn)在對(duì)數(shù)據(jù)內(nèi)部隱含的相關(guān)性的挖掘,而非對(duì)因果性的求索。這個(gè)世界是復(fù)雜的,有相關(guān)性的事件之間不一定有直接的因果關(guān)系。

我們不必糾結(jié)于事件之間具體的前因后果,只要知道它們之間是有正向或者負(fù)向聯(lián)系的,只需照著做就能體現(xiàn)數(shù)據(jù)分析的價(jià)值了。這是一種實(shí)用主義的態(tài)度。

舉例來(lái)說(shuō),沃爾瑪超市發(fā)現(xiàn)把啤酒和尿布放在一起時(shí),啤酒的銷(xiāo)量會(huì)大幅增加。此時(shí)擺在老板面前兩個(gè)選擇:是繼續(xù)研究苦苦研究這個(gè)現(xiàn)象內(nèi)在的因果關(guān)系呢,還是趕緊所有門(mén)店都如此配置起來(lái)好更快地賺錢(qián)?

答案顯然是后者。大數(shù)據(jù)分析是用來(lái)發(fā)現(xiàn)相關(guān)性來(lái)創(chuàng)造價(jià)值的,而非探索因果關(guān)系進(jìn)行科研。

大數(shù)據(jù)有哪些用處?

01、用戶(hù)畫(huà)像

「千萬(wàn)人撩你,不如一人懂你。」在現(xiàn)實(shí)世界里,唯一懂你的TA就是默默關(guān)注著你的大數(shù)據(jù)。

你的一舉一動(dòng),都被各種APP記錄下來(lái)并進(jìn)行分析,找出典型特征,并據(jù)此跟你打上各式各樣的標(biāo)簽。這些標(biāo)簽匯聚起來(lái)就是你這個(gè)人在網(wǎng)絡(luò)上的化身,美其名曰「用戶(hù)畫(huà)像」。

通過(guò)搜集并分析多維數(shù)據(jù),這些用戶(hù)畫(huà)像可以包含生活中的方方面面,每一個(gè)用戶(hù)在大數(shù)據(jù)面前都是一絲不掛的?;趯?duì)用戶(hù)的了解,各種各樣的精準(zhǔn)營(yíng)銷(xiāo)就可以高效進(jìn)行了。

如此一來(lái),你打開(kāi)購(gòu)物APP,醒目位置顯示的都是自己想要買(mǎi)的東西;打開(kāi)資訊APP,頭條里面推薦的都是自己偏好的內(nèi)容;打開(kāi)搜索引擎,搜出來(lái)的東西都正好是自己想要找的。

亞馬遜技術(shù)專(zhuān)家曾經(jīng)說(shuō)過(guò):「如果系統(tǒng)運(yùn)作良好,亞馬遜應(yīng)該只推薦你一本書(shū),而這本書(shū)就是你將要買(mǎi)的下一本書(shū)?!?/p>

02、決策支撐

在移動(dòng)通信領(lǐng)域,所有用戶(hù)產(chǎn)生了海量的信令交互,網(wǎng)絡(luò)測(cè)量報(bào)告,以及各種各樣的業(yè)務(wù)數(shù)據(jù)。

這些信息都是被記錄下來(lái)的,除了可以用來(lái)追蹤用戶(hù),解決故障之外,還能用來(lái)了解自身的網(wǎng)絡(luò)覆蓋,容量,用戶(hù)滿(mǎn)意度等指標(biāo),并能和對(duì)手進(jìn)行對(duì)比分析。

基于這些大數(shù)據(jù)的分析結(jié)果,網(wǎng)絡(luò)優(yōu)化,用戶(hù)體驗(yàn)提升等操作都可以有的放矢,更為方便高效。

在醫(yī)療領(lǐng)域,大量患者產(chǎn)生的海量數(shù)據(jù)可以用來(lái)進(jìn)行臨床治療對(duì)比,藥品研發(fā),疾病診斷,甚至還能作為醫(yī)保政策,額度等調(diào)整優(yōu)化的依據(jù)。

除了上面的例子之外,大數(shù)據(jù)還在互聯(lián)網(wǎng),金融,以及各種垂直行業(yè)內(nèi)部都有著豐富的應(yīng)用場(chǎng)景??偨Y(jié)起來(lái)就是「知己知彼,百戰(zhàn)不殆」,「運(yùn)籌帷幄,決勝千里」。

大數(shù)據(jù)和云計(jì)算,人工智能及5G之間有什么關(guān)系?

由于大數(shù)據(jù)分析需要對(duì)大量的數(shù)據(jù)進(jìn)行分解,統(tǒng)計(jì),匯總,一臺(tái)機(jī)器肯定搞不定,于是就有了分布式計(jì)算的方法。

也就是說(shuō),將大量的數(shù)據(jù)分成很多的小份,每臺(tái)機(jī)器只處理其中的一小份,多臺(tái)機(jī)器并行處理,處理速度得以大幅提升。

例如著名的Terasort對(duì)1個(gè)TB的數(shù)據(jù)排序,如果單機(jī)處理,怎么也要幾個(gè)小時(shí),但并行處理,僅需要209秒即可完成。

在分布式計(jì)算框架下,大數(shù)據(jù)的處理,可以分為數(shù)據(jù)收集,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理(資源管理與服務(wù)協(xié)調(diào),計(jì)算引擎),數(shù)據(jù)分析,數(shù)據(jù)可視化這幾層。

大數(shù)據(jù)需要大量的服務(wù)器資源,但這些資源可能并不是隨時(shí)都滿(mǎn)負(fù)荷工作的。例如使用大數(shù)據(jù)來(lái)分析公司的財(cái)務(wù)情況,可能只需一周分析一次,但把這成千上萬(wàn)臺(tái)機(jī)器放在機(jī)房里,每周用一次是非常浪費(fèi)的。

這正是云計(jì)算誕生的初衷。如果能在不同的時(shí)間,把這些閑置機(jī)器提供的網(wǎng)絡(luò),存儲(chǔ)以及計(jì)算能力共享給其他用戶(hù)使用,資源的利用率將大大提升。

云計(jì)算通過(guò)硬件資源的虛擬化,相當(dāng)于平臺(tái)的提供者,而大數(shù)據(jù)是海量數(shù)據(jù)的高效處理,相當(dāng)于云計(jì)算平臺(tái)上的大型應(yīng)用。

那大數(shù)據(jù)和人工智能有沒(méi)有關(guān)系?實(shí)際上,大數(shù)據(jù)是人工智能發(fā)展的前提。

目前人工智能的主流算法是深度學(xué)習(xí),其能夠大展身手需要兩個(gè)條件:強(qiáng)大的計(jì)算能力和高質(zhì)量的大數(shù)據(jù)。其中最具有代表性的系統(tǒng),就是著名的「谷歌大腦」。

這是一個(gè)龐大的深度學(xué)習(xí)計(jì)算框架,擁有數(shù)萬(wàn)臺(tái)高性能的計(jì)算機(jī)和頂級(jí)圖形處理器組成的計(jì)算單元,可以完成大規(guī)模,多維度,多層次的深度學(xué)習(xí)模型訓(xùn)練。

據(jù)悉,在谷歌大腦建立不久,谷歌就使用了一個(gè)擁有16000的CPU組成的超大規(guī)模計(jì)算機(jī)集群,讓機(jī)器用深度學(xué)習(xí)模型自己「看」了一千萬(wàn)段視頻,終于把人工智能訓(xùn)練地學(xué)會(huì)了如何從視頻中辨認(rèn)出一只貓來(lái)。

因此,沒(méi)有大數(shù)據(jù)所提供的足夠的學(xué)習(xí)樣本,深度學(xué)習(xí)系統(tǒng)搭建得再完美也沒(méi)用。對(duì)人工智能來(lái)說(shuō),深度學(xué)習(xí)算法是靈魂,云計(jì)算是肉體,大數(shù)據(jù)則是糧食。

沒(méi)有糧食,肉體和靈魂就都成了空中樓閣。只有這三者合力,才能揭開(kāi)人工智能應(yīng)用的新篇章。

5G提供的萬(wàn)物互聯(lián),正是人工智能的糧食——大數(shù)據(jù)產(chǎn)出的肥沃土壤。

這就是大數(shù)據(jù)和云計(jì)算,人工智能,以及5G之間剪不斷理還亂的聯(lián)系。

好了,本期的內(nèi)容就到這里,希望對(duì)大家有所幫助。

參考文獻(xiàn):

1、《大數(shù)據(jù)時(shí)代》,維克托?邁爾?舍恩伯格,肯尼思?庫(kù)尼耶

2、《看懂“大數(shù)據(jù)”,這一篇就夠了!》,鮮棗課堂

3、《大數(shù)據(jù)技術(shù)體系詳解,原理,架構(gòu)與實(shí)踐》,董西成



掃一掃在手機(jī)上閱讀本文章

版權(quán)所有? 四川中衛(wèi)北斗科技有限公司    蜀ICP備14007264號(hào)-3    技術(shù)支持: 竹子建站