更快的數(shù)據(jù)處理速度
由于數(shù)據(jù)量指數(shù)型增長(zhǎng),使得對(duì)于數(shù)據(jù)的快速分析的需要已經(jīng)變得比以往任何時(shí)候都要迫切。幾乎每家大數(shù)據(jù)廠商,都想要兜售比別家處理速度更快的產(chǎn)品。Hadoop發(fā)布的新品Hadoop 2.0 / YARN,幾乎能實(shí)時(shí)分析數(shù)據(jù)。而下一代大數(shù)據(jù)的計(jì)算牽引框架Apache Spark,它的速度比Hadoop快100倍。硅谷風(fēng)險(xiǎn)投資機(jī)構(gòu)Andreessen Horowitz,已經(jīng)以1400萬(wàn)美元的價(jià)格,領(lǐng)投了一家以Apache Spark為業(yè)務(wù)核心的初創(chuàng)企業(yè)Databricks。不久前,亞馬遜也上線(xiàn)了實(shí)時(shí)流數(shù)據(jù)服務(wù)Kinesis,來(lái)幫助沒(méi)有數(shù)據(jù)處理能力的公司解決這一問(wèn)題。
許多分析供應(yīng)商都已經(jīng)認(rèn)識(shí)到了數(shù)據(jù)處理速度的重要性,并建立了能夠每秒處理TB數(shù)據(jù)的產(chǎn)品。傳感器數(shù)據(jù)分析、物聯(lián)網(wǎng)在工業(yè)和消費(fèi)級(jí)市場(chǎng)快速發(fā)展的勢(shì)頭,驅(qū)動(dòng)了這次變革。比如一家企業(yè)的傳感器,能夠每秒產(chǎn)生出數(shù)百次的事件,實(shí)時(shí)處理這些數(shù)據(jù)難度很高。特別是當(dāng)實(shí)時(shí)處理的傳感器數(shù)據(jù),激增到一天5TB的時(shí)候,速度,就成了尤為關(guān)鍵的指標(biāo)。
同時(shí),盡管數(shù)據(jù)存儲(chǔ)成本已經(jīng)累年下降,但數(shù)據(jù)存儲(chǔ)的費(fèi)用還是不小的一筆支出。部分商家相比存儲(chǔ)完整數(shù)據(jù)流而言,更傾向于保存過(guò)濾掉噪音的數(shù)據(jù)。
智能清洗“垃圾數(shù)據(jù)”
在本就難以計(jì)數(shù)的數(shù)據(jù)量繼續(xù)以指數(shù)模型激增時(shí),對(duì)于數(shù)據(jù)質(zhì)量的強(qiáng)化,便擺上了許多數(shù)據(jù)供應(yīng)商的議程。換句話(huà)說(shuō),在龐大數(shù)據(jù)面前,即使計(jì)算機(jī)能夠高效的處理它們,但大量無(wú)用的“垃圾”數(shù)據(jù),只會(huì)給系統(tǒng)帶來(lái)負(fù)擔(dān),并增添存儲(chǔ)、主機(jī)等設(shè)備成本。這就需要數(shù)據(jù)處理過(guò)程中,根據(jù)特定的規(guī)則和參數(shù),對(duì)涌進(jìn)數(shù)據(jù)流進(jìn)行“清洗”和分析,并自動(dòng)決策該去處理哪些數(shù)據(jù),這一切不再需要人工去干預(yù)。
在這樣的環(huán)境下,如果選擇了一個(gè)壞的數(shù)據(jù),就會(huì)像病毒一樣,可能引發(fā)連續(xù)的錯(cuò)誤決策,甚至讓企業(yè)蒙受經(jīng)濟(jì)損失。一個(gè)例子就是利用算法去進(jìn)行股票交易,以毫秒計(jì)數(shù)股票市場(chǎng)中,任何一點(diǎn)小的差錯(cuò),都有可能引發(fā)無(wú)法巨大的損失。
所以,數(shù)據(jù)質(zhì)量已成為服務(wù)級(jí)別協(xié)議(service level agreements)最重要的參數(shù)之一。無(wú)法屏蔽劣質(zhì)的數(shù)據(jù)的供應(yīng)商,會(huì)因此被列入行業(yè)的黑名單,以及面臨嚴(yán)重的經(jīng)濟(jì)處罰。B2B行業(yè)為早期數(shù)據(jù)質(zhì)量的入局者,他們非常重視數(shù)據(jù)的質(zhì)量,來(lái)保持商業(yè)運(yùn)作時(shí)的穩(wěn)定性。甚至,許多企業(yè)計(jì)劃為數(shù)據(jù)質(zhì)量部署實(shí)時(shí)的警告系統(tǒng),這些警告會(huì)被發(fā)送于負(fù)責(zé)相應(yīng)問(wèn)題的專(zhuān)員,由他們提供問(wèn)題的解決方案。
機(jī)器學(xué)習(xí)是另一項(xiàng)需要保證數(shù)據(jù)質(zhì)量的領(lǐng)域。機(jī)器學(xué)習(xí)系統(tǒng)部署在一個(gè)閉環(huán)的生態(tài)中,通過(guò)模式分析與其他的數(shù)據(jù)分析技術(shù),細(xì)化原來(lái)的數(shù)據(jù)質(zhì)量規(guī)則。而高質(zhì)量的數(shù)據(jù),能夠保證機(jī)器進(jìn)行正確的行為模式分析。
越來(lái)越多的基礎(chǔ)應(yīng)用
大數(shù)據(jù)帶來(lái)的變革,使得每一個(gè)人都想要利用它,但技術(shù)上門(mén)檻又讓許多人不得已只能充當(dāng)一個(gè)看客。而應(yīng)用將有助于人們?nèi)タ朔@一困難。在接下來(lái)的幾年中,我們將會(huì)看到成千上萬(wàn)的解決某一垂直領(lǐng)域的專(zhuān)業(yè)應(yīng)用,以應(yīng)對(duì)來(lái)自各行各業(yè)的大數(shù)據(jù)挑戰(zhàn)。
目前,已經(jīng)小有成就的數(shù)據(jù)分析公司包括eHarmony、 Roambi、 Climate Corporation等等。未來(lái),甚至許多小企業(yè),既不用依賴(lài)特定基礎(chǔ)設(shè)備,也不要雇傭?qū)I(yè)的數(shù)據(jù)科學(xué)家,就能受益于對(duì)大數(shù)據(jù)分析利用。
比如,一些應(yīng)用將從各種渠道,收集關(guān)聯(lián)的客戶(hù)數(shù)據(jù),以更好地了解客戶(hù)的需求。從而企業(yè)能夠?yàn)樘囟ǖ哪繕?biāo)客戶(hù),提供特定需求的產(chǎn)品,更有針對(duì)性地賺到錢(qián)。當(dāng)這些應(yīng)用走進(jìn)人們?nèi)粘5某院韧鏄?lè)、醫(yī)療保健等領(lǐng)域,生活也會(huì)因此而更美好。