2025MBA報考測評申請中......
說(shuō)明:您只需填寫(xiě)姓名和電話(huà)即可免費預約!也可以通過(guò)撥打熱線(xiàn)免費預約
我們的工作人員會(huì )在最短時(shí)間內給予您活動(dòng)安排回復。
導讀:對于大數據的討論很多都流于概念的炒作,并沒(méi)有深入到數據的本質(zhì),基于大數據的互聯(lián)網(wǎng)營(yíng)銷(xiāo)與品牌管理,也遠不像人們想象的那么容易。
互聯(lián)網(wǎng)的發(fā)展帶來(lái)了海量的廉價(jià)數據,也引發(fā)了關(guān)于大數據未來(lái)商業(yè)應用前景的熱烈討論。然而,對于大數據的討論很多都流于概念的炒作,并沒(méi)有深入到數據的本質(zhì),基于大數據的互聯(lián)網(wǎng)營(yíng)銷(xiāo)與品牌管理,也遠不像人們想象的那么容易。
隨著(zhù)科技和互聯(lián)網(wǎng)的發(fā)展,我們現在擁有越來(lái)越多的數據?;ヂ?lián)網(wǎng)是個(gè)低成本的連接,大家可以在互聯(lián)網(wǎng)上自發(fā)的產(chǎn)生內容、展開(kāi)互動(dòng),所以互聯(lián)網(wǎng)上的數據流動(dòng)性非常強。
當我們看數據的時(shí)候,不僅要考慮數據量的豐富程度,同時(shí)也要考慮數據的流動(dòng)性和新穎程度。
互聯(lián)網(wǎng)是個(gè)交互的載體,所以我們通過(guò)數據可以發(fā)現很多可能的商業(yè)應用前景?,F在對于大數據的討論有很多,但是我想說(shuō)的一點(diǎn)是,很多有關(guān)大數據的討論僅是概念的炒作,并沒(méi)有真正深入到數據的本質(zhì)。
所以在開(kāi)始之前,我想先舉幾個(gè)反例,而這幾個(gè)例子在很多書(shū)籍里面是作為經(jīng)典的開(kāi)篇案例來(lái)被論述的。
從幾個(gè)“經(jīng)典”案例談起
谷歌在2009年推出了一款預測流感爆發(fā)的數據產(chǎn)品,原理是如果某個(gè)地方對流感相關(guān)的關(guān)鍵詞的搜索量如果突然增加,那么這里就可能爆發(fā)流感。2014年,一些科學(xué)家檢索了過(guò)去5年的預測結果,發(fā)現其中92%都是錯的,而且很多大的流感并沒(méi)有預測到。
為什么會(huì )出現這樣高的錯誤率?
因為流感的爆發(fā)是很復雜的事,與人口密度、人口流動(dòng)、氣溫、飲食、衛生條件等很多因素相關(guān),而關(guān)鍵詞的搜索頻率提供的信息極其有限,用來(lái)預測很有可能出錯。
還有一個(gè)案例很多人聽(tīng)過(guò),啤酒與尿布的故事,說(shuō)美國的爸爸給小孩買(mǎi)尿布的時(shí)候會(huì )順便給自己買(mǎi)啤酒。但是,本人實(shí)際分析多套美國超市銷(xiāo)售數據后從未發(fā)現這兩個(gè)品類(lèi)間有顯著(zhù)的相關(guān)性。所以這也只是一個(gè)噱頭。
還有很多類(lèi)似的討論或者炒作,因此希望大家可以更理性的去看。
中國的大數據產(chǎn)業(yè)
再回頭看國內的數據產(chǎn)業(yè)。
雖然大數據話(huà)題已經(jīng)被討論了好幾年,但實(shí)際上基于數據的變現面還是比較狹窄的,遠遠沒(méi)有我們想象當中的那么美好。
真正能用數據變現、賺錢(qián)的,大都集中在程序化廣告、精準營(yíng)銷(xiāo)、用戶(hù)畫(huà)像領(lǐng)域。其它的領(lǐng)域還是停留在概念階段,比如我們討論很多的消費金融、大數據征信,實(shí)現的難度很大。
主要原因還是因為缺乏數據——很難有一家公司、一個(gè)機構,能把一個(gè)消費者在生活各方面的消費信息都收到,例如支付寶上的芝麻信用收集到的是你用支付寶時(shí)的交易記錄,而沒(méi)有財付通或者現金的交易信息。
所以說(shuō),在普遍缺數據的背景下,我們應該理性的回歸到數據問(wèn)題本身。這其中一個(gè)很重要的原因是,數據的標準化、規?;浅ky。
一套數據對一個(gè)人可能值10塊錢(qián),對另外一個(gè)人就可能值10萬(wàn),因為兩個(gè)人所處的角度不同,對數據的分析挖掘能力不同,提取價(jià)值的能力不同,有各種原因導致數據很難被標準化。缺乏標準就難以交易,缺乏交易就能成規模。
正確認識數據的價(jià)值
在我看來(lái),數據沒(méi)有直接的價(jià)值,數據不等于價(jià)值,數據到價(jià)值之前還有很長(cháng)的一條路要走。
“大”數據本身是個(gè)非常模糊的命題。而且,數據本身是個(gè)科技范疇內的東西,但在很多時(shí)候卻被當成概念進(jìn)行炒作。
大數據的起點(diǎn)是業(yè)務(wù)數據化,終點(diǎn)是數據業(yè)務(wù)化,也就是說(shuō),最后能通過(guò)已有的數據產(chǎn)生新的業(yè)務(wù)點(diǎn)、現金流、利潤。這個(gè)過(guò)程不是一蹴而就的,大數據不是黑和白、零和一的過(guò)程。這是一個(gè)需要循序漸進(jìn)、逐漸積累內功修煉的過(guò)程。
我們可以以一個(gè)金字塔的方式形容它。
首先是數據源,解決數據收集機制的問(wèn)題。不同公司有不同渠道收集數據。數據收集這個(gè)事情想象空間非常大,絕對不僅限于那種比較傳統的財務(wù)數據、收銀臺的流水數據,或者GPS定位的數據,實(shí)際上可收集的數據有很多,我們應該用發(fā)散性思維去想一想,到底怎么樣收集數據。
當然最關(guān)鍵的還是要建立一套長(cháng)效、低成本的數據收集機制。很多行業(yè)現在缺數據,為什么?關(guān)鍵在于沒(méi)有機制,或者說(shuō)沒(méi)有跟終端市場(chǎng)互動(dòng)的機制。如果銷(xiāo)售都交給渠道,那自然沒(méi)有有效的數據收集。
數據有了,還要有效的管理起來(lái)?,F在有很多云計算、云服務(wù)的平臺,就是要幫你解決管理問(wèn)題。但是我們需要明白一點(diǎn),他們只負責你數據的存儲、計算等,不負責給你收集數據,也不負責給你分析數據、挖掘數據。他們負責的是基礎設施,那之上的數據業(yè)務(wù)還得公司自己打造。
數據分析能力:大數據的核心競爭力
很多時(shí)候數據的用處是完全靠你自己分析出來(lái)的,這套數據有沒(méi)有用很大情況下取決于你分析的能力怎么樣。所以,分析能力、挖掘能力、建模能力,是一個(gè)核心競爭力。
那具體來(lái)講,我們?yōu)槭裁匆治鰯祿?
第一,大數據時(shí)代實(shí)際上是一個(gè)大噪音時(shí)代。
大家不要把大數據想得太美好,特別是當你真要去做數據工作的時(shí)候。小數據時(shí)代,數據不多,能看出有趨勢就有趨勢,沒(méi)趨勢就沒(méi)趨勢。但是,數據量非常大的時(shí)候,當你打開(kāi)一套數據的時(shí)候,迎面而來(lái)的可能全是噪音。
數據越大,噪音越大,也越考驗你的數據挖掘和分析能力。這個(gè)能力既是你的技術(shù)能力,同時(shí)也是你對市場(chǎng)的理解能力。要把兩者有效地結合起來(lái),才有可能分析得好,預測得好。
第二,大數據不等于全部數據。
前幾年剛剛開(kāi)始有大數據這個(gè)概念的時(shí)候,市場(chǎng)上有一個(gè)非常錯誤的觀(guān)點(diǎn),就是大數據時(shí)代我們不需要考慮抽樣了。這是非常錯誤的。因為再大的數據也還是一個(gè)樣本,所以你一定需要懂抽樣理論,了解在當前的觀(guān)察樣本情況下,會(huì )對你的業(yè)務(wù)結果產(chǎn)生什么樣的影響。
第三,數據的外生性和內生性。
數據本身并不一定能表達因果關(guān)系,很多時(shí)候它只是個(gè)相關(guān)性。相關(guān)性不影響預測,但影響決策。二者之間的關(guān)系需要謹慎把握。
案例:美高梅賭場(chǎng)的精準營(yíng)銷(xiāo)
舉一個(gè)賭場(chǎng)的例子。有一個(gè)大型的博彩集團叫做美高梅集團,在澳門(mén)、拉斯維加斯都有。
做賭場(chǎng)生意,關(guān)鍵是什么?人流,因為賠率相對比較穩定,只要有足夠的人流量,賭場(chǎng)賺錢(qián)。所以這個(gè)生意跟零售業(yè)很像,沃爾瑪做的也是人流量的生意。
對于賭場(chǎng)來(lái)講,他們的數據分析里面非常關(guān)鍵的一點(diǎn)就是引流和降低流失率,盡量提高客戶(hù)留存率。
賭博行業(yè)是一個(gè)市場(chǎng)競爭非常激烈的行業(yè)。開(kāi)賭場(chǎng)的人太多了,像拉斯維加斯那條大街上面,很多家賭場(chǎng),大大小小、金碧輝煌,賭場(chǎng)為了能夠更好地留住客戶(hù),一般都不只是有賭場(chǎng),還有餐飲、酒店、演出、購物等一站式服務(wù)。當然其中肯定是賭博的利潤最大了,所以為了爭取客戶(hù)、留存客戶(hù),精準營(yíng)銷(xiāo)是非常重要的。
賭場(chǎng)關(guān)注精準營(yíng)銷(xiāo)這么多年,他們現在要做的一個(gè)工作是,把原有的精準營(yíng)銷(xiāo)模型更進(jìn)一步地去優(yōu)化。其中很重要的一點(diǎn)是,我需要去量化我的促銷(xiāo)力度跟賭博總消費之間的關(guān)系。
這個(gè)問(wèn)題其實(shí)很復雜。原因有:
第一,數據很多很雜很亂。
第二,促銷(xiāo)的結果有時(shí)候因果是模糊的。
第三,賭客來(lái)賭場(chǎng)消費,他的決策過(guò)程是很復雜的。我選擇你家賭場(chǎng),可能不是因為你家賭場(chǎng)有多好,可能是因為你家的飯好吃,可能是因為你家的酒店好住,可能是因為你家的演出好看。
還有一個(gè)非常復雜的問(wèn)題是,新賭客越來(lái)越多,歷史上他們沒(méi)有出現過(guò),怎么給他們做精準營(yíng)銷(xiāo)?
賭場(chǎng)使用的模型是很經(jīng)典的針對人流量生意的數據模型,叫RFM模型(Recency-Frequency-Monetary)。
Recency就是最近一次消費的時(shí)間,時(shí)間越近你的價(jià)值越高;Frequency 也就是消費頻率;Monetary就是你花的錢(qián)。但是你也可以看出,這樣也有一個(gè)問(wèn)題,就是你沒(méi)有辦法區分天性豪賭和促銷(xiāo)敏感的人。
所以,他們的新模型就要解決這些類(lèi)似的問(wèn)題。那具體怎么解決?
剛才我們說(shuō)到內生性,實(shí)際上它就需要采取一種所謂的“差別中的差別”(difference in differences)的方法。
就是說(shuō),我需要在RFM分數類(lèi)似的這些人里面再去看你們之間的差別。因為只有RFM分數相同的人,才有比較性。同時(shí)使用協(xié)同過(guò)濾等技術(shù)來(lái)解決新顧客問(wèn)題,等等。
現在,我們有一個(gè)新的模型,但是萬(wàn)一最后用起來(lái)不好呢?
這個(gè)時(shí)候要去做隨機實(shí)驗,將部分顧客隨機分三組,分別使用新模型、老模型、無(wú)模型進(jìn)行精準營(yíng)銷(xiāo)。然后對比一下,哪個(gè)組的ROI(轉化率)更高,才能驗證新模型到底好不好。
最后發(fā)現,的確是新模型更好,所以在2015年加上了一個(gè)新模型以后,他營(yíng)銷(xiāo)的ROI提高了58%。
我們講數據分析、數據挖掘、數據建模,實(shí)際上我們目的最終不是數據,而是希望通過(guò)數據理解背后產(chǎn)生數據的東西。
是什么產(chǎn)生了數據?人產(chǎn)生了數據。
我們總是希望通過(guò)數據,找一下背后人的行為和特征,然后基于這些去做數據的變現。
所以,數據分析的邏輯不是以數據預測數據,而是通過(guò)數據預測人,人再來(lái)產(chǎn)生新數據。我們必須關(guān)注產(chǎn)生數據的人,這才是數據分析的本質(zhì)。
任何的數據模型,都應該考慮具體的業(yè)務(wù)場(chǎng)景和消費者的微觀(guān)行為。好的大數據模型,一定是有好的技術(shù),同時(shí)里面融入非常好的商業(yè)邏輯和經(jīng)驗,這絕對不是個(gè)IT程序員能簡(jiǎn)單解決的。
案例:社交網(wǎng)絡(luò )的大數據征信
最后討論一個(gè)金融消費品的數據模型:社交網(wǎng)絡(luò )的大數據征信。
就是你希望通過(guò)在社交網(wǎng)絡(luò )上給一個(gè)人的信用打個(gè)分數。這個(gè)很重要,因為現在要講消費信貸、普惠金融,必須要對一個(gè)人的信用情況做一個(gè)判斷,做個(gè)人風(fēng)控,但是中國之前的個(gè)人信用評價(jià)系統相對比較簡(jiǎn)單和落后。
現在我們希望跳出傳統的金融數據,拿到一些其它的數據。這個(gè)人的人際關(guān)系、朋友圈、心理狀態(tài)、生活狀態(tài),可能對他的信用都是個(gè)很好的反映。那這些東西從哪來(lái)呢?現在是社交網(wǎng)絡(luò )時(shí)代,很有可能都是從社交網(wǎng)絡(luò )而來(lái)。所以,現在就有個(gè)很熱門(mén)的話(huà)題——社交網(wǎng)絡(luò )的征信。
這必然會(huì )涉及到社交網(wǎng)絡(luò )的征信模型。這里我們更多的不是要分析行業(yè),而是怎么樣去社交網(wǎng)絡(luò )上進(jìn)行建立征信的數據模型。
社交網(wǎng)絡(luò )是特別復雜的,所以說(shuō),你要去社交網(wǎng)絡(luò )上給人的信用建立一個(gè)數學(xué)模型,首先得給社交網(wǎng)絡(luò )建立一個(gè)模型。
首先,你必須要能夠處理社交網(wǎng)絡(luò )的噪聲,社交網(wǎng)絡(luò )的噪聲是非常大的。
另外,假設有一天大規模實(shí)現了社交網(wǎng)絡(luò )征信,大家交朋友的方式也會(huì )隨之改變,這是內生變化。我們也得把這個(gè)可能的內生變化加入到數據模型里面去,讓整個(gè)過(guò)程自動(dòng)化。
要給社交網(wǎng)絡(luò )建立一個(gè)模型,我們就要想,人為什么要建立關(guān)系?人跟人之間為什么會(huì )形成社交關(guān)系?因為人和人之間的相似性。
我們用特定的統計模型模擬人和人的相似性。先有了這個(gè)社交網(wǎng)絡(luò )的模型,我們再去建征信的模型(課上有詳細討論,此處省略)。我們要考慮你的信用到底怎么樣?以及我對你的信用的判斷,準確率怎么樣?比如說(shuō)我判斷你信用非常好,但是我知道這個(gè)判斷的結果的誤差很大,那這樣的結果可能用處也不大,我需要的是一個(gè)誤差比較小的判斷。
如果我們采取了大規模的社交征信,實(shí)際上是放大了人跟人之間的差異。原先我可能跟這個(gè)人會(huì )成為朋友的,但現在因為要征信了,我得謹慎了,所以我就不跟他成為朋友了。在放大了人跟人之間的差異的情況下,我們再去看最后的征信結果就會(huì )發(fā)現,這其實(shí)是個(gè)正循環(huán)(課上有詳細討論,此處省略)。一旦人交友更謹慎了,實(shí)際上數據質(zhì)量是更高了。
社交媒體數據征信建模在美國已經(jīng)實(shí)施,他們用的模型就是按這樣的思路來(lái)的。首先寫(xiě)一個(gè)社交網(wǎng)絡(luò )的模型,然后再寫(xiě)一個(gè)征信的模型,同時(shí)要考慮到產(chǎn)生征信以后,對社交結構產(chǎn)生的影響。
你至少要把這三點(diǎn)寫(xiě)進(jìn)去,才完成了一個(gè)基礎性的數據工作,這里面當然還有很多問(wèn)題我們可以去建立模型,比如弄虛作假、違約率、借款利息等等,所以這里面還有更多的拓展可以做。
最終我們想強調的一點(diǎn)是,數據的挖掘、建模與分析,是大數據營(yíng)銷(xiāo)過(guò)程中的核心競爭力。這里面牽涉到非常高深的技術(shù),而且也不能缺少對商業(yè)的洞察。這一切最后都落在既懂數據,又懂業(yè)務(wù)的數據數據BI科學(xué)家肩上。而當下的中國很欠缺這方面的人才。