您好,登錄后才能下訂單哦!
當你開車路過一家餐廳的停車場時,你的手機屏幕上彈出了這家餐廳的當日特價菜品推薦,這種體驗是不是很棒?如果×××老板把發牌人忘記付給你的20美元親自送還給你,你的心里是不是有點兒小激動?如果在線視頻游戲能夠把和我們玩法相近的用戶即刻告知我們,這世界會不會變得很美妙?你是不是要下調汽車保險費率?大數據能讓這一切變成現實。
網絡數據即使不是最原始的大數據源,也是使用最廣泛、認可度最高的大數據源。除此之外,還有很多大數據源,它們都有各自的使用價值。其中一些廣為人知,而另一些幾乎沒有名氣。我們在此要借用本章的篇幅一起來回顧除網絡數據以外的其他9 種大數據源以及它們的用途。我們將站在一個較高的層次上講解這部分內容,意圖是在簡單描述各類數據源的基礎上,回顧每種大數據源的應用與商業含義。
我們發現了一個非常明顯的趨勢,各行各業雖然生成了許多大數據源,但其底層的支撐技術卻是相同的。而且,不同行業還可以使用相同的大數據源。大數據并非只有單一的用途,它的影響將會非常深遠。
我們將要討論以下幾種大數據源
汽車保險業:車載信息服務數據的價值。
多個行業:文本數據的價值。
多個行業:時間數據與位置數據的價值。
零售制造業:RFID 數據的價值。
電力行業:智能電網數據的價值。
×××業:籌碼跟蹤數據的價值。
工業發動機和設備:傳感器數據的價值。
視頻游戲:遙測數據的價值。
電信業與其他行業:社交網絡數據的價值。
汽車保險業:車載信息服務數據的價值
車載信息服務在汽車保險行業中的關注度非常高。車載信息服務是通過汽車內置的傳感器和黑盒來收集和掌握車輛的相關信息。我們可以配置不同的方案,使用黑盒來監測所有的汽車數據。我們可以監測車速、行駛里程,以及汽車是否安裝了緊急制動系統。車載信息服務數據能夠幫助保險公司更好地理解客戶的風險等級,并設置合理的保險費率。如果徹底地忽略隱私問題,車載信息服務裝置可以跟蹤到汽車去過的所有地點、何時到達的、以多快的速度、使用了汽車的哪些功能等。
車載信息服務可以潛在地降低司機的保險費率,并提升保險公司的收益。它是怎樣做到在降低費率的同時提升收益呢?答案就在于保險公司要根據風險評估來進行保險定價。傳統的風險評估方法使用的是年齡、人口統計特征以及個人意外傷害歷史這類數據,它們只能提供高層次的概要信息。對于駕駛記錄沒有任何問題的車主,傳統方法根本沒辦法把他們和附近的其他人區分開。
保險公司要未雨綢繆,并做好最壞的打算。它們要弄清楚哪些人放在哪個風險范圍上是最安全的,一般情況下,它們會先假定這些人的風險是位于該風險范圍較高的一端。汽車保險公司對車主的行為習慣和實際風險了解得越詳細,風險范圍就會越窄,同時認定范圍內出現需要提升費率的最壞情況的可能性就會比較小。這就是為什么可以同時降低保險費率和提升收益的原因。如果保險公司認為投保個體的風險較好,那么保險公司將可以更好地了解每個人的風險狀況,預計必須支出的保費就不會發生太大變化。
全球很多國家的保險公司都在使用車載信息服務,而且數量越來越多。早期項目的注意力放在從汽車上收集最少的信息,例如,它們并不關心汽車去過什么地方。早期項目跟蹤的是汽車開了多遠、什么時候開的車、是否超速和是否使用了大量的緊急制動。這些信息都是非常基本的信息,不牽涉到個人隱私,是故意設計成這樣的。因為避免了收集高度敏感的信息,所以才會被廣泛地接受。這個道理也同樣適用于商業車隊。如果保險公司了解到公司車隊更多的用車情況,那么它為公司車隊確定保險費率也就更容易。
車載信息服務數據最初是作為一種工具出現的,它可以幫助車主和公司獲得更好的、更有效的車輛保險。再過一段時間,等到許多交通工具都安裝了車載信息服務裝置后,那時保險業以外的行業也可以使用車載信息服務數據了。現在,公共汽車已經有了車載計算機管理系統,但是車載信息服務設備可以將其提升到一個新的層次。車載信息服務數據還有一些有趣的應用,我們來看一下這些應用。
使用車載信息服務數據
如果車載信息服務真的開始大規模應用,一定會出現許多令人興奮的分析應用。想象一下,以后全國有數以千萬計的汽車都安裝了車載信息服務裝置,那時候第三方研究公司會以匿名的方式為客戶收集非常詳細的車載通信數據。與為保險收集的有限數據不同,這時數據收集是以分鐘或秒為頻率,且收集內容包括但不限于速度、位置、方向和其他有用的信息。
無論交通是否阻塞,無論什么日期,這種數據反饋方式都會提供大量的車載通信信息。研究人員可以知道每輛車在道路上的行駛速度,他們還可以知道車流開始的時間、結束的時間,以及持續的時間。這種真實的交通流信息視圖將會多么令人驚訝!試想這會對交通阻塞和道路系統規劃的研究產生多么大的影響!
無心插柳柳成陰
車載信息服務數據的多種用途只是一個例子,它說明了可以用最初預見不到的方式來使用大數據。對于某種特定的數據源,我們最后發現它最有效的用途可能與其創建之初的用途大相徑庭。面對我們碰到的每一類大數據源,我們要開拓思路,多想想常規之外的其他用途。
如果研究人員能夠掌握大量汽車在每一個高峰時段、每一天、每個城市中的動向,他們就能非常清晰地判斷出車流產生的前因后果。此外,還能查明下述問題的答案。
一個在路中央的輪胎會對交通產生什么影響?
左側車道堵車會發生什么?
如果路口的交通燈不同步,會產生何種結果?
哪些十字路口雖然按照預期設定方式工作,但通行時間的設計仍然不合理?
如果某條道路堵塞,堵塞會以多快的速度蔓延到其他道路?
即使我們集中精力投入到昂貴的測試中,現在要想有效地研究諸如此類的問題也幾乎是不可能的。除非我們安排人手來實際地監測每一條道路,記錄下所有的信息,只有這樣我們才能解決交通堵塞的問題。或者,我們可以安裝大量的傳感器來監測過往的車輛,還可以安裝視頻攝像頭,但這些選擇因為成本問題被嚴重限制了推廣。
交通道路工程師做夢都想得到我們所講的車載通信信息。如果車載通信裝置變得隨處可見,那任何交通擁堵的地方都能被發現。城市道路和交通管理系統的革新,以及城市道路建設規劃,都將惠及普通大眾。車載通信剛開始出現時是為了滿足保險定價的需求,但有了它還可以緩解交通壓力和駕駛員堵車時焦急等待的心情,它的存在終將使高速公路的管理模式發生革命性的改變。
多個行業:文本數據的價值
文本是最大的也是最常見的大數據源之一。想想我們周圍有多少文本信息的存在,電子郵件、短信、微博、社交媒體網站的帖子、即時通信、實時會議以及可以轉換成文本的錄音信息。文本數據是現在結構化程度最低的,也是最大的大數據源。幸運的是,我們在駕馭文本數據、利用文本數據來更好地做商業決策方面已經做了很多工作。
文本分析一般會從解析文本開始,然后將各種單詞、短語以及包含文本的部分賦予語義。我們可以通過簡單的詞頻統計,或更復雜的操作來進行文本分析。自然語言處理中已經有很多諸如此類的分析了,這里我們就不再贅述。文本挖掘工具是主流分析套件中一個不可或缺的組成部分。此外,我們還能找到許多獨立的文本挖掘工具包。其中一些文本分析工具使用基于規則的方法,用戶需要調整軟件才能找到自己感興趣的模式。另一些工具則使用機器學習和其他算法自動地發現數據模式。每種方法都各有利弊,其相關論述已經超出了本書的范圍。我們關心的是如何使用生成的結果,而不是使用工具產生結果的過程。
做完文本解析和分類以后,我們就可以分析這些過程所產生的結果了。文本挖掘過程的輸出結果通常是其他分析流程的輸入。例如,如果能夠分析出客戶使用電子郵件的情感,就能利用一個變量將客戶的情感標記為正面情感或負面情感。這種標記本身是一種結構化的數據,可以作為分析流程的輸入。使用非結構化的文本創建結構化的數據,這個過程通常稱為信息提取。
另一個例子是,假定我們能夠在客戶與公司往來的郵件中識別出他們對公司某些產品的評價,我們就能利用一系列變量來標識客戶的產品評價。這些變量本身也是結構化的度量指標,可以用來做分析。上述這些例子解釋了如何捕獲非結構化數據片段,并從中提取出相關的結構化數據。
從非結構化文本中提取結構數據
文本分析的例子很好地說明了該過程:獲取非結構化數據,然后處理該數據,最后創建出可以用于分析和報表過程的結構化數據。駕馭大數據的一個重要部分是,利用這種創造性的方式將非結構化數據和半結構化數據變成可用于分析的數據。
解釋文本數據實際上是相當困難的。強調的詞匯和語境不同,同一個單詞表達出來的意思就不同。面對純文本,我們根本不知道重點在哪里,也不知道整個語境。這說明我們得事先進行一些假設,我們會在第6 章中更詳細地討論這個問題。
文本分析既是一門藝術,也是一門科學,總會存在一定的不確定性。文本分析往往會有分類錯誤和含義模糊的問題。沒錯,如果我們在文本集合中發現了更好的決策支持模式,那就應該使用它。文本分析的目標是改進你的決策,但并不是令你的決策變得完美。文本數據可以有效地提升決策效果,它能提供比沒有它時更好的結果,即使數據有噪音或含義模糊時,這一點也成立。
使用文本數據
一種目前很流行的文本分析應用是所謂的情感分析。情感分析是從大量人群中挖掘出總體觀點,并提供市場對某個公司的評論、看法和感受等相關信息。情感分析通常使用社會化媒體網站的數據。以下是情感分析的幾個例子。
公司或產品的口碑怎么樣?
大家正在討論的是公司的哪些活動?
大家對公司、產品和服務的評價是好是壞?
如前所述,文本分析的難點在于詞匯和語境是相關的。我們要考慮到這個問題,但大量的評價會讓客戶情感的傾向變得明確。如果我們可以解讀出人們在社交媒體上所說內容、與客服互動信息的趨勢,這會對規劃下一步的工作有很大的價值。
如果公司可以掌握每一個客戶的情感信息,就能了解客戶的意圖和態度。與使用網絡數據推斷客戶意圖的方法類似,了解客戶對某種產品的總體情感是正面情感還是負面情感也是很有價值的信息。如果這名客戶此時還沒有購買該產品,那價值就更大了。情感分析提供的信息可以讓我們知道要說服這名客戶購買該產品的難易程度。
文本數據的另一個用途是模式識別。我們對客戶的投訴、維修記錄和其他的評價進行排序,期望在問題變大之前,能夠更快地識別和修正問題。產品首次發布,然后開始出現投訴,文本分析可以識別出客戶在哪些方面存在問題。我們甚至可以做到在客服電話接二連三打進來之前,先把問題識別出來。這樣我們就能更快地、更積極地做出響應。公司可以及時地做出反應,解決產品未來發行版本中同樣的問題,也能主動與客戶進行接觸,緩解他們當下遇到困難時的焦躁情緒。
欺詐檢測也是文本數據的重要應用之一。在健康險或傷殘保險的投訴事件中,使用文本分析技術可以解析出客戶的評論和理由。文本分析可以將欺詐模式識別出來,標記出風險的高低。面對高風險的投訴,需要更仔細地檢查。另一方面,投訴在某種程度上還能自動地執行。如果系統發現了投訴模式、詞匯和短語沒有問題,就可以認定這些投訴是低風險的,并可以加速處理,同時將更多的資源投入高風險的投訴中。
法律事務也會從文本分析中受益。按照慣例,任何法律案件在上訴前都會索取相應的電子郵件和其他通信歷史記錄。這些通信文本會被批量地檢查,識別出與本案相關的那些語句。例如,哪些電子郵件中有隱藏的內幕消息?哪些人在和別人交流時說的是假話?威脅背后的實質是什么?
在法律案件中應用文本分析的做法稱為電子偵察。所有預先進行的分析將幫助起訴獲得成功。不使用文本分析,僅通過人工的方式將無法瀏覽所有的所需文檔。即使我們可以做到人工瀏覽那些文檔,但因為任務本身過于單調枯燥,我們很可能會漏掉其中的一些關鍵信息。
文本數據可能會對所有的行業都產生影響。它可能是如今使用最廣泛的一類大數據。對企業來講,掌握如何收集、解析和分析文本是很重要的。文本是我們必須駕馭的一種大數據源。
多個行業:時間數據與位置數據的價值
隨著全球定位系統(GPS)、個人GPS 設備、手機的出現,時間和位置的信息一直在增加。從Foursquare 到Google Places ,再到Facebook Places ,它們提供了大量的服務與應用,可以記錄每個人在某個時間點的位置。手機應用程序可以記錄我們的位置和移動的軌跡。即使手機沒有正式開啟GPS ,我們還是可以使用基站信號來獲得相當準確的位置信息。
消費者應用程序中有一些新穎的使用這些信息的方法,這些方法可以捕捉到消費者允許其捕獲的信息。例如,有一些應用使我們可以追蹤鍛煉中行進的路線,路線的長度,以及走完該路線所需要的時間。事實上,如果攜帶了手機,我們就能記錄去過的每一個地方。我們還可以選擇把數據公開給他人。當更多的人向公眾公開了自己的時間和位置數據,就會出現一些非常有趣的事情。
許多公司已經開始意識到掌握客戶的時間與位置數據的威力,它們開始嘗試從客戶那里收集這類信息。當然,這類信息必須建立在篩選的基礎上,并且必須制定明確的隱私政策,并嚴格地遵守這些政策。許多公司推出了令人難以抗拒的位置價值服務,吸引用戶把時間和位置信息開放給它們。
我們并非只想了解消費者的時間和位置信息。卡車車隊的領導也想掌握每輛卡車在某個時間點的位置,比薩店肯定想知道每名外送人員某個時間在什么地方,養寵物的人肯定想知道寵物在外面的什么地方,大型宴會中組織人員需要知道侍者四處走動的效率和響應顧客的速度。
從收集個人、資產的時間和位置數據開始,企業可以快速地進入大數據領域。如果這些信息能夠頻繁地更新就更好了。知道每輛卡車每天早晚的位置是一回事兒,知道每輛卡車每秒鐘在哪兒就是另外一回事兒了。時間和位置數據被采用、應用的程度將越來越高,其造成的影響也將越來越大。
使用時間和位置數據
時間和位置數據是對隱私最敏感的一類大數據。我們面對的不僅有隱私問題,還有道德和倫理問題。我們是否要在孩子們的胳膊上安裝芯片,以便當他們迷路時可以追蹤到他們?老年癡呆患者離家出走或者擅自離開護理機構時我們應該怎么做?當然,時間和位置數據被濫用的可能性會相當高。但從好的方面想,它們被合理使用的可能性同樣也會很高。下面我們來看一些例子。
可能很快人們就會在警察局和消防部門注冊,并提供自己日常會去哪些地方的信息。這樣,如果遇到洪水、火災或封路這類大事件,人們會收到警察局和消防部門發送的警告信息,告訴他們即將路過的地方有情況,提醒他們繞道。如果人們可以主動避開是非之地,就能使交通中斷的時間降到最低,這樣每個人的時間都能節省下來。最后,在得到你的許可后,當地政府甚至可以接收你的實時位置信息。
一種初露端倪的數據使用方法是開發對時間和位置信息敏感的消息通知,這個市場的未來空間很大。通知不再局限于當天或本周,而是根據客戶的時間和位置信息提供最適合的消息通知。現在的做法一般是由客戶簽到并告知他們的位置,這樣他們就能接收到通知信息了。公司能夠持續地跟蹤到客戶的動向,以做出相應的反應。
例如,可能用戶會告訴你,他要在5:30 分離開辦公室回家,大約5:45 到6:00 之間會開車通過5 號出口。他要找地方吃飯,并且想了解你的商店或餐館那個時間有什么食物。你需要在那個時間那個地點提供匹配他的需求的可口飯菜。第二天早上才通過電子郵件告訴他相關的信息顯然已經太遲了,我們要的是當他通過那個地方的那一刻就主動推送給他通知信息。
按照地點和時間主動推送通知信息
營銷領域漸漸顯露出來的一個趨勢是,只對剛好處在某個時間段和某個地點的客戶才針對性地推送通知信息。與根據大范圍的時間和地點發送的通知相比,這種通知的效果更好,針對性更強。早期采用這種作法的企業已經取得了令人吃驚的效果。
當然管理這種通知的復雜性要高不少,因為我們要做的不只是跟蹤每個人當周的服務推薦這么簡單。我們需要關心的是每個用戶每時每刻在什么地方,我們在這個時間點為他們推薦什么東西最合適。根據時間和位置推送通知確實大大地增加了復雜性,并且變得難以管理。但我們相信假以時日,如果我們做得不錯,這種方式的轉化率應該會遠遠超過傳統的個性化推薦。歷史經驗反復地告訴我們,如果通知信息越精準,轉化率就會越高。
使用此類數據的另一種模式是增強型社交網絡分析。無線運營公司可以根據語音和文本交流信息識別出用戶間的關系,借助時間和位置數據可以識別出哪些人在同一時間出現在了同一個地方。例如,哪些人在聽音樂會或看電影?哪些人要去觀看某一場體育比賽?哪些人在同一時間同一餐館就餐?
如果能識別出哪些人大約在同一時間同一地點出現,就能識別出有哪些彼此不認識或者在同一個社交圈子里的人,但是他們都有著很多共同的愛好。想象一下,如果婚介服務能用這樣的信息幫助我們找到自己的另一半那該有多好!我們可以鼓勵人們建立聯系,給他們提供符合個人身份或團體身份的產品推薦。
時間和位置數據不僅可以幫助我們理解客戶的歷史模式,還可以準確地預測客戶未來會出現在什么地方。對于有固定習慣的客戶尤其如此。如果我們知道某個人會在哪里出現,要往哪里去,我們就能預測出他們10 分鐘或一個小時以后會出現在哪里。如果我們知道客戶以前在同一條路上去過哪里,我們就能更準確地做出他現在要去往何處的預測。我們最差也能大大地減少列表上的候選路線,這樣就能支持更精準的營銷。
未來幾年間,時間和位置數據的應用會經歷爆炸性的增長,面向消費者的選擇流程和激勵措施終將成熟。現在我們要小心行事,并在我們使用這些信息之前,獲得用戶的許可。使用時間和位置數據的消息通知將會更有針對性、更個性化。在不遠的將來,如果通知信息不是根據時間和位置推送的,也許會被認為很土。
零售制造業:RFID數據的價值
無線射頻標簽,即RFID 標簽,是安裝在裝運托盤或產品外包裝上的一種微型標簽。RFID 標簽上有一個唯一的序列號,這個序列號與UPC 類似的通用產品標識碼不同。換言之,RFID 標簽不僅能夠識別出托盤上裝的是Model 123 電腦,還能識別出托盤上裝運的是獨一無二的、特定的一套Model 123 電腦。
RFID 讀卡器發出信號,RFID 標簽返回響應信息。如果多個標簽都在讀卡器讀取范圍內,它們同樣會對同一查詢做出響應,這樣辨識大量物品就會變得比較容易。即使當這些東西堆疊在一起或者放到了墻后面,只要信號可以穿透,我們就能得到響應信息。有了RFID 標簽,我們就不再需要人工記錄和盤點每個商品,這樣清點商品的時間就會縮短。
多數用于高價值應用外的RFID 標簽都是被動式的無源標簽,意味著這些標簽是沒有內置電池的。讀卡器的無線電波產生磁場,該磁場給標簽提供了足夠的能量,使得標簽可以將內置信息發送出去。RFID 技術已經出現很長時間了,但成本問題限制了該應用的進一步推廣。今天,無源標簽的成本只有幾美分,而且價格還在不斷下跌。隨著階格的不斷下跌,實際應用情況將會出現持續增長。現在的RFID 技術還有一些問題,例如,液體會屏蔽標簽的信號。隨著時間的推移,這些技術問題都將會得到有效的解決。
有些RFID 應用很多人都曾經接觸過,其中之一就是自動收費標簽。有了它,司機通過高速公路收費站的時候就不需要再停車了。它的工作原理是,交通管理局在所發的卡中植入了RFID 標簽,同時高速公路上安裝了讀卡器;當汽車開過時,標簽會把汽車數據傳到讀卡器,這樣我們開車通過收費站就被記錄下來了。
RFID 數據的另一個重要應用是資產跟蹤。例如,一家公司想把其擁有的每一個PC、桌椅、電視等資產都貼上標簽。這些標簽可以很好地幫助我們進行庫存跟蹤。跟蹤這些物品。如果物品移出指定區域,它們就會發送警告信息。例如,我們可以把讀卡器放在出口處,如果公司資產在沒有被事先批準的情況下出門,警報很快就會響起來,這樣就能起到安全警示的作用了。這種作法類似于零售商店里的物品標簽,如果標簽變為無效,警報就會被拉響。
RFID 最大的應用之一是制造業的托盤跟蹤和零售業的物品跟蹤。例如,制造商發往零售商的每一個托盤上都有標簽,這樣可以很方便地記錄哪些貨物在某個配送中心或者商店。最終,商店中價格很低的商品也可以配備RFID 芯片,或者使用一種類似的新技術。現在我們已經明白了RFID 數據是什么,下面我們來看一看RFID 數據可以從哪些方面來改善當前的商業模式。
使用無線射頻標簽數據
RFID 的一種增值應用是識別零售商貨架上有沒有相應的商品。如果讀卡器能夠連續不斷地確定貨架上每種商品的存量,當需要重新配貨的時候,我們就能得到準確的信息。使用RFID 可以更好地跟蹤貨架的供應狀況,因為商品脫銷和有商品可供應的狀態是完全不同的。一種可能的情況是,商店貨架上沒有該商品了,但后面儲藏室里還有5 件該商品。
在這種情況下,任何傳統的商品脫銷分析都會顯示貨架上現在仍有存貨,因此不需要擔心。當銷售業績開始下滑時,人們才會發現問題所在。如果有RFID 標簽,就可以跟蹤到儲藏室中還有5 件該商品,但貨架上卻沒有該商品了。這樣,我們只需要簡單地從儲藏室把商品搬到貨架上就能解決問題。這個例子在成本和技術上有一些挑戰,但現在大家正在努力克服這些困難。
RFID 還能很好地幫助我們跟蹤促銷展示影響的效果。通常在促銷過程中,商品要擺在商店的許多地點進行展示。從傳統的POS 數據中,我們可以知道促銷商品的銷量,但我們不知道銷售來自于哪個展示點。通過RFID 標簽我們可以識別出商品是從哪個展示點銷售出去的,這樣我們就能評估不同的地點對銷售效果的影響。
RFID 如果和其他數據結合起來,就能發揮更大的威力。如果公司可以收集配送中心里的溫度數據,當出現掉電或者其他極端事件時,我們就能跟蹤到商品的損壞程度。也許倉庫某一區域在停電期間的溫度高達90 攝氏度,且時間長達90 分鐘。有了RFID,我們就能準確地知道在那個時刻哪些托盤位于配送中心的那個區域內,然后我們就能采取相應的行動。倉庫數據還可以和裝運數據匹配起來,如果商品發生了損壞,公司可以有針對性地召回商品,并通知零售商當商品抵達時再次對商品進行開箱檢查。
組合顯神通
就像許多其他大數據源一樣,RFID 數據本身并不能發揮所有的威力。當與其他數據組合起來使用時,它們就能發揮作用。大數據戰略的目標是把大數據和其他數據整合到同一個處理流程中,這一點再怎么強調也不為過。使用大數據并不是一個孤立的工作。
RFID 還有一些操作型應用。有些配送中心商品管理不嚴格,導致商品損壞程度很高。對于某些團隊,甚至某些工人來說確實如此。人力資源(HR)系統會報告誰在任意時間點上工作。當RFID 數據和這類數據組合起來,就能顯示出商品何時被移動了,還能識別出損壞、損耗、偷竊商品概率更高的員工。數據的組合使用,使我們能夠采取更強大、質量更高的行動。
RFID 有一種非常有趣的未來應用是跟蹤商店購物活動,就像跟蹤Web 購物行為一樣。如果RFID 讀卡器植入購物車中,我們就能準確地知道哪些客戶把什么東西放進了購物車,也能準確地知道他們的放入順序。即使并非每種物品都配有標簽,我們仍然可以識別出購物車經過的道路。通過在店面中使用RFID,Web 數據所能帶來的諸多好處都將變成現實。最后兩個例子必須考慮隱私問題,因為也許顧客根本不想讓他們的購物行為被跟蹤。我們可以采用“匿名”購物的方法,不對產生數據的人進行方位識別。
RFID 的最后一種應用是識別欺詐犯罪活動,歸還偷盜物品。如果物品貼有RFID 標簽,零售商可以通過標簽的ID 進行識別,確定返還物品是否屬于偷走的同一批產品,并采取適當的行動。事實上,關鍵在于RFID 的ID 可以作為收據的一部分,輔助返還流程。零售商知道購買商品上貼的是哪個RFID 標簽,而不是像平常那樣只知道你購買了某種商品。當我們來到退貨臺,要把貼有那個標簽的商品退還。我們肯定不能從貨架上拿下來另外一個一模一樣的商品,假裝跟收據一起返還。以這種方式來使用RFID,欺詐將會變得無比困難。
未來幾年RFID 有可能會對制造業和零售業產生巨大的影響。與許多人的期望不同,RFID 的接受速度要慢一些。但RFID 標簽價格在持續下跌,標簽和讀卡器的質量卻在不斷上升,從經濟的角度考慮,RFID 的應用將會更加廣泛。
電力行業:智能電網數據的價值
智能電網是下一代電力基礎設施。與我們周圍經常見到的高壓電傳輸相比,智能電網更先進更可靠。智能電網有非常復雜的監控、通信和發電系統,可以提供穩定如一的服務,如果出現停電和其他問題,可以更好更快地恢復。各類傳感器和監控設備記錄了電網本身和流經電流的許多信息。
智能電網中的一個環節是我們經常提到的智能電表。智能電表是一種傳統電表的替代品。從外觀上看,智能電表和我們一直使用的電表沒有什么不同,但智能電表的功能更強大。以前抄表人員都是每隔幾周或幾個月就挨家挨戶地抄電表,而智能電表可以每隔15 分鐘到一個小時從每一個家庭或企業自動地收集數據,甚至可以跨區或者跨電網收集數據。
雖然我們這里關注的是智能電表,但在智能電網中大量使用的傳感器也值得一提。這些遍布智能電網但我們卻看不到的傳感器,它們收集到的數據從規模上使智能電表數據相形見絀。傳感器每秒鐘要從發電系統讀取60 次同步相量測量值,與記錄家用電器開關狀態的家庭網絡一樣,它們都是大數據的例子。普通人并不知道這些傳感器的存在,但它們對電網來說十分重要。傳感器要讀取所有的電流數據和智能電網的設備狀態,數據量非常非常大。
智能電網技術已經在歐洲和美洲的某些地方開始使用了。我們相信在不久的將來,世界上每一處電網都會被智能電網取代。電力公司因為使用了智能電網,它們所掌握的耗電數據量會以指數級增長。這類數據要怎樣使用?下面我們來看一下。
使用智能電網數據
從用電管理的角度來看,智能電表數據可以幫助人們更好地理解電網中客戶的需求層次。此外,這些數據也可以使消費者受益。例如業主可以選擇把待測試的電器打開,與此同時保持其他電器的穩定,這時從智能電表處可以監控到詳細的電力消耗情況,這樣我們就可以明確地測量出各種電器究竟消耗了多少電量。
世界各國的電力公司現在都已經在積極地轉向這樣的定價模型,即按時間或需求量的變化來定價,智能電網的出現加速了這種趨勢。電力公司的主要目標之一是利用新的定價程序來影響客戶行為,減少高峰時段的用電量。為了應對用電高峰需要另建發電站,需要一大筆錢而且還會對環境造成很大的影響。如果用電成本可以靈活地根據時間來設定,并由智能電表來測量,我們就可以促使客戶改變他們的用電行為。較低的峰值和較為平穩的用電需求等同于更少的對新基礎設施的需求和更低的成本。
當然電力公司通過智能電表提供的數據還能識別出其他的各類趨勢。哪些地方的用電量有所回落?哪些消費者每天或每周的用電需求比較相同?電力公司可以根據使用模式對客戶進行分類,可以選擇針對某些特定的群體開發產品和活動。使用這些數據我們還可以識別模式出現異常的那些地方,它們揭示了需要解決的問題。
實際上,電力公司有能力執行其他行業已經使用多年的客戶分析工作。例如,電話公司知道我們月底的所有賬單,但并不知道我們具體的通話。零售商店只知道整體銷售狀況,而不知道任何購買的細節信息。一家金融機構知道我們的月終余額,但并不了解我們這個月的資金流動狀況。從很多方面講,電力公司面對的這類數據對于理解客戶而言仍略顯不足。它們也有簡單的月終匯總數據,但這種月結數據往往是估計值而不是實際的耗電量。
大數據可以改變一個行業
有時候,大數據真的可以改變一個行業,可以把分析應用提升到一個全新的高度。電力行業使用的智能電網數據就是一個這樣的例子。不再受每月一次抄表的限制,耗電信息會以秒鐘或分鐘為間隔被測量。遍布電網的精巧傳感器,使數據的使用變得與以往完全不同。以此開展的數據分析會在費率套餐、用電管理等諸多方面產生很多創新。
有了智能電表數據,我們就可以進行全新的分析,使大眾全都受益。消費者可以根據自己的使用模式定制費率套餐,就像車載信息服務支持個性化的汽車保險費率那樣。高峰時段用電客戶比非高峰時段用電客戶的收費要高。面對這樣的刺激政策,我們會改變自己的用電模式,可能我們會在下午晚些時候再使用洗碗機而不是吃完午飯就馬上使用。
電力公司也會有更準確的需求預測,它們能更清晰地識別出需求來自于哪些地方。它們還能了解某一類客戶在某個時間的用電需求。電力公司可以使用不同的方法來驅動各種行為,使需求更加平穩,并降低異常需求峰值出現的頻率。所有這些都會使對昂貴的新發電設備的需求受到抑制。
每一個家庭、每一個行業都能感受到智能電表數據產生的威力,這些數據能夠讓我們更好地跟蹤、更積極地管理用電情況。我們不僅能節約用電,也能使這個世界更加低碳,還可以幫助大家省錢。如果我們能清楚地知道自己的耗電量比預期要多,我們肯定就會根據需要做出適當的調整。如果只使用每月賬單,我們將無法識別出這種機會。但是,智能電表數據將使這一切變得簡單。
×××業:籌碼跟蹤數據的價值
前面我們已經討論了RFID 技術是如何應用在零售業和制造業的。RFID 技術的用途實際上更廣泛,許多應用都會產生大數據。RFID 標簽的另外一種應用是貼在×××用的籌碼上面。每一個籌碼,特別是高價值的籌碼都有自己的內置標簽,這樣×××就可以通過標簽的串行編號實現唯一的識別。
×××里用的×××已經被跟蹤了許多年。一旦我們在×××上刷了經常使用的玩家卡或者信用卡,那我們每次搬動手柄按下按鍵的動作就會被跟蹤。當然你的賭注和你贏的錢也會被跟蹤。雖然×××模式的分析歷史悠久,但×××仍然沒有從桌面游戲中捕捉到足夠多的細節。現在這個過程正在發生變化,標簽已經開始被植入游戲籌碼。
以前×××會用功能強大的安全攝像頭網絡跟蹤籌碼,地勤人員的工作是保證籌碼上下左右的移動是合理的。賭臺經理要尋找常客,估算他們的平均投注和玩的時間,并給這種常客獎勵。雖然賭臺經理精于此道,同時還能獲得其他人員的幫助,但游戲獎勵多多少少總會不夠準確。如果被監視的玩家碰巧比平常投注多那么一點或少那么一點,就會發生這種不準確的情況。有些玩家如果認為他們自己正在被監視,他們會利用系統規則增加投注來牟利。
同類技術可以驅動多種×××
零售商和制造商都使用了RFID 技術。×××行業也是如此。它們使用RFID 的方法有許多不同之處,但也有許多相似之處。最有趣的是,一種技術可以在不同的行業使用,形成各個行業獨特的大數據源。
籌碼跟蹤是一種特殊的RFID 應用,除了這個例子外,RFID 還有很多其他的應用。這個例子說明了一些底層相同的技術可以支持不同的×××,這些×××本質相同,但范圍和應用卻完全不同。讓我們興奮的是,這種基礎技術有著完全不同的用處,產生了多種行業里形式各異的大數據。
工業發動機和設備:傳感器數據的價值
世界各地安裝了許多復雜的機器和發動機,例如,飛機、火車、軍車、建筑設備、鉆孔設備等。因為造價昂貴,保持這些設備的穩定運轉是非常重要的。近些年來,從飛機發動機到坦克等各種機器上也開始使用嵌入式傳感器,目標是以秒或毫秒為單位來監控設備的狀態。
監測工作可以做得相當細,特別是在測試和開發過程中。例如,當新的發動機開發出來,就得依靠獲取到的足夠多的細節信息,來檢查發動機是否可以按照預期設定的方式工作。一旦新發動機進入市場,再想更換有缺陷的部件的花費會相當高,因此我們需要事先詳細地進行性能分析。監測是一項不斷持續的活動。也許我們并不需要持續收集每一毫秒的細節信息,但如果能夠收集到大量的細節信息,我們就可以評估該設備的生命周期,識別出重復出現的問題。
例如,發動機傳感器可以收集到從溫度到每分鐘轉數、燃料攝入率再到油壓級別等信息,而數據可以根據預先設定的頻率獲取。當讀數頻率、讀取指標數量和監控項目數量增加時,數據量會迅速增加。為什么我們要關心這一點?下面我們來看一些例子。
使用傳感器數據
發動機的結構很復雜,有很多移動部件,必須在高溫下運轉,會經歷各種各樣的運轉狀況。因為它們的成本太高,所以期望壽命越長越好。因此,穩定的、可預測的性能就變得異常重要,因為機器的壽命依賴于此。例如,對故障飛機進行保養維修會花掉航空公司或者空軍部隊一筆不小的錢,但這種事情我們還必須做,因為我們要識別出飛機是否存在安全隱患。因此,飛機或者飛機發動機以及其他設備的停機時間一定要降到最低,航空公司或者空軍部隊對此都有非常迫切的需求。
停機時間最小化策略包括準備備件或后備發動機快速割接時需要維修的設備、從診斷結果中快速識別需要更換的部件、針對問題部件投資開發更可靠的新版本。要想有效實施這3 種策略,必須得有數據。我們要用數據生成診斷算法,或者用數據作為輸入來診斷某個特定的問題。工程部門可以使用傳感器數據準確地定位問題的原因,設計新的措施支持更長、更可靠的操作。不管發動機是飛機的,還是船只的,或者是陸地設備的,這些考慮因素都適用。
通過提取和分析詳細的發動機運轉數據,我們可以精確地定位那些會導致立即失效的某些模式。然后我們就能識別出會降低發動機壽命的時間分段模式以及更加頻繁的維修。多個變量的排列組合數目,特別是一段時間內的排列組合數目,使得這類數據分析活動變成了一項挑戰。這個過程不僅會涉及到大數據,就連隨之開發出來的分析也會變得異常復雜和困難。以下是我們可以研究的一些問題。
壓力驟然下降是否表示一定就會出問題?
溫度在幾小時內持續下降是否意味著還有其他問題?
振動水平異常是否意味著有問題?
發動機啟動時的飛速轉動是否讓某些部件的性能嚴重受損,而且還會增加維修的次數?
幾個月內油壓一直比較低,是否會使發動機的某些部件受損?
結構化數據內缺少結構性
傳感器數據給我們帶來了一個非常艱巨的挑戰。雖然我們收集到的數據是結構化的,獨立的數據元素也很好理解,但元素之間的時間關系和模式卻根本無法理解。延時和無法測量的外部因素增加了問題的復雜性。如果要考慮所有的信息,識別各種數據長期的作用效果,這個過程會異常復雜。擁有結構化數據并不一定能夠保證分析方法就是高度結構化和標準化的。
在出現嚴重問題的時候,先回頭去檢查當時發生了什么,一直檢查到問題自己露出馬腳,這種做法會非常奏效。傳感器的作用類似于依靠飛機黑匣子的幫助診斷失事原因。發動機傳感器數據可以用于診斷活動和研究行為。從概念上講,相對于先前我們講到的汽車保險案例中的信息服務設備,我們這里討論的傳感器是一種更復雜的形式。傳感器不斷感知周圍環境并獲得數據信息,這是大數據世界中反復討論的一個主題。雖然我們這里討論的是發動機,但傳感器還有數不清的各類用途,這里討論的原則也同樣適用。
如果大量傳感器都長時間重復著傳感器數據收集流程,那會產生大量豐富的分析數據。只要好好地分析這些數據,就能發現設備的缺陷,就有機會主動修復這些問題。我們還可以把設備中的弱點先行識別出來。隨后,我們可以制定好流程,緩解這些發現帶來的問題。這些措施帶來的收益不止是安全級別的提升,還會讓我們的成本下降。使用傳感器數據,發動機和設備都會更加安全,能夠提供服務的時間就會比較長,這樣運營會比較平穩,成本也會比較低。這是一種通贏的做法。
視頻游戲:遙測數據的價值
遙測數據是視頻游戲產業的一個術語,用來描述捕捉游戲活動的狀況。其概念與我們在第2 章所講的網絡大數據無異,這是因為遙測數據收集的是玩家在游戲中的活動情況。遙測數據的收集對象多數情況是在線游戲而非掌上游戲。
在曲棍球比賽中,遙測數據收集的是運動員在擊球進門時,何時進的球,用的哪種擊球方法,球速多少。在戰爭游戲中,遙測數據收集的是用哪種×××開的火,在哪里開的火,向哪個方向開的火,×××對各種東西的破壞程度。從理論上講,相關場景和活動的所有細節都能夠被收集到。
視頻游戲制造商從中不僅可以很容易地了解到有多少客戶購買了游戲軟件,還能知道游戲被玩了多少個小時。使用遙測數據,游戲制造商可以了解到客戶的私人信息,他們實際的玩法,他們是如何與自己創建的游戲進行交互的。我們收集到的游戲數據可能會很大,但視頻游戲行業已經開始積極地分析這些數據了。遙測數據對很多領域都產生了影響。從遙測數據的優勢和用途來看,很容易發現它和網絡數據之間的相似性。下面我們來看一些例子。
使用遙測數據
許多游戲都通過訂閱模式掙錢,因此維持刷新率對這些游戲就會非常重要。通過挖掘玩家的游戲模式,我們就可以了解到哪些游戲行為是與刷新率相關的,哪些是無關的。例如,也許在體育游戲比賽時,使用某些輔助功能會大大提升刷新率。游戲制造商會采取措施來吸引玩家嘗試比賽,以誘使他們使用以前不曾使用過的功能。
遙測數據只會越來越大
現在,遙測數據捕捉的對象大多是控制手柄或鍵盤行為。隨著交互式游戲的發展,它們可以做到跟蹤玩家的動作,而不是依賴于控制手柄,數據量也會因此激增。了解玩家在什么時間按下了什么按鈕,這類數據量要比了解他身體上的某個部位在某個時刻的空間位置以及移動方向和速度小得多。
比較新的游戲往往喜歡讓玩家花一點小錢在游戲過程中購買物品,這就是所謂的微交易(microtransaction)。例如,一種特殊的武器只賣10 美分。我們可以對游戲進行分析,識別出在哪些地方這類微交易的成功率會比較高。也許游戲中的某個地點提供一種非常順手的武器,這種武器會引起玩家的瘋搶。我們可以使用屏幕的快速提示來告訴玩家現在有武器可以購買,這樣許多玩家都會選擇購買該武器裝備。
與其他行業類似,在視頻游戲產業中,客戶滿意度同樣也是一個大問題。視頻游戲的獨特之處在于要設置一條非常非常精彩的行進路線。游戲要給玩家提供挑戰機會,但挑戰不能過度,過度的挑戰會讓玩家有挫敗感進而放棄游戲。如果游戲過于簡單或者過于復雜,玩家就會感到厭倦并轉向其他游戲。
通過游戲分析,我們能夠識別出游戲中哪些關卡每名玩家都能輕松過關,哪些關卡即使是最頂級的玩家也很難過關。我們可以增加或減少這些地方的敵人,盡量使難度等級比較平衡。平衡的游戲難度等級可以為玩家提供更加一致的體驗,也會讓他們更有滿足感。這樣會導致更高的刷新率和更多的購買行為。
通過遙測數據,玩家還可以根據游戲風格進行分類。使用這類信息既可以設計出更優秀的游戲,又能交叉銷售現有的產品。其中某個玩家族群可以全身心地投入到游戲通關中,而另一個玩家族群可以負責在通關前收集所有的獎品,最后一個玩家族群則可以在收關前探索關卡中的所有角落。通過這種組合,每個玩家都可以在游戲中使用自己最喜歡的游戲方法進行訓練。
遙測數據能夠了解到玩家的認知層次,基于此可以改變整個游戲業。游戲業已經開始使用遙測數據,相信在不久的將來這個領域將會得到長足的發展。依據遙測數據分析的效果,游戲制作和推廣的方式將會發生巨大的改變。
電信業與其他行業:社交網絡數據的價值
與傳統數據相比,社交網絡數據本身就是一種大數據源,即使從很多方面來看,它更像是一種分析方法學。其中的原因在于,執行社交網絡分析的過程需要處理已經無比龐大的數據集,此外,還要使用行之有效的方法將處理規模提升幾個數量級。
有人會爭辯說,移動運營商拿到的全部移動電話的話單或者短信記錄本身就是大數據,且這種數據可以用于多種用途。但是,社交網絡分析關注多個關系維度而非單個維度,從而可以做到更上一層樓。這也就是社交網絡分析可以把傳統的數據源變成大數據的原因。
對于現代電話公司,僅僅看通話量是不夠的,電話公司還需要把通話作為獨立實體進行分析。社交網絡分析首先要看有哪些人參與了通話,然后再用更深入的視角進行分析。我們不僅要知道自己給誰打了電話,還要知道我致電的那個人還給誰打了電話,這些人接下來又打給了什么人,依此類推。要想得到社交網絡的全景圖,我們就得觸及系統能夠處理的上限。多層客戶與客戶之間的導航關聯以及多層通話都會使得數據量倍增。此外,它還增加了分析的難度,尤其是使用傳統工具時的分析難度。
同樣的概念也適用于社交網絡站點。通過分析社交網絡中的某個成員,不難分析出這個成員有多少關聯關系,她發短信的頻率,她訪問站點的頻率,以及其他一些指標。但是,當成員與其朋友、與朋友的朋友、與朋友的朋友的朋友都有關聯關系時,這時了解網絡邊界所需要的處理量就會大得多。
一千個成員或用戶不難跟蹤。但是,他們之間的直接關聯關系會上升到百萬級別,而再考慮到“朋友的朋友”則會升至十億級別。這就是社交網絡分析是一個大數據問題的原因所在。今天,已經有了大量的應用來分析這種關聯關系。
使用社交網絡數據
社交網絡數據及分析有一些影響深遠的應用,其中一種重要的應用正在改變著公司評價客戶的行為。和以前只看個人的情況不同,現在參考的是他們的網絡整體價值。我們這里談的例子也同樣適用于許多其他的行業,在這些行業里我們同樣需要了解人與人或者群體與群體之間的關系,但現在我們關注的是手機用戶,因為在這里這種方法的應用范圍最廣。
假定電信運營商有一個價值相對較低的用戶。這名用戶只有基本的通話需求,不會為運營商帶來任何增值收入。事實也是,不能創造利潤的客戶就是沒有價值的。運營商以往的作法是,只根據他或她的個人賬戶來對其進行評價。以前如果這名客戶打電話投訴或者威脅要更換運營商,公司可能不會挽留他,因為它們認為這名客戶并不值得挽留。
使用社交網絡分析技術,雖然我們的客戶通話賬單看似價值不高,但我們可以識別出客戶曾經和某些人通過電話,而這些人是有著廣泛交際圈的重量級人物。換句話說,客戶聯系對運營商而言是非常有價值的信息。研究表明,一旦某位成員離開通話的圈子,其他成員很可能會跟著離開,更多的成員開始離開,就像傳染病一樣。很快,圈內成員開始雪崩般地離開,顯然這是壞事一樁。
超越個人價值
社交網絡數據非常吸引人的一個好處是,它能夠識別出客戶能影響的整體收入,而不僅僅是他或她自己提供的直接收入。不同的角度會大大影響投資某個客戶的決策。能夠產生高影響力的客戶需要被細心照料,因為他們能產生本身直接價值以外的更大價值。如果要使其網絡整體利益最大化,這種最大化的優先級要高于其個體利益的最大化。
使用社交網絡分析,我們可以理解本例中客戶對企業的總體價值而非只是其所產生的直接價值。這種處理客戶的決策完全不同。電信運營商對客戶過度投資的原因是要維護客戶網絡。我們可以準備好商業案例來維護更廣的客戶圈,而不只是保護客戶個體的價值。
上面的這個例子非常棒,它解釋了大數據分析是怎樣在以往未曾出現過的新決策環境中產生重大價值的。如果沒有大數據,客戶會被批準更換運營商,當他的朋友們也隨之而去,電信運營商將看到雪崩般的損失。現在目標已經從個體賬戶的利益最大化轉向了客戶社交網絡利益的最大化。
識別有著廣泛聯系的客戶也能幫助我們把注意力放到最能影響品牌形象的地方。我們可以給有廣泛聯系的客戶自由試用的機會,并記錄下他們的反饋。我們要做出努力,讓客戶主動地參與公司的社交網站站點,激勵客戶寫評論和表達觀點。有些公司積極地招募有影響力的客戶,給他們獎勵、提前試用的機會和其他好處。作為回報,那些有影響力的客戶會持續地發揮他們的影響力,因為如果受到優待,他們的語氣往往會更加積極主動。
LinkedIn 或Facebook 等社交網站正在利用社交網絡分析技術來洞察哪些廣告會對何種用戶構成吸引。我們關心的并不僅僅是客戶自己表達的興趣,與此同等重要的是,我們還要了解他的朋友圈和同事圈對什么有興趣。社交成員永遠也不會在社交網站上表露自己的全部興趣,我們也不可能了解到關于他的所有細節。但是,如果客戶一大部分朋友都對騎單車感興趣,我們就可以推導出這名客戶也對單車有興趣,即使他永遠也沒有直接表達過。
執法部門和反恐部門也可以從社交網絡分析中受益。我們可以識別出哪些人和問題人群或者問題個人有聯系,甚至有間接聯系。我們通常把這類分析稱為鏈接分析。有可能是某個個人或者群體、甚至是某個俱樂部或者餐館跟壞人有聯系。如果我們發現有人和許多壞人在多個地方出入,他或她就會被定位,我們會認為這些人值得更深入地監控分析。雖然這會涉及到隱私問題,但實際上這種分析已經開始被使用。
對于在線視頻游戲領域,這類分析也是有價值的。誰在和誰玩?游戲內部的模式是如何變化的?社交網絡分析拓展了前面講到的遙測數據的應用范圍。我們可以識別出某位玩家在不同游戲中的首選伙伴。前面我們已經討論過如何根據玩家個人的玩法對玩家進行分類。玩法相近的那些玩家已經在組隊玩游戲了嗎?玩家們需要的是不是混搭風格?了解這類信息就可以知道游戲制造商是不是想讓玩家組隊玩游戲(例如,對玩家提出建議,當玩家登錄并開始玩游戲的時候,他應該優先選擇加入哪個編組)。
關于組織之間聯系的方式還有不少有趣的研究。這些研究最開始關注的是通過電子郵件、電話、短信建立起來的聯系。公司各部門之間是不是按照期望的方式在聯絡?是不是有些員工通過典型渠道之外的方法在聯系呢?誰在內部擁有廣泛的影響力,且是參與研究如何更好地改善公司內部溝通機制的最佳人選?這類分析可以幫助公司更好地理解人與人之間的溝通方式。
社交網絡分析的流行度和影響度一定會持續下去。因為社交網絡分析流程本身會保持指數級的增長態勢,因而數據源就會變得比初始構想的要大得多。也許最有效的功能是提供關于客戶整體影響和價值的洞察,而這種洞察可以完全顛覆企業對客戶的看法。
總結:
雖然各行各業都有廣泛的大數據源,但它們仍有一些共同的主題。雖然目的不同,但各行各業都使用了相同的底層技術,如RFID。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。