亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章

發布時間:2020-06-22 08:41:20 來源:網絡 閱讀:376 作者:程序員碼農 欄目:大數據

眾所周知,移動互聯網、社交媒體、電子商務和各種傳感器的運用產生了超大數據集,挖掘這些數據可以提煉出有用的信息。

本篇以大數據環境下的數據挖掘和機器學習為重點,全面介紹了實踐中行之有的數據處理算法,是在校學生和相關從業人員的必備讀物。主要內容包括10大內容:

◆分布式文件系統以及MapReduce工具;

◆相似性搜索;

◆數據流處理以及針對易丟失數據等特殊情況的專用處理算法;

◆搜索引擎技術,如谷歌的PageRank;

◆頻繁項集挖掘;

◆大規模高維數據集的聚類算法;

◆Web應用中的關鍵問題一廣 告管理和推薦系統;

◆社會網絡圖挖掘;

◆降維處理,如SVD分解和CUR分解;

◆大規模機器學習。


數據挖掘基本概念

本章為全書的導論部分,首先闡述數據挖掘的本質,并討論其在多個相關學科中的不同理解。

接著介紹邦弗朗尼原理( Bonferroni's principle), 該原理實際上對數據挖掘的過度使用提出了警告。

本章還概述了一些非常有用的思想,它們未必都屬于數據挖掘的范疇,但是卻有利于理解數據挖掘中的某些重要概念。這些思想包括度量詞語重要性的TF.IDF權重、哈希函數及索引結構的性質、包含自然對數底e的恒等式等。最后,簡要介紹了后續章節所要涉及的主題。

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章cdn.xitu.io/2019/12/3/16eca3f71d5b1be9?imageView2/0/w/1280/h/960/format/webp/ignore-error/1">


相似項發現

一個基本的數據挖掘問題是從數據中獲得“相似”項。我們將在3.1節中介紹該問題的相關應用,并且給出一個具體的Web網頁近似查重的例子。這些近似重復的網頁可能是抄襲網頁,或者僅僅是主機及其他鏡像網頁信息有所不同的鏡像網頁。

首先我們將相似度問題表述為尋找具有相對較大交集的集合問題,接著我們介紹如何將文本相似問題轉換為上述集合問題并通過著名的“shingling" 技術來解決。然后,我們介紹一一個稱為最小哈希( minhashing)的技術,它能夠對大集合進行壓縮,并且可以基于壓縮后的結果推導原始集合的相似度。當相似度要求很高時,也可以使用-些其他的技術,這些技術將在3.9節進行介紹。

任意類型的相似項搜索中存在的另外-一個重要問題是,即使對每項之間的相似度計算非常簡單,但是由于項對數目過多,無法對所有項對檢測相似度。針對該問題,催生了一種稱為局部敏感哈希( Locality Sensitive Hashing,簡稱LSH )的技術,該技術能夠把搜索范圍集中在那些可能相似的項對上面。

最后,我們不再將相似度的概念限制在集合的交集運算上,而是考慮在任意空間下的距離度量理論。與此同時,這也激發了一個LSH的通用框架的出現,該框架能夠應用在相似度的其他定義中。

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


數據流挖掘

本書介紹的大部分算法都假定是從數據庫中進行挖掘。也就是說,如果真需要數據的時候,所有數據都可用。本章中,我們將給出另外- -種假設:數據以一-個或多個流的方式到來,如果不對數據進行及時的處理或者存儲,數據將會永遠丟失。此外,我們假定數據到來的速度實在是太快,以致將全部數據存在活動存儲器( 即傳統數據庫)并在我們選定的時間進行交互是不可能的。

數據流處理的每個算法都在某種程度上包含流的匯總( summarization)過程。我們首先考慮如何從流中抽取有用樣本,以及如何從流中過濾除大部分“不想要” 的元素。然后,我們展示如何估計流中的獨立元素個數,其中估計方法所用的存儲開銷遠少于列舉所有所見元素的開銷。

另外一種對流進行匯總的方法是只觀察一個定長“窗口”,該窗口由最近的n個元素組成,其中n是某個給定值,通常較大。然后我們就當它是數據庫的一一個關系-樣對窗口進行查詢處理。

如果有很多流并且/或者n很大,我們可能無法存下每個流的整個窗口。因此,即使對這些“窗口”我們都需要進行匯總處理。對于-一個位流窗口,其中的1的數目的近似估計是一個基本問題。

我們將使用一種比存儲整個窗口消耗空間要少很多的方法。該方法也能推廣到對各種求和值進行近似。.

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


頻繁項集

本章主要關注數據刻畫的一類主要技術一頻繁 項集發現。該問題常常被看成“關聯規則”發現,盡管后者主要是基于頻繁項集發現而實現的一一種更復雜的數據刻畫方式。

首先,我們介紹數據的“購物籃”模型,其本質上是“項”和“購物籃”兩類元素之間的多對多關系。但是其中有一些關于數據形狀的假設。頻繁項集問題就是尋找出現在很多相同購物籃中(與該購物籃相關的)的項集。

頻繁項集發現問題和第3章討論的相似性搜索不同,前者主要關注包含某個特定項集的購物籃的絕對數目,而后者的主要目標是尋找購物籃之間具有較高重合度的項集,不管購物籃數目的絕對數量是否很低。

上述差異導致了一類新的頻繁項集發現算法的產生。我們首先介紹A-Priori算法, 該算法的基本思路是,如果-一個集合的子集不是頻繁項集,那么該集合也不可能是頻繁項集。基于這種思路,該算法可以通過檢查小集合而去掉大部分不合格的大集合。接著,我們介紹基本的A-Priori算法的各種改進,這些改進策略集中關注給可用內存帶來很大壓力的極大規模數據集。

再接下來,我們還會考慮一些更快的近似算法,這些算法不能保證找到所有的頻繁項集。這類算法當中的一些算法也應用了并行化機制,包括基于MapReduce框架的并行化方法。

最后,我們將簡要地討論數據流中的頻繁項集的發現問題。

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


推薦系統.

有一類包羅萬象的Web應用涉及用戶對選項的喜好進行預測,這種系統稱為推薦系統( recommendation system )。本章將首先給出這類系統的一些最重要應用樣例。

但是,為了集中關注問題本身,下面給出兩個很好的推薦系統樣例:

(1)基于對用戶興趣的預測結果,為在線報紙的讀者提供新聞報道;

(2)基于顧客過去的購物和/或商品搜索歷史,為在線零售商的顧客推薦他們可能想要買的商品。

推薦系統使用一系列不同的技術,這些系統可以分成兩大類:

  1. 基于內容的系統(Content-basedSystem)這類系統主要考察的是推薦項的性質。例如,如果一個Netlix的用戶觀看了多部西部牛仔片,那么系統就會將數據庫中屬于“西部牛仔”類的電影推薦給該用戶。

  2. 協同過濾系統( Collaborative Filtering System )這類系統通過計算用戶或/和項之間的相似度來推薦項。與某用戶相似的用戶所喜歡的項會推薦給該用戶。這類推薦系統可以使用第3章的相似性搜索和第7章的聚類技術的基本原理。但是,這些技術本身并不足夠,有一些新的算法被證明在推薦系統中十分有效。

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


大規模機器學習

現在有很多算法被歸入“機器學習”類。同本書介紹的其他算法一樣,這些算法的目的都是從數據中獲取信息。所有數據分析算法都是基于數據生成概要,基于這些概要信息可以進行決策。

在很多例子中,第6章介紹的頻繁項集分析方法都生成了關聯規則這類信息,這些信息可以用于規劃銷售策略或者為其他目標服務。

然而,稱為“機器學習”的算法不僅能夠對數據進行概括,還可以將它們視作模型的學習器或者數據的分類器,因而可以學到數據中未來可以見到的某種信息。例如,第7章介紹的聚類算法可以產生- -系列簇,這些簇不僅能告訴我們有關被分析數據(訓練集)的信息,而且能夠將未來數據分到聚類算法生成的某-個簇當中。 因此,機器學習愛好者通常用“非監督學習”這個新詞來表達聚類,術語“非監督”( unsupervised )表示輸人數據并不會告訴聚類算法最后輸出的簇到底應該是什么。而在有監督( supervised )的機器學習(本章的主題)中,給出的數據中包含了至少對- -部分數據進行正確分類的信息。已經分好類的數據稱為訓練集( training set )。

本章并不打算全面介紹機器學習中所有的方法,而只關注那些適用于處理極大規模數據的方法,以及有可能并行化實現的方法。我們會介紹學習數據分類器的經典的“感知機”方法,該方法能夠找到-一個將兩類數據分開的超平面。之后,我們會考察-一些更現代的包括支持向量機的技術。與感知機類似,這些方法尋找最佳的分類超平面,以使盡可能少(如果有的話)的訓練集元素靠近超平面。最后討論近鄰技術,即數據按照某個空間下最近的一些鄰居的類別進行分類。

大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章


由于篇幅過長,小編這里就不做過多的介紹了,想必大家對數據挖掘和分布式也有自己的一些了解和見解,但是呢,我相信大家對大規模這個數字還有些概念上的差距,希望大家能夠仔細品讀這篇的真諦!

那么,大家如果是需要這篇【大數據互聯網大規模數據挖掘與分布式處理】技術文檔的話,++我V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以獲取了。


大牛用三年譜寫出大數據互聯網大規模數據挖掘與分布式處理新樂章





向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

垦利县| 汉沽区| 嘉定区| 民县| 永定县| 合水县| 全州县| 拜城县| 湘阴县| 兴宁市| 黑龙江省| 榆树市| 潞城市| 林甸县| 博野县| 新竹市| 永胜县| 海林市| 清涧县| 柘城县| 称多县| 营口市| 蕉岭县| 喜德县| 彰化县| 铁力市| 明光市| 马关县| 阿坝| 沐川县| 抚松县| 迁安市| 永泰县| 仁化县| 宜良县| 渝中区| 平顶山市| 洞口县| 高邮市| 文登市| 成安县|