您好,登錄后才能下訂單哦!
呆鳥說:“數學,讓我頭痛,翻譯本文讓我頭疼欲裂。不過,數據分析師不懂點數學,也實在說不過去,所以就有了這篇文章。”
介紹
數學是現代科學的基石,幾乎所有現代科學都與數學密不可分,尤其是數據科學與機器學習。
要想成為資深數據分析師,必須具備一定的數學知識,熟練應用數學技巧,才能更好地使用程序自帶的算法。比如說,理解了算法背后的數學知識,能更好地理解用戶推薦系統的機制。
總之,學好數學對數據分析師來說,有百利而無一害,既可以讓你在工作中脫穎而出,還可以讓你更加自信。相信我,了解算法背后的運行機制,比那些只會使用工具的同行會有更多優勢。
毋庸置疑,成為頂級數據分析師并不容易,高超的編程技能、精明的商業頭腦、對數據的獨特見解,以及強烈的好奇心,這些一樣都不可少。 而本文要告訴你的是,想要成為優秀數據分析師要掌握哪些必要的數學知識。
新手入門
計算機硬件、商務零售、醫療保健、商業管理等領域浸淫已久的專業人士想轉行數據分析這一領域,首先要掌握一些必要的數學知識。
雖然,有人可能會覺得之前的工作已經處理過大量的數據報表、完成了大量的數據計算和趨勢預測工作,但數據分析工作所需的數學技能和這些數字工作的區別其實很大。
為什么數學如此重要 - 因為數據科學是科學,而不只是數據
網絡工程師也好,商業分析師也罷,即便每天處理很多數據,但他們的工作重點并不是數據建模。因為時間壓力,往往只是“用數據完成手頭上的工作,趕緊過關了事”,而不是深入研究數據,探索數據的內在關系。不管怎樣, 數據科學是科學,而不只是數據。那么數學能力都有哪些呢?可以參考如下幾點:
研究底層動態,創建數學實體或信息流程模型
提出假設命題
嚴格評估數據源的質量
量化及預測數據的不準確程度
培養識別信息流潛在模式的敏感度
能夠理解模型的局限
能夠理解數學論證及背后的抽象邏輯
這些都是為了培養對理解枯燥的數字、抽象的數學實體及其性質和關系的能力,在大學四年的數學課程中即可學到,并且,不必非得從頂級大學中以優異的成績畢業才能獲得這些數學能力。
況且,我要說的還不是大一學的微積分,而是一些簡單的東西,比如數字2,請看下面這個場景…
一大早,剛到辦公室,正準備開始一天的工作,著手編制復雜的商業圖表。領導突然給你布置了一項極具挑戰的任務 --- “2分鐘內證明2的平方根不是有理數。”
啥……,您剛才說什么有理?
瞧,不懂點數學,直接就懵逼了……
打斷一下,告訴我怎么干能成功就可以了
這正是我想說的,想學好數據分析沒有一定之規。數據分析,從根本上來說,是一種職能,而非行業領域,數據分析可以處理×××診斷,社交行為分析等各類現象,由此產生的交叉可能性包括多維數組數學對象、統計分布、優化客觀函數等等等等……
打住,您先歇會兒……
這都說的是什么東西啊?真的假的?
怎么說呢,要想玩轉數據分析,下面這些內容可要費點心思好好研究一下。
一、函數、變量、方程、圖
學什么
從最簡單的學起,比如線性方程、二項式定理及其性質。
對數、指數、多項式函數、有理數
基本幾何定理、三角恒等式
實數和復數及其基本性質
級數、求和與不等式
繪圖、制圖、笛卡爾系和極坐標系、圓錐曲線
怎么用
要理解百萬量級數據排序后再搜索會快多少,首先要理解什么是二分法搜索,要理解二分法搜索,就要懂得什么是對數,什么是遞歸方程式。還有,如果想分析時間序列,就要了解周期函數和指數衰減的概念。
在哪兒學
數據科學的數學 - Coursera
代數簡介 - edX
可汗學院 - 代數
二、統計學
學什么
統計學可是數據分析師的必備技能。想做數據分析必須要有堅實的統計學與概率論基礎,這點就不用多說了。除了新出現的神經網絡機器學習,傳統的機器學習其實就是統計學習,比如李航的統計學習方法講的就是機器學習原理。統計學的內容非常廣泛,我們只要關注最核心的概念就可以了。
數據摘要與描述性統計:集中趨勢、方差、協方差、相關性
概率論基礎:基本理念、期望、概率演算、貝葉斯定理、條件概率
概率分布函數:均勻分布、正態分布、二項分布、卡方分布、學生t分布、中心極限定理
采樣、測量、誤差、隨機數生成
假設檢驗:A/B檢驗、置信區間、P值
方差分析(ANOVA)、t檢驗
線性回歸、正則化
怎么用
面試的時候就會用得上,相信我,作為準數據科學家,如果把統計學的概念搞得清清楚楚、明明白白,一定能讓面試官刮目相看。當上了數據科學家,統計學更是常用的工具。
在哪兒學
用 R 學統計學專業?—?Coursera,杜克大學
Python 數據科學 - 統計學與概率論?—edX,加利福尼亞大學
商務統計與分析專業課?—Coursera,萊斯大學
三、線性代數
學什么
Facebook上的朋友推薦、Spotify上的歌曲推薦,通過深度學習把自拍照片轉換為薩爾瓦多·達利風格的人像畫,試問這些操作的共同點是什么?其實就是它們都離不開矩陣和矩陣代數的知識。
線性代數這一重要的數學分支,研究的是機器學習算法如何從數據流中獲取有價值信息。下列是必學的線性代數知識:
矩陣和向量的基本性質:標量乘法、線性變換、轉置、共軛、秩與行列式
內積與外積、矩陣乘法規則及其算法、逆矩陣
特殊矩陣:方陣、單位矩陣、三角矩陣、稀疏矩陣、密集矩陣、單位向量、對稱矩陣、厄米矩陣(又稱自共軛矩陣)、斜厄米矩陣和酉矩陣
矩陣分解概念:LU分解、高斯消元法、求解 Ax = b 線性方程組
向量空間、基向量、擴張空間、正交性、線性最小二乘法
特征值、特征向量、對角化與奇異值分解(SVD)
怎么用
使用降維技術實現主成分分析時,要用奇異值分解來縮減維度,讓數據集參數變得更少。所有神經網絡算法都使用線性代數處理網絡結構和學習操作。
在哪兒學
線性代數:從基礎到精通 —edX,UT Austin
機器學習中的數學知識:線性代數 —Coursera,帝國理工學院,倫敦
五、微積分
學什么
在上大學的時候,微積分是最讓人頭疼的課程,不過,在數據科學和機器學習領域里,微積分可是無處不在,最簡單的普通最小二乘法問題的分析解決方案離不開微積分,神經網絡中用于學習新模式的反向傳播里也少不了微積分。可以說,微積分是你的技能庫里最有價(zhi)值(qian)的技能。下列是要掌握的微積分知識點:
單變量函數、極限與連續、可微性
均值定理、不定式和洛必達法則
最大值與最小值
乘積和鏈式法則
泰勒級數、無限級數求和與積分
積分中值定理與基本公式,定積分與不定積分方程式
Beta 和 Gamma 函數
多變量函數、極限與連續、偏導數
常微分方程與偏微分方程的基礎知識(不必了解過于高級的內容)
怎么用
理解邏輯回歸算法需要微積分的知識,比如怎樣通過“梯度下降”找到最小損失函數。 要了解梯度下降的機制,就會用到微積分的概念 - 梯度、導數、極限和鏈式法則。
在哪兒學
大學預備課 - 微積分?—edX, TU Delft
可汗學院 - 微積分
機器學習中的數學知識:多變量微積分 —Coursera,帝國理工學院,倫敦
五、離散數學
學什么
探討數據科學的數學知識時,很少會談及離散數學這個話題,但幾乎所有現代數據科學都需要計算系統的支持,而這些系統的核心恰恰是離散數學。大一學生在學習離散數學時會被告知:初學者一定要掌握日常分析項目使用的算法和數據結構。離散數學核心知識點如下:
集合、子集、冪集
計數、組合、可數性
基本證明技巧:歸納法、反證法
歸納、演繹和命題邏輯基礎
數據結構基礎:堆棧、隊列、圖、數組、哈希表、樹
圖形性質:連通分支、度、最大流與最小割、染×××
遞歸關系與方程
函數增長率與大O符號法
怎么用
對于任何社交網絡分析,都需要理解圖形性質與快速算法來查找和遍歷網絡。不管選擇哪種算法都要理解算法的時空復雜性,比如隨著輸入數據大小的變化,運算所需的時空需求如何變化,這時通常會用到大O符號法。
在哪兒學
計算機科學專業課:離散數學簡介?—Coursera, Univ. of California San Diego
數學思想簡介?—Coursera,斯坦福大學
精通離散數學:集合與數學邏輯?—Udemy
六、最優化、運籌學
學什么
這一部分主題說得都是與應用數學相關的知識,最常用的是計算機科學原理、控制論、運籌學等。理解這些概念對機器學習實踐來說非常重要。實際上,每種機器學習算法都要在限制條件下實現誤差估計最小化,這就是優化。 要學習的內容如下:
最優化基礎:如何規劃命題
最大值、最小值、凸函數、全局解
線性規劃、單純形算法
整數規劃
約束規劃、背包問題
怎么用
用最小二乘法損失函數解決簡單線性回歸問題一般能得到較為精確的分析解,但在解決邏輯回歸問題時就不行了。要想理解其中的原因,就要理解最優化里的凸性概念。這個概念還告訴我們,在絕大多數機器學習問題里要能夠接受近似解,這是個毋庸置疑的事實。
在哪兒學
商業分析最優化?—edX,麻省理工學院
離散優化?—Coursera,墨爾本大學
確定性優化?—edX,佐治亞理工學院
相關文獻
15門數據科學的數學課 - 慕課
如何學習數據科學中的數學
數據分析師簡歷里要有多少數學與統計學內容?
入門數據科學與機器學習必學的19門數學與統計學慕課課程
學習機器學習中的數學
結語
即使數學不好也不用過于擔心,更不用迷茫無助。想成為資深數據分析師要學的東西很多,如果平時不怎么應用數學知識,就更要下些工夫。但是,如今這個時代最好的地方就是網上有超多優秀的資源,比如各類視頻教程。只要花些時間,投入精力,就可以找到適合自己的學習資源。
我可以保證,即便在大學學過這些內容,現在重溫或學習新的數學知識以后,你會發現這些時間與精力沒有白費,一定能一點一點地開始理解數據分析與機器學習項目背后所隱藏的旋律。這就是進階成為數據科學家所要邁出的一大步。
如有任何問題或想法,請聯系作者 Tirthajyoti. 也可以去看看他的 GitHub項目 ,查看更多 Python、R 與 MATLAB 代碼及機器學習資源。如果喜歡數據科學與機器學習,也可以添加作者為領英好友或在 Twitter上加關注。
作者簡介: Tirthajyoti Sarkar ,半導體專家、電子信息工程博士、專業博主、科技作家、機器學習和數據科學的忠粉。
Tirthajyoti Sarkar
譯注:因為數學不好,雖然查證了一些數學書籍,也咨詢了學數學與統計的朋友,但畢竟內容較多,難免有所疏漏,如有讀者發現錯誤,請留言告知,避免誤人子弟,多謝多謝!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。