亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數據分析--數字找朋友

發布時間:2020-06-20 13:15:55 來源:網絡 閱讀:194 作者:萬和IT教育 欄目:編程語言

從前有一個數字王國,里面的數字們喜歡在一起玩,不過它們有點挑剔,總是想跟與自己接近的數字玩,他們覺得其他都是遠房親戚,不親。我們怎么幫助它們找到合適的一組數字呢?

均值

平均數是統計中的一個重要概念。通常用來表示一組統計對象的集中趨勢。

平均數里面最常用的是算術平均數(或稱均值)。它是一組數字的和除以數字的個數。

在均值用于表示統計對象的一般水平,它是描述數據集中程度的一個統計量。我們既可以用它來反映一組數據的一般情況,也可以用它進行不同組數據的比較,以看出組與組之間的差別。

例如數字20會跟下面兩組數字哪一組玩呢?

A 19 23 19 21 23 20 21 20 18 22
B 43 45 36 45 38 36 39 38 39 41

通過計算均值,A組的均值為20.6,B組的均值為40,所以數字20去和A組玩。

為什么要用一個均值這樣的叫法,為什么不能直接叫平均數呢?

因為平均數有好多種:

  • 算術平均數:n個數據相加后除以n。就是這里的均值。
  • 幾何平均數:n個數據相乘后開n次方。
  • 調和平均數:n個數據的倒數取算術平均,再取倒數。
  • 平方平均數(也稱“均方根”):n個數據的平方取算數平均,再開根號。
  • 移動平均數
  • 算術-幾何平均數
  • 幾何-調和平均數
  • 。。。。。。

STOP!好吧,我們就用均值。。

數字20又來找人玩,這次的數據組是它們,均值是20,好像沒什么問題,但是20好像并不開心:

C 5 2 5 5 5 3 6 2 84 83

這是怎么一回事?!

中位數

中位數是另一個表示集中趨勢的一個值,中位數不是所有數字計算得出,而是把所有的數按照大小的順序排列。如果數據的個數是奇數,則中間那個數據就是這組數據的中位數;如果數據的個數是偶數,則中間那2個數據的平均值就是這組數據的中位數。

所以上面的這組數字,應該用中位數來描述。

將所有數字從小到大排列后:

C 2 2 3 5 5 5 5 6 83 84

中位數為第5和第6個數的平均值,也就是5,說明C組集中在了數字5的周圍,所以數字20不喜歡和它們一起玩。在這里,83,84偏離了整體,是異常值。

那就換一組數字吧,這次的數據組是它們,均值是20,中位數也是20,這次沒什么問題了吧?

D 3 5 5 5 6 34 34 36 36 36

眾數

眾數指一組數據中出現次數最多的數據值。例如在(2,3,3,3)中,出現最多的是3,因此眾數是3,眾數可能是一個數,但也可能是多個數。用眾數代表一組數據,適合于數據量較多時使用,且眾數不受異常值的影響。

D組中出現次數最多的數字是5和36,表示數字分成了兩堆接近的數,還是沒有和數字20接近的,數字20也不喜歡和它們玩。

數字20受夠了!它要求再找些靠譜的參考標準,好吧,下面是一些參考:

全距

全距又稱極差,用來表示一組數據中最大值與最小值之間的差額,即最大值減最小值后所得數值。全距為離散程度的最簡單測度值,比較容易受到異常值影響。

上面的四組數據的全距為:

A B C D
全距 5 9 82 33

對于數字20來說,如果全距太大,就有可能是個坑。不過光看全距說明不了更多問題,還要進一步來看。

百分位數

百分位數是將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。

上面四組數據的10%百分位數和90%百分位數分別為:

百分位數 A B C D
10% 18.9 36 2 4.8
90% 23 45 83.1 36

百分位數對于數字20來說,是一個很好的參考,可以知道和他大小相仿的數字都集中在什么區域。但是這么多百分位數,選哪個好呢?

四分位數

四分位數可以理解為是特定的幾個百分位數:25%,50%和75%。將一組數據從小到大排列后:

第一四分位數等于第25%的數字,也叫下四分位數;

第二四分位數等于第50%的數字,也就是中位數;

第三四分位數等于第75%的數字,也叫上四分位數;

第三四分位數與第一四分位數的差距又稱四分位距。

四分位距提供了一個簡單的判斷數字分散程度的指標,對于數字20來說,可以有效的避免使用百分位數時的選擇困難癥。

上面四組數據的四分位數以及四分位距為:

四分位數 A B C D
下四分位數 19.25 38 3.5 5
上四分位數 21.75 42.5 5.75 35.5
四分位距 2.5 4.5 2.25 30.5

這樣看來C組似乎比A組還要好,還有沒有更靠譜一些的指標?

方差

方差用來描述一組數的離散程度,它將各個數和均值的差算一下平方,相加之后再除以總數,這樣就可以算出各個數據分散的程度。

上面四組數據的方差為:

A B C D
方差 2.64 10.2 1009.8 232

C組和D組一下子就被排除了,偏離了太多。方差更好,不過由于平方了一下,如果想要更直觀的表示和均值的距離的話,就要用到下面的標準差:

標準差

標準差是方差開平方,反映這組數字的離散程度。

標準差越大,代表大部分的數值和其平均值之間差異較大;標準差越小,代表這些數值較接近平均值。

上面四組數據的標準差為:(保留兩位小數)

A B C D
標準差 1.62 3.19 31.78 15.23

標準差說明A組數據,平均和均值之間平均差距為1.62,大家都很接近,選這一組就沒錯了。

該用哪一個?

數字20:你一開始告訴我標準差不就好了?繞這么多彎子干什么?

上面的每一種值都有各自的適用場合,要根據關注的目標,使用合適的值進行描述,才是最合理的,沒有唯一一個最好的衡量值。例如上面四組數據,如果只看標準差,能說明數字比較靠近,但并不能表明這一組數字靠近誰,還需要結合均值來一起考慮。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

阜阳市| 沁水县| 清新县| 保山市| 天柱县| 景德镇市| 龙泉市| 建阳市| 崇文区| 睢宁县| 屯留县| 桐城市| 汝州市| 保定市| 鄱阳县| 蒲江县| 通渭县| 铁岭县| 谢通门县| 彭山县| 自贡市| 云霄县| 新乐市| 屯昌县| 丹棱县| 武山县| 乐至县| 崇州市| 烟台市| 阿克苏市| 保定市| 郧西县| 茂名市| 乌苏市| 孝义市| 博客| 康平县| 温州市| 保山市| 登封市| 民勤县|