亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python怎么實現數據可視化

發布時間:2021-12-27 13:59:29 來源:億速云 閱讀:185 作者:iii 欄目:大數據

這篇文章主要介紹“python怎么實現數據可視化”,在日常操作中,相信很多人在python怎么實現數據可視化問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”python怎么實現數據可視化”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

探索性數據分析(EDA)是數據科學或機器學習管道的重要組成部分。為了使用數據創建一個健壯且有價值的產品,你需要研究數據,理解變量之間的關系,以及數據的底層結構。數據可視化是EDA中最有效的工具之一。

我們將創建許多不同的可視化效果,并嘗試在每一個可視化中引入Matplotlib或Seaborn庫的一個特性。

我們首先導入相關庫并將數據集讀入pandas數據幀。

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid')
%matplotlib inline

df = pd.read_csv("/content/Churn_Modelling.csv")

df.head()

python怎么實現數據可視化

該數據集包含10000個客戶(即行)和14個關于銀行客戶及其產品的特征。這里的目標是使用所提供的特征來預測客戶是否會流失(即退出=1)。

讓我們從catplot開始,這是Seaborn庫的一個分類圖。

sns.catplot(x='Gender', y='Age', data=df, hue='Exited', height=8, aspect=1.2)

python怎么實現數據可視化

研究發現:45到60歲的人比其他年齡段的人更容易離職(即離開公司)。女性和男性之間沒有太大的差別。

hue參數用于根據類別變量區分數據點。

下一個可視化是散點圖,它顯示了兩個數值變量之間的關系。讓我們看看客戶的工資和余額是否相關。

plt.figure(figsize=(12,8))

plt.title("Estimated Salary vs Balance", fontsize=16)

sns.scatterplot(x='Balance', y='EstimatedSalary', data=df)

python怎么實現數據可視化

我們第一次使用matplotlib.pyplot接口來創建Figure對象并設置標題。然后,我們用Seaborn在這個圖形對象上畫出了實際的圖表。

研究結果:估計工資與余額之間不存在有意義的關系或相關性。余額似乎具有正態分布(不包括余額為零的客戶)。

下一個可視化是箱線圖,它顯示了一個變量在中位數和四分位數上的分布。

plt.figure(figsize=(12,8))

ax = sns.boxplot(x='Geography', y='Age', data=df)

ax.set_xlabel("Country", fontsize=16)
ax.set_ylabel("Age", fontsize=16)

python怎么實現數據可視化

我們還使用set_xlabel和set_ylabel調整了x和y軸的字體大小。

以下是箱線圖:

python怎么實現數據可視化

中值是所有點排序時中間的點。Q1(第一個或下四分位數)是數據集下半部分的中值。Q3(第三或上四分位數)是數據集上半部分的中值。

因此,箱線圖為我們提供了關于分布和異常值的概念。在我們創建的箱線圖中,頂部有許多異常值(用點表示)。

發現:年齡變量的分布是右偏的。由于上側的異常值,平均值大于中值。

在變量的單變量分布中可以觀察到右偏態。讓我們創建一個distplot來觀察分布。

plt.figure(figsize=(12,8))

plt.title("Distribution of Age", fontsize=16)

sns.distplot(df['Age'], hist=False)

python怎么實現數據可視化

右邊的尾巴比左邊的重。原因是我們在箱線圖上觀察到的異常值。

distplot在默認情況下也提供了一個直方圖,但是我們使用hist參數更改了它。

Seaborn庫還提供了不同類型的pair圖,這些圖提供了變量之間成對關系的概述。讓我們先從數據集中隨機抽取一個樣本,使曲線圖更具吸引力。原始數據集有10000個觀測值,我們將選取一個包含100個觀測值和4個特征的樣本。

subset=df[['CreditScore','Age','Balance','EstimatedSalary']].sample(n=100)

g = sns.pairplot(subset, height=2.5)

python怎么實現數據可視化

在對角線上,我們可以看到變量的直方圖。網格的另一部分表示變量與變量之間的關系。

另一個觀察成對關系的工具是熱圖,它采用矩陣并生成彩色編碼圖。熱圖主要用于檢查特征和目標變量之間的相關性。

讓我們首先使用pandas的corr函數創建一些特征的相關矩陣。

corr_matrix = df[['CreditScore','Age','Tenure','Balance',
'EstimatedSalary','Exited']].corr()

我們現在可以繪制這個矩陣。

plt.figure(figsize=(12,8))

sns.heatmap(corr_matrix, cmap='Blues_r', annot=True)

python怎么實現數據可視化

發現:“年齡”和“余額”列與客戶流失呈正相關。


隨著數據量的增加,分析和探索數據變得越來越困難。可視化是探索性數據分析中的一個重要工具,當它被有效和恰當地使用時,它就有了強大的力量。可視化也有助于向你的聽眾傳達信息或告訴他們你的發現。

沒有一種適合所有類型的可視化方法,因此某些任務需要不同類型的可視化。根據任務的不同,不同的選擇可能更合適。所有可視化都有一個共同點,那就是它們是探索性數據分析和數據科學中講故事部分的好工具。

到此,關于“python怎么實現數據可視化”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

卓资县| 武陟县| 无极县| 麻栗坡县| 那坡县| 阳信县| 定兴县| 四川省| 长治县| 盐津县| 淄博市| 沙湾县| 增城市| 峡江县| 水富县| 灵宝市| 河源市| 永修县| 且末县| 清远市| 巴林左旗| 尖扎县| 大埔区| 绍兴县| 五华县| 交口县| 承德县| 哈密市| 浙江省| 延津县| 鄄城县| 西华县| 涞源县| 巴林右旗| 南阳市| 永靖县| 长垣县| 乐至县| 七台河市| 井研县| 永寿县|