亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么將Scikit-learn Python庫用于數據科學項目

發布時間:2021-10-26 17:32:10 來源:億速云 閱讀:158 作者:小新 欄目:編程語言

這篇文章主要為大家展示了“怎么將Scikit-learn Python庫用于數據科學項目”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“怎么將Scikit-learn Python庫用于數據科學項目”這篇文章吧。

什么是 Scikit-learn?

Scikit-learn 是一個開源 Python 庫,擁有強大的數據分析和數據挖掘工具。 在 BSD 許可下可用,并建立在以下機器學習庫上:

  • NumPy,一個用于操作多維數組和矩陣的庫。它還具有廣泛的數學函數匯集,可用于執行各種計算。

  • SciPy,一個由各種庫組成的生態系統,用于完成技術計算任務。

  • Matplotlib,一個用于繪制各種圖表和圖形的庫。

Scikit-learn 提供了廣泛的內置算法,可以充分用于數據科學項目。

以下是使用 Scikit-learn 庫的主要方法。

1、分類

分類工具識別與提供的數據相關聯的類別。例如,它們可用于將電子郵件分類為垃圾郵件或非垃圾郵件。

Scikit-learn 中的分類算法包括:

  • 支持向量機Support vector machines

    (SVM)

  • 最鄰近Nearest neighbors
  • 隨機森林Random forest
2、回歸

回歸涉及到創建一個模型去試圖理解輸入和輸出數據之間的關系。例如,回歸工具可用于理解股票價格的行為。

回歸算法包括:

  • 支持向量機Support vector machines

    (SVM)

  • 嶺回歸Ridge regression
  • Lasso(LCTT 譯注:Lasso 即 least absolute shrinkage and selection operator,又譯為最小絕對值收斂和選擇算子、套索算法)

3、聚類

Scikit-learn 聚類工具用于自動將具有相同特征的數據分組。 例如,可以根據客戶數據的地點對客戶數據進行細分。

聚類算法包括:

  • K-means

  • 譜聚類Spectral clustering
  • Mean-shift

4、降維

降維降低了用于分析的隨機變量的數量。例如,為了提高可視化效率,可能不會考慮外圍數據。

降維算法包括:

  • 主成分分析Principal component analysis

    (PCA)

  • 功能選擇Feature selection
  • 非負矩陣分解Non-negative matrix factorization
5、模型選擇

模型選擇算法提供了用于比較、驗證和選擇要在數據科學項目中使用的***參數和模型的工具。

通過參數調整能夠增強精度的模型選擇模塊包括:

  • 網格搜索Grid search
  • 交叉驗證Cross-validation
  • 指標Metrics
6、預處理

Scikit-learn 預處理工具在數據分析期間的特征提取和規范化中非常重要。 例如,您可以使用這些工具轉換輸入數據(如文本)并在分析中應用其特征。

預處理模塊包括:

  • 預處理

  • 特征提取

Scikit-learn 庫示例

讓我們用一個簡單的例子來說明如何在數據科學項目中使用 Scikit-learn 庫。

我們將使用鳶尾花花卉數據集,該數據集包含在 Scikit-learn 庫中。 鳶尾花數據集包含有關三種花種的 150 個細節,三種花種分別為:

  • Setosa:標記為 0

  • Versicolor:標記為 1

  • Virginica:標記為 2

數據集包括每種花種的以下特征(以厘米為單位):

  • 萼片長度

  • 萼片寬度

  • 花瓣長度

  • 花瓣寬度

第 1 步:導入庫

由于鳶尾花花卉數據集包含在 Scikit-learn 數據科學庫中,我們可以將其加載到我們的工作區中,如下所示:

from sklearn import datasetsiris = datasets.load_iris()

這些命令從 sklearn 導入數據集 datasets 模塊,然后使用 datasets 中的 load_iris() 方法將數據包含在工作空間中。

第 2 步:獲取數據集特征

數據集 datasets 模塊包含幾種方法,使您更容易熟悉處理數據。

在 Scikit-learn 中,數據集指的是類似字典的對象,其中包含有關數據的所有詳細信息。 使用 .data 鍵存儲數據,該數據列是一個數組列表。

例如,我們可以利用 iris.data 輸出有關鳶尾花花卉數據集的信息。

print(iris.data)

這是輸出(結果已被截斷):

[[5.1 3.5 1.4 0.2] [4.9 3.  1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5.  3.6 1.4 0.2] [5.4 3.9 1.7 0.4] [4.6 3.4 1.4 0.3] [5.  3.4 1.5 0.2] [4.4 2.9 1.4 0.2] [4.9 3.1 1.5 0.1] [5.4 3.7 1.5 0.2] [4.8 3.4 1.6 0.2] [4.8 3.  1.4 0.1] [4.3 3.  1.1 0.1] [5.8 4.  1.2 0.2] [5.7 4.4 1.5 0.4] [5.4 3.9 1.3 0.4] [5.1 3.5 1.4 0.3]

我們還使用 iris.target 向我們提供有關花朵不同標簽的信息。

print(iris.target)

這是輸出:

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

如果我們使用 iris.target_names,我們將輸出數據集中找到的標簽名稱的數組。

print(iris.target_names)

以下是運行 Python 代碼后的結果:

['setosa' 'versicolor' 'virginica']
第 3 步:可視化數據集

我們可以使用箱形圖來生成鳶尾花數據集的視覺描繪。 箱形圖說明了數據如何通過四分位數在平面上分布的。

以下是如何實現這一目標:

import seaborn as snsbox_data = iris.data  # 表示數據數組的變量box_target = iris.target  # 表示標簽數組的變量sns.boxplot(data = box_data,width=0.5,fliersize=5)sns.set(rc={'figure.figsize':(2,15)})

讓我們看看結果:

怎么將Scikit-learn Python庫用于數據科學項目

在橫軸上:

  • 0 是萼片長度

  • 1 是萼片寬度

  • 2 是花瓣長度

  • 3 是花瓣寬度

垂直軸的尺寸以厘米為單位。

總結

以下是這個簡單的 Scikit-learn 數據科學教程的完整代碼。

from sklearn import datasetsiris = datasets.load_iris()print(iris.data)print(iris.target)print(iris.target_names)import seaborn as snsbox_data = iris.data  # 表示數據數組的變量box_target = iris.target  # 表示標簽數組的變量sns.boxplot(data = box_data,width=0.5,fliersize=5)sns.set(rc={'figure.figsize':(2,15)})

以上是“怎么將Scikit-learn Python庫用于數據科學項目”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

绍兴县| 乐业县| 同德县| 宁远县| 长治市| 东辽县| 桦南县| 乌拉特后旗| 玛沁县| 长宁区| 棋牌| 宜阳县| 克什克腾旗| 西宁市| 德保县| 平顺县| 丹棱县| 如皋市| 拉孜县| 永吉县| 宜春市| 塔城市| 滦南县| 蒙城县| 焦作市| 临武县| 上林县| 瑞丽市| 开阳县| 镇远县| 灵宝市| 德安县| 兴化市| 松桃| 潞西市| 汉源县| 长寿区| 文成县| 沙田区| 广南县| 武穴市|