Python數據科學入門
Dmitry Zinoviev著
熊子源 譯
第10章 機器學習
監督學習 | 嘗試從具有標記的訓練數據集中推斷出預測函數,其中訓練數據集中的每一個樣本屬于哪類都是已知的。(線性回歸、邏輯回歸、隨機決策森林、樸素貝葉斯分類、支持向量機、線性判別分析、神經網絡) |
---|---|
無監督學習 | 嘗試在沒有標記的數據中找出隱藏的結構。(K均值、社區檢測、分層聚類、主成分分析) |
第48單元 設計預測試驗
完成模型的建立、評估和驗證有一下四個步驟:
- 將輸入數據分成訓練集和測試集(一般占比為7:3);
- 僅使用訓練集構建數據模型;
- 將新模型應用于測試集;
- 評估模型質量(通過多方面的評價指標來評估,比如準確度等)。
模型評價指標可有四個方面:準確度、精確度、靈敏度(召回率)和特異性
TP | 模型正確地預測了屬性為存在的項目數(真陽) |
---|---|
TN | 模型正確地預測了屬性為不存在的項目數(真陰) |
FP | 模型錯誤地預測了屬性為存在的項目數(假陽) |
FN | 模型錯誤地預測了屬性為不存在的項目數(假陰) |
準確度
是正確分類項目的比例:
精確度
是所有陽性分類中真陽所占的比例:
**靈敏度(召回率)**是在所有陽真實值中真陽所占的比例:
特異性
是在所有陰真實值中真陰所占的比例
第49單元 線性回歸擬合
普通最小二乘回歸(OLS)
訓練模型的過程是最小化加權殘差的平方和(SSR):
脊回歸
模型正則化:
當α=0,脊回歸退化為OLS回歸。α越大,懲罰越大。
邏輯回歸
創建一個邏輯回歸對象:
LogisticRegression()
其中包含一個最重要的參數C,參數C是正則化參數的倒數(脊回歸的α的倒數)。為了使分類的結果有意義,一般取值至少為20。
第50單元 用K均值聚類實現數據分組
K均值聚類按照下面的算法將樣本聚合成k個類:
- 隨機選擇k個初始矢量作為初始質心(矢量不需要時數據集中的樣本);
- 將每個樣本分配給它最接近的質心;
- 重新計算質心位置;
- 重復步驟(2)和(3),直到質心不再移動。
《Python數據科學入門》這本書中的主要內容也就概述完了。這本書每個章節后面都有三道習題,本人感覺挺有用的,大家可以自行學習。(
"The more you know who you are and what you want,the less you let things upset you."--《Lost in Translation》
)
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
