機器學習(Machine Learning)根據已知數據來不斷學習和積累經驗,然后總結出規律并嘗試預測未知數據的屬性,是一門綜合性非常強的多領域交叉學科,涉及線性代數、概率論、逼近論、凸分析、算法復雜度理論等多門學科。
目前機器學習已經有了十分廣泛的應用,例如數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略游戲和機器人運用。
總體上說,機器學習算法和問題可以分為有監督學習和無監督學習兩大類。
在有監督學習中,數據帶有額外的屬性(例如每個樣本所屬的類別),必須同時包含輸入和輸出(也就是特征和目標),通過大量已知的數據不斷訓練和減少錯誤來提高認知能力,最后根據積累的經驗去預測未知數據的屬性。分類和回歸屬于經典的有監督學習算法。在分類算法中,樣本屬于兩個或多個離散的類別之一,我們根據已貼標簽的樣本來學習如何預測未貼標簽樣本所屬的類別。如果預期的輸出是一個或多個連續變量,則分類問題變為回歸問題。
在無監督學習算法中,訓練數據包含一組輸入向量而沒有任何相應的目標值。這類算法的目標可能是發現原始數據中相似樣本的組合(稱作聚類),或者確定數據的分布(稱作密度估計),或者把數據從高維空間投影到二維或三維空間(稱作降維)以便進行可視化。
一般地,不會把給定的整個數據集都用來訓練模型,而是將其分成訓練集和測試集兩部分,模型使用訓練集進行訓練(或學習),然后把測試集輸入訓練好的模型并評估其表現。另外,大多數模型都有若干參數可以設置,例如支持向量機模型的gamma參數,這些參數可以手動設置,也可以使用網格搜索(grid search)和交叉驗證(cross validation)尋找合適的值。
接下來,我們一起了解一下機器學習中常見的幾個概念。
閱讀原文
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
