假期新手練Ph

Python機器學習是壹個適合初學者練習的項目，練完妳就牛逼了！

Python機器學習

再多的理論也不能代替實踐。

課本和課程會讓妳覺得自己很精通，因為資料就在眼前。

但是當妳試著去應用它的時候，妳可能會發現它比看起來更難。但是

“項目”可以幫助妳快速提升應用的ML技能，同時讓妳擁有。

探索有趣話題的機會。

此外，您可以將項目添加到您的投資組合中，使之更容易。

輕松找到工作，找到很酷的職業機會，甚至可以協商更高的薪水。

1，機器學習角鬥士

我們親切地稱之為“機器學習角鬥士”，但這並不新鮮。

這是圍繞機器學習建立實用直覺的最快方法之壹。

目標是采用開箱即用的模型，並將其應用於不同的數據集。

這個項目很棒，主要有三個原因:

首先，妳會建立用問題擬合模型的直覺。缺少哪些模型對

數據是否穩健？哪些模型可以很好地處理分類特征？是

可以，妳可以翻翻課本找答案，但是通過實際操作，妳可以

妳會學得更好。

Python機器學習

其次，這個項目將教會妳快速成型的寶貴技能。實際上

在這個世界上，如果不簡單地嘗試壹下，通常很難知道使用哪種模型。

最佳性能。

最後，這個練習可以幫助妳掌握模型構建的工作流程。例如

妳將開始練習...

清理數據

將其分成訓練/測試或交叉驗證集。

預處理

改變

特色工程

因為您將使用開箱即用的模型，所以您將有機會專註於磨練這壹點。

壹些關鍵步驟。

有關說明，請參見sk learn(Python)或caret(R)文檔頁面。

。妳應該練習回歸、分類和聚類算法。

教程:

Python:官方教程Python:sklearn-sklearn包。

用Sci kit-Learn預測葡萄酒質量――訓練機器學習模型

類型的循序漸進教程

Python機器學習

r:caret-由CARET軟件包的作者提供的網絡研討會。

數據源

UCI機器學習知識庫-超過350個可搜索的數據集，涵蓋

幾乎所有話題。妳壹定會找到妳感興趣的數據集。

Kaggle數據集-ka ggle社區上傳的超過100個數據集。

這裏有壹些非常有趣的數據集，包括口袋妖怪Go產卵場。

聖地亞哥的玉米卷。

data . gov-美國政府發布的開放數據集。如果妳對俱樂部感興趣

如果妳對科學感興趣，妳可以去看看。

2.扮演錢球

在《搖錢樹》這本書裏，有很多對初學者來說很有趣的東西。

機器學習項目。比如，妳可以試試...

體育博彩...每次新遊戲開始前，根據現有數據預測盒子得分。

分。

星探...用大學的統計數據來預測哪些選手會有。

最佳職業。

Python機器學習

綜合經營.....根據自己的優勢創建玩家集群，建立壹個

壹個全面的團隊。

體育也是實踐數據可視化和探索性分析的極好領域。妳可以

用這些技巧來幫助妳決定。

數據。

數據源

體育統計數據庫-體育統計和歷史數據，涵蓋許多

職業體育和壹些大學體育。幹凈的界面讓抓取網頁變得更加容易。

體育參考-另壹個體育統計數據庫。接口比較雜

混亂，但您可以將單個表格導出為CSV文件。

Cricsheet國際和IPL板球比賽的逐球數據。提供

IPL和T 20國際比賽的CSV文件。

3.預測股票價格

對於任何對金融感興趣的數據科學家來說，股市就像糖。

水果天堂。

首先，您有許多類型的數據可供選擇。妳可以找到價格，基本的

面、全球宏觀經濟指標、波動指數等.....不勝枚舉。

第二，數據可以很詳細。妳可以很容易地按天(甚至)得到每個公司的信息

精確到分鐘)，這樣妳就可以創造性地思考交易策略。

Python機器學習

最後，金融市場通常有壹個短暫的反饋期。因此，您可以

快速驗證妳對新數據的預測。

您可以為初學者嘗試的壹些機器學習項目示例包括…

量化價值投資...基於公司壹季報的基本面指標。

6個月價格趨勢。

預測…建立在隱含波動率和實際波動率之間的差異上。

時間序列模型，甚至循環神經網絡。

統計套利...根據價格趨勢和其他因素尋找類似的股票。

，並尋找價格差異的時期。

顯而易見的免責聲明:建立壹個交易模型來練習機器學習很容易。

讓它們盈利極其困難。這裏沒有財務建議，我們

不建議交易真金白銀。

學習課程

python:sklearnforinvesting-將機器學習應用於投資

YouTube視頻系列。

r:用r量化交易-用r量化金融。

詳細的課堂筆記。

數據源

Python機器學習

quandl-壹個提供免費(和高質量)金融和經濟數據的數據市場。

字段。例如，妳可以批量下載3000多家美國公司的日終股票。

美聯儲的票價或經濟數據。

量化金融社區，提供免費的交易算法開發。

站臺。包括數據集。

美國基金會檔案-5，000多家美國公司的5年

基礎數據。

4.教神經網絡讀筆跡。

神經網絡和深度學習是現代人工智能的兩個成功案例。它

科學家已經在圖像識別、自動文本生成甚至自動駕駛汽車方面取得了成就。

已經取得了重大進展。

要涉足這個令人興奮的領域，妳應該從可管理的數據集開始。

開始吧。

NIST手寫數字分類挑戰賽是壹個經典的切入點。圖像數據通信

它通常比“平面”關系數據更難處理。米NIST數據對初學者非常有用。

友好且小巧，足以安裝在電腦上。

手寫識別會挑戰妳，但不需要很高的計算能力。

首先，我們建議使用下面教程的第壹章。它會教妳如何

從零開始構建神經網絡，以高精度解決M NIST的挑戰。

Python機器學習

學習課程

神經網絡和深度學習(在線書籍)-第1章介紹了如何使用。

在Python中，從零開始編寫神經網絡來輸入來自M . NIST的數字。

線分類。對於神經網絡背後的直覺，作者也給出了很好的解釋。

數據源

Mnist-mnist是美國國家標準與技術研究所收集的兩個數字。

數據集的修改子集。它包含70，000張帶標簽的手寫數字圖像。

5.調查安然

學習項目示例

異常檢測...按小時繪制並接收電子郵件的分布圖，並嘗試檢查。

測試導致公眾醜聞的異常行為。

社會網絡分析…在員工中建立網絡圖模型，找出關鍵影響因素。

誰。

自然語言處理...結合電子郵件元數據來分析文本消息，以便

郵件的目的是對郵件進行分類。

數據源

安然電子郵件數據集-這是壹個由CMU主持的安然電子郵件商店。

文件。

安然數據描述(PDF)-對安然電子郵件數據的探索性分析，可以

幫妳打好基礎。