Python機器學習
再多的理論也不能代替實踐。
課本和課程會讓妳覺得自己很精通,因為資料就在眼前。
但是當妳試著去應用它的時候,妳可能會發現它比看起來更難。但是
“項目”可以幫助妳快速提升應用的ML技能,同時讓妳擁有。
探索有趣話題的機會。
此外,您可以將項目添加到您的投資組合中,使之更容易。
輕松找到工作,找到很酷的職業機會,甚至可以協商更高的薪水。
1,機器學習角鬥士
我們親切地稱之為“機器學習角鬥士”,但這並不新鮮。
這是圍繞機器學習建立實用直覺的最快方法之壹。
目標是采用開箱即用的模型,並將其應用於不同的數據集。
這個項目很棒,主要有三個原因:
首先,妳會建立用問題擬合模型的直覺。缺少哪些模型對
數據是否穩健?哪些模型可以很好地處理分類特征?是
可以,妳可以翻翻課本找答案,但是通過實際操作,妳可以
妳會學得更好。
Python機器學習
其次,這個項目將教會妳快速成型的寶貴技能。實際上
在這個世界上,如果不簡單地嘗試壹下,通常很難知道使用哪種模型。
最佳性能。
最後,這個練習可以幫助妳掌握模型構建的工作流程。例如
妳將開始練習...
清理數據
將其分成訓練/測試或交叉驗證集。
預處理
改變
特色工程
因為您將使用開箱即用的模型,所以您將有機會專註於磨練這壹點。
壹些關鍵步驟。
有關說明,請參見sk learn(Python)或caret(R)文檔頁面。
。妳應該練習回歸、分類和聚類算法。
教程:
Python:官方教程Python:sklearn-sklearn包。
用Sci kit-Learn預測葡萄酒質量――訓練機器學習模型
類型的循序漸進教程
Python機器學習
r:caret-由CARET軟件包的作者提供的網絡研討會。
數據源
UCI機器學習知識庫-超過350個可搜索的數據集,涵蓋
幾乎所有話題。妳壹定會找到妳感興趣的數據集。
Kaggle數據集-ka ggle社區上傳的超過100個數據集。
這裏有壹些非常有趣的數據集,包括口袋妖怪Go產卵場。
聖地亞哥的玉米卷。
data . gov-美國政府發布的開放數據集。如果妳對俱樂部感興趣
如果妳對科學感興趣,妳可以去看看。
2.扮演錢球
在《搖錢樹》這本書裏,有很多對初學者來說很有趣的東西。
機器學習項目。比如,妳可以試試...
體育博彩...每次新遊戲開始前,根據現有數據預測盒子得分。
分。
星探...用大學的統計數據來預測哪些選手會有。
最佳職業。
Python機器學習
綜合經營.....根據自己的優勢創建玩家集群,建立壹個
壹個全面的團隊。
體育也是實踐數據可視化和探索性分析的極好領域。妳可以
用這些技巧來幫助妳決定。
數據。
數據源
體育統計數據庫-體育統計和歷史數據,涵蓋許多
職業體育和壹些大學體育。幹凈的界面讓抓取網頁變得更加容易。
體育參考-另壹個體育統計數據庫。接口比較雜
混亂,但您可以將單個表格導出為CSV文件。
Cricsheet國際和IPL板球比賽的逐球數據。提供
IPL和T 20國際比賽的CSV文件。
3.預測股票價格
對於任何對金融感興趣的數據科學家來說,股市就像糖。
水果天堂。
首先,您有許多類型的數據可供選擇。妳可以找到價格,基本的
面、全球宏觀經濟指標、波動指數等.....不勝枚舉。
第二,數據可以很詳細。妳可以很容易地按天(甚至)得到每個公司的信息
精確到分鐘),這樣妳就可以創造性地思考交易策略。
Python機器學習
最後,金融市場通常有壹個短暫的反饋期。因此,您可以
快速驗證妳對新數據的預測。
您可以為初學者嘗試的壹些機器學習項目示例包括…
量化價值投資...基於公司壹季報的基本面指標。
6個月價格趨勢。
預測…建立在隱含波動率和實際波動率之間的差異上。
時間序列模型,甚至循環神經網絡。
統計套利...根據價格趨勢和其他因素尋找類似的股票。
,並尋找價格差異的時期。
顯而易見的免責聲明:建立壹個交易模型來練習機器學習很容易。
讓它們盈利極其困難。這裏沒有財務建議,我們
不建議交易真金白銀。
學習課程
python:sklearnforinvesting-將機器學習應用於投資
YouTube視頻系列。
r:用r量化交易-用r量化金融。
詳細的課堂筆記。
數據源
Python機器學習
quandl-壹個提供免費(和高質量)金融和經濟數據的數據市場。
字段。例如,妳可以批量下載3000多家美國公司的日終股票。
美聯儲的票價或經濟數據。
量化金融社區,提供免費的交易算法開發。
站臺。包括數據集。
美國基金會檔案-5,000多家美國公司的5年
基礎數據。
4.教神經網絡讀筆跡。
神經網絡和深度學習是現代人工智能的兩個成功案例。它
科學家已經在圖像識別、自動文本生成甚至自動駕駛汽車方面取得了成就。
已經取得了重大進展。
要涉足這個令人興奮的領域,妳應該從可管理的數據集開始。
開始吧。
NIST手寫數字分類挑戰賽是壹個經典的切入點。圖像數據通信
它通常比“平面”關系數據更難處理。米NIST數據對初學者非常有用。
友好且小巧,足以安裝在電腦上。
手寫識別會挑戰妳,但不需要很高的計算能力。
首先,我們建議使用下面教程的第壹章。它會教妳如何
從零開始構建神經網絡,以高精度解決M NIST的挑戰。
Python機器學習
學習課程
神經網絡和深度學習(在線書籍)-第1章介紹了如何使用。
在Python中,從零開始編寫神經網絡來輸入來自M . NIST的數字。
線分類。對於神經網絡背後的直覺,作者也給出了很好的解釋。
數據源
Mnist-mnist是美國國家標準與技術研究所收集的兩個數字。
數據集的修改子集。它包含70,000張帶標簽的手寫數字圖像。
5.調查安然
學習項目示例
異常檢測...按小時繪制並接收電子郵件的分布圖,並嘗試檢查。
測試導致公眾醜聞的異常行為。
社會網絡分析…在員工中建立網絡圖模型,找出關鍵影響因素。
誰。
自然語言處理...結合電子郵件元數據來分析文本消息,以便
郵件的目的是對郵件進行分類。
數據源
安然電子郵件數據集-這是壹個由CMU主持的安然電子郵件商店。
文件。
安然數據描述(PDF)-對安然電子郵件數據的探索性分析,可以
幫妳打好基礎。