現在我們已經建立了邏輯回歸工作的基礎,您已經學會了使用sklearn。可以參考機器學習——用Sklearn建立Logistic回歸模型。我們已經構建了壹個工具來為分類數據集構建邏輯回歸模型,並且我們將引入壹個新的數據集。
在乳腺癌數據集中,每個數據點都有來自乳腺腫塊圖像的測量值以及是否癌變。目標是使用這些測量來預測腫瘤是否是癌性的。這個數據集直接內置在scikit-learn中,所以我們不需要讀取csv。讓我們從加載數據集開始,分析數據及其格式。
從sklearn.datasets導入load_breast_cancer
cancer _ data = load _乳腺_癌癥()
返回的對象(存儲在cancer_data變量中)是壹個類似於Python字典的對象。我們可以使用keys方法來查看可用的鍵。
print(cancer_data.keys())
我們將從查看DESCR開始,它提供了數據集的詳細描述。
打印(cancer_data['DESCR'])
我們可以看到有30個特征,569個數據點,目標是惡性(癌變)或良性(非癌變)。對於每個數據點,我們都有乳房質量的測量值(半徑、紋理、周長等。).
對於10次測量中的每壹次,將計算多個值,因此我們有平均值、標準誤差和最差值。這將產生10 x 3或總共30個要素。
提示:在乳腺癌數據集中,有幾個特征是基於其他列計算的。確定要計算哪些附加功能的過程是功能工程。
| 2.用熊貓加載乳腺癌數據集
讓我們從cancer_data對象中提取特征和目標數據。首先,用“數據”鍵存儲特征數據。當我們看它時,我們看到它是壹個569行30列的numpy數組。這是因為我們有569個數據點和30個特征。
以下是返回數據的numpy數組:
cancer_data['data']
我們用shape來看,它是壹個569行30列的數組。
cancer_data['data']。形狀
# (569, 30)
為了將它放入Pandas DataFrame並使其更容易閱讀,我們需要列名。這些與“特征名稱”鍵壹起存儲。
現在我們可以使用我們所有的功能