Sklearn乳腺癌數據集數據含義

1.乳腺癌數據集介紹

現在我們已經建立了邏輯回歸工作的基礎，您已經學會了使用sklearn。可以參考機器學習——用Sklearn建立Logistic回歸模型。我們已經構建了壹個工具來為分類數據集構建邏輯回歸模型，並且我們將引入壹個新的數據集。

在乳腺癌數據集中，每個數據點都有來自乳腺腫塊圖像的測量值以及是否癌變。目標是使用這些測量來預測腫瘤是否是癌性的。這個數據集直接內置在scikit-learn中，所以我們不需要讀取csv。讓我們從加載數據集開始，分析數據及其格式。

從sklearn.datasets導入load_breast_cancer

cancer _ data = load _乳腺_癌癥()

返回的對象(存儲在cancer_data變量中)是壹個類似於Python字典的對象。我們可以使用keys方法來查看可用的鍵。

print(cancer_data.keys())

我們將從查看DESCR開始，它提供了數據集的詳細描述。

打印(cancer_data['DESCR'])

我們可以看到有30個特征，569個數據點，目標是惡性(癌變)或良性(非癌變)。對於每個數據點，我們都有乳房質量的測量值(半徑、紋理、周長等。).

對於10次測量中的每壹次，將計算多個值，因此我們有平均值、標準誤差和最差值。這將產生10 x 3或總共30個要素。

提示:在乳腺癌數據集中，有幾個特征是基於其他列計算的。確定要計算哪些附加功能的過程是功能工程。

| 2.用熊貓加載乳腺癌數據集

讓我們從cancer_data對象中提取特征和目標數據。首先，用“數據”鍵存儲特征數據。當我們看它時，我們看到它是壹個569行30列的numpy數組。這是因為我們有569個數據點和30個特征。

以下是返回數據的numpy數組:

cancer_data['data']

我們用shape來看，它是壹個569行30列的數組。

cancer_data['data']。形狀

# (569, 30)

為了將它放入Pandas DataFrame並使其更容易閱讀，我們需要列名。這些與“特征名稱”鍵壹起存儲。

現在我們可以使用我們所有的功能