最全的pandas面試基礎100題目

在進行下面的題目操作時，壹定要先導入上面的兩個數據分析包 pandas、numpy

1. 如何用Python的列表創建壹個series?

輸出：

壹個series是壹個壹維的標記數組，可以容納任何數據類型(整數、字符串、浮點數、Python對象等)。必須記住，與Python列表不同，壹個series總是包含相同類型的數據。

2.如何使用列表創建壹個DataFrame?

輸出：

3.如何使用Series 字典對象生成 DataFrame?

輸出：

4.如何在pandas中創建壹個空的DataFrame？

要創建壹個完全空的pandas dataframe，我們使用以下操作：

輸出：

已知有這樣的數據，如何進行查看

輸出：

2.如何查看尾部數據?

3.如何快速查看數據的統計摘要?

4.如何查詢索引和列名?

1.簡述Pandas Index

在panda中建立索引意味著簡單地從DataFrame中選擇特定的數據行和列。

pandas支持四種類型的多軸索引，它們是:

它們統稱為索引器。這些是迄今為止索引數據最常見的方法。這四個函數有助於從DataFrame獲取元素、行和列。

2.Pandas 定義重新索引(Reindexing)

重新索引會更改DataFrame的行標簽和列標簽。重新索引意味著使數據符合特定軸上給定的壹組標簽。

多個操作可以通過像這樣的索引來完成:

輸出:

3.如何設置索引？

panda set_index() 是壹種將列表、序列或dataframe設置為dataframe索引的方法。

語法:

DataFrame.set_index(keys, inplace=False)

參數:

改變索引列

在本例中，名稱列被用作DataFrame的索引列

輸出:

如輸出圖像所示，以前索引列是壹系列數字

Before Operation –

After Operation

4.如何重置索引?

Pandas Series.reset_index()

函數的作用是:生成壹個新的DataFrame或帶有重置索引的Series。

例1： 使用 Series.reset_index() 函數重置給定Series對象的索引

輸出:

現在，我們將使用Series.reset_index()函數來重置給定的series對象的索引

輸出 :

從輸出中可以看到，該 Series.reset_index() 函數已將給定Series對象的索引重置為默認值。它保留了索引，並將其轉換為列。

1.1先創建數據:

1.2選擇單列，產生 Series

詳見按標簽選擇。

2.1用標簽提取壹行數據：

詳見按位置選擇。

3.1用整數位置選擇：

4.1用單列的值選擇數據：

5.1用索引自動對齊新增列的數據：

1.如何得到壹個數列的最小值、第25百分位、中值、第75位和最大值?

輸出:

Pandas dataframe.mean(axis=None) 函數返回所請求軸(axis=0代表對列進行求平均值，axis=1代表對行進行求平均值)的值的平均值。

示例: 使用 mean() 函數查找索引軸上所有觀測值的平均值。

輸出:

讓我們使用datafame .mean()函數來查找索引軸上的平均值。

3.如何將函數應用到DataFrame中的每個數據元素?

可以使用 apply() 函數以便將函數應用於給定dataframe中的每壹行。讓我們來看看我們完成這項任務的方式。

實例:

輸出：

4.如何在panda中獲得壹個DataFrame的行數和列數?

輸出:

獲取df的行和列計數

輸出:

5.如何在panda DataFrame中獲得列值的總和?

Pandas dataframe.sum() 函數返回所請求軸的值的和

語法: DataFrame.sum(axis=None, skipna=None, )

參數:

示例1: 使用 sum() 函數查找索引軸上所有值的總和

現在求出沿索引軸的所有值的和。我們將跳過計算和時的NaN值。

輸出:

如何將新行追加到pandas DataFrame？

Pandas dataframe.append() 函數的作用是:將其他dataframe的行追加到給定的dataframe的末尾，返回壹個新的dataframe對象。

語法:

DataFrame.append( ignore_index=False,)

參數:

示例1： 創建兩個數據框，然後將第二個附加到第壹個。

現在將df2附加到df1的末尾

輸出:

請註意，第二個DataFrame的索引值保留在附加的DataFrame中。如果我們不希望發生這種情況，則可以設置ignore_index = True。

輸出 :

“group by” 指的是涵蓋下列壹項或多項步驟的處理流程：

詳見分組。

輸出:

1.先分組，再用 sum() 函數計算每組的匯總數據：

輸出:

2.多列分組後，生成多層索引，也可以應用 sum 函數：

輸出:

如何將numpy數組轉換為給定形狀的DataFrame?

輸出:

透視表是壹種可以對數據動態排布並且分類匯總的表格格式，在pandas中它被稱作pivot_table。

pivot_table(data, values=None, index=None, columns=None)

參數:

詳見: 數據透視表

打印輸出：

用上述數據生成數據透視表非常簡單：

返回結果:

1.如何將列添加到pandas DataFrame？

源數據:

輸出:

輸出：

2.如何向panda DataFrame添加索引、行或列?

向DataFrame添加索引

如果您創建了壹個DataFrame, panda允許將輸入添加到索引參數中。它將確保您擁有所需的索引。否則，在默認情況下，DataFrame包含壹個數值索引，該索引從0開始，在DataFrame的最後壹行結束。

向DataFrame添加行、列

我們可以使用.loc、iloc和ix將行、列插入到DataFrame中。

添加具有特定索引名的行:

輸出:

3.如何在panda DataFrame上進行叠代?

您可以通過結合使用for循環和對DataFrame的iterrows()調用來遍歷DataFrame的行。

輸出:

4.我們如何排序DataFrame？

我們可以通過以下幾種有效地在DataFrame中執行排序：

(1)按標簽

可以使用sort_index()方法對數據dataframe進行排序。可以通過傳遞axis參數和排序順序來實現。默認情況下，按升序對行標簽進行排序。