Python 教學:什麼是 Pandas 以及如何在 Python 中使用 Pandas 函式庫

python pandas 資料框系列

Python 是一種高階語言,它的強大和流行歸功於函式庫。

Pandas 就是其中之一,是資料科學和分析中最常用的工具之一。

這篇libraria Pandas教學講解了Pandas的基礎知識,例如它的架構和環境,我們一起來看看。

預計閱讀時間: 8 minuti

蟒蛇 大熊貓 是資料科學和分析領域最常用的函式庫之一。它提供高效能、使用者友善的資料結構和資料分析工具。在 大熊貓,二維桌面物件被稱為 熊貓數據框,而一維標記數組稱為 貓熊系列。 DataFrame 是一種包含列名稱和行標籤的結構。

什麼是Python熊貓?

Pandas 是一個強大的開源資料操作和分析庫 蟒蛇。它提供了輕鬆且有效率地處理結構化資料所需的資料結構和函數。 Pandas 由 Wes McKinney 於 2008 年開發,建立在 NumPy 庫之上,廣泛用於資料整理、清理、分析和視覺化。

Pandas 庫有什麼用?

Pandas 廣泛用於:

  • 資料清理:處理缺失值、重複和不正確的資料格式。
  • 資料操作:過濾、轉換和合併資料集。
  • 數據分析:執行統計分析和匯總。
  • 資料視覺化:建立圖表和圖形來視覺化資料中的趨勢和模式。
  • 時間序列分析:管理和操作時間序列資料。

Pandas 包的主要優點

  1. 易於使用:Pandas 提供直覺的語法和高級功能,使資料操作和分析變得簡單,即使對於程式設計新手來說也是如此。
  2. 效率:建立在 數字貨幣,Pandas 針對大型資料集的效能進行了最佳化,提供快速且有效率的資料操作功能。
  3. 多功能性:Pandas 支援多種資料格式,包括 CSV、 Excel, 數據庫 SQL等,支援與各種資料來源的無縫整合。
  4. 強大的資料結構:該程式庫提供了強大的資料結構,例如 貓熊系列 歐洲聯盟 數據框,這對於靈活且有效率地管理結構化資料至關重要。
  5. 全面的功能:Pandas 包含多種資料清理、轉換和分析方法,例如缺失值處理、資料集合並和資料聚類。
  6. 時間序列支持:Pandas 對時間序列資料提供強大的支持,包括日期範圍產生、頻率轉換、移動視窗統計等。
  7. 資料對齊:自動資料對齊和遺失資料管理簡化了處理不完整資料集的過程。
  8. 與其他庫集成:Pandas 與其他庫無縫集成 蟒蛇 流行的,例如用於資料視覺化的 Matplotlib 和 Scikit學習 用於機器學習。
  9. 活躍的社群和文件:Pandas 擁有龐大且活躍的社群、豐富的文件以及大量的教學課程和資源,讓用戶更輕鬆地尋求幫助和學習最佳實踐。
  10. 作為一個開源庫,Pandas 可以免費使用,並透過全球資料科學界的貢獻不斷改進。

如何安裝熊貓?

安裝 Pandas 是一個簡單的過程,可以使用套件管理器來完成 蟒蛇, 點。請依照以下步驟在您的系統上安裝 Pandas:

第 1 步:驗證安裝 蟒蛇

確保 蟒蛇 已安裝在您的系統上。您可以透過在命令提示字元或終端機中執行以下命令來檢查這一點:

python – 版本

第 2 步:開啟命令提示字元或終端機

開啟命令提示字元 (Windows) 或終端機 (MacOS/Linux)。

第 3 步:使用 pip 安裝 Pandas

執行以下命令來安裝 Pandas:

我 pip 安裝 pandas

此命令將下載並安裝最新版本的 Pandas 及其相依性。

第 4 步:驗證安裝

安裝完成後,您可以透過開啟 shell 來驗證 Pandas 是否安裝正確 蟒蛇 並導入熊貓:

熊貓相當於 pd

列印(pd.-版本?)

如果 Pandas 安裝正確,這將列印已安裝的 Pandas 版本。

熊貓系列

貓熊系列 是一個一維標記數組,能夠保存任何類型的資料。它類似於電子表格或 SQL 表中的列。

熊貓相當於 pd

– 創建一個 pandas 系列

數據 [1, 2, 3, 4, 5]

系列 ? pd.系列(數據)

印刷(系列)

pandas系列的基本操作

您可以串行執行各種運算,例如算術運算、過濾和統計計算。

算術運算

系列 2?系列+10

列印(系列 2)

– 過濾器過濾器

過濾系列?系列[系列? 2]

列印(過濾系列)

– 統計計算

平均值?系列.mean()

列印(平均值)

熊貓資料框

pandas 資料框是一種帶有標記軸(行和列)的二維、多維、異質表格資料結構。

建立資料框

相關數據? ?

'姓名':['愛麗絲','鮑伯','查理'],

'Eo': [25, 30, 35],

'城市':['紐約'、'洛杉磯'、'芝加哥']

-

df? pd.DataFrame(data)

列印(df)

pandas資料框的基本操作

Dataframes 支援廣泛的資料操作和分析操作。

訪問列

列印 (df['姓名'])

– 新增列

df['工資'] [70000, 80000, 90000]

列印(df)

– 刪除一列

df.drop('城市', axis-1)

列印(df)

使用 Python Pandas 排序

資料排序是資料分析的一個基本面向。在 Pandas 中,您可以按一列或多列的值或按 DataFrame 索引對資料進行排序。此功能可協助您更有效地組織和分析資料。

按值排序:

若要根據特定欄位的值對 DataFrame 進行排序,可以使用 sort-values 方法。

熊貓相當於 pd

– 範例資料幀

數據:['愛麗絲','鮑伯','查理'],'查理'],

'Eo': [25, 30, 35],

‘工資’: [70000, 80000, 90000]

df? pd.DataFrame(data)

– 依「年齡」排序

排序 df ? df.sort?values(from-'Age')

列印(已排序-df)

按索引排序:

您也可以使用 sort-index 方法依索引對 DataFrame 進行排序。

– 依索引排序

排序 df 索引 ? df.sort-index()

列印(排序 df 索引)

這兩種方法都允許透過將 ascending 參數設為 True 或 False 來按升序或降序排序。

Python 熊貓組

Pandas 中的 groupby 方法是一個強大的工具,它允許您根據一個或多個欄位對資料進行分組,並對這些群組執行聚合操作。這對於匯總資料和深入了解資料的不同子集特別有用。

分組和聚合:

以下介紹如何使用 groupby 將資料分組並執行求和、求平均值或計數等聚合操作。

– 範例資料幀

數據:['人力資源','財務','人力資源','人力資源','財務','人力資源'],

'員工':['愛麗絲','鮑勃','查理','大衛','愛德華'],

‘工資’: [50000, 60000, 70000, 80000, 90000]

df? pd.DataFrame(data)

按“部門”分組並新增“薪資”

分組? df.groupby('部門')['薪資'].

列印(分組)

groupby 方法傳回一個 GroupBy 對象,然後可以使用各種函數(例如 sum、average、count 等)來聚合該物件。

Python Pandas:融合

合併是一項至關重要的操作,它允許您基於公共列或索引組合兩個 DataFrame。 Pandas 為此提供了合併功能,類似於 SQL 連線。

合併資料框:

– 範例資料幀

df1? pd.DataFrame('key': ['A', 'B', 'C'], 'value1': [1, 2, 3] ?)

df2 ? pd.DataFrame('key': ['B', 'C', 'D'], 'value2': [2, 3, 4]?)

– 合併「關鍵」列

咕嚕? pd.merge(df1, df2, on“key”)

列印(合併-df)

您可以使用參數指定連線類型(內部、外部、左、右)。

– 外部以斯帖加入

外部合併 df ? pd.merge(df1, df2, on“key”, how“outer”)

列印(外部合併-df)

Python Pandas:串聯

連接是相加的過程 數據框 沿著特定的軸線(儀式或柱子)。 Pandas concat 函數可讓您連接兩個或多個 數據框.

連接資料框:

– 範例資料幀

df1? pd.DataFrame('A': [1, 2, 3], 'B': [4, 5, 6] ?)

df2? pd.DataFrame('A': [7, 8, 9], 'B': [10, 11, 12] ?)

沿著行連接

連接? pd.concat([df1, df2])

列印(concat-df)

您也可以將 axis 參數設為 1 來沿列串聯。

沿著列連接

連接?df?col ? pd.concat([df1, df2], 軸?1)

印(concat?df?col)

使用 Pandas 進行資料視覺化

資料視覺化對於資料分析至關重要,它使您能夠看到資料中的模式、趨勢和異常值。該庫與 Matplotlib,可以輕鬆地直接從 DataFrame 建立各種圖表。

繪製數據:

將 matplotlib.pyplot 導入為 plt

– 範例資料幀

數據 ? '年份:[2017, 2018, 2019, 2020, 2021],

'腹腔': [250, 300, 400, 350, 500]

df? pd.DataFrame(data)

繪製折線圖

df.plot(x?'年份', y「銷售額」, 種類」)

plt.xlabel('年份)

plt.ylabel('銷售')

plt.title('EsVendite di Mezzo')

plt.show()

該庫支援各種繪圖類型,包括線條圖、繪圖、直方圖等。您可以利用這些視覺化功能有效地傳達訊息和資料發現。

作者