Python 教學:什麼是 Pandas 以及如何在 Python 中使用 Pandas 函式庫
Python 是一種高階語言,它的強大和流行歸功於函式庫。
Pandas 就是其中之一,是資料科學和分析中最常用的工具之一。
這篇libraria Pandas教學講解了Pandas的基礎知識,例如它的架構和環境,我們一起來看看。
預計閱讀時間: 8 minuti
蟒蛇 大熊貓 是資料科學和分析領域最常用的函式庫之一。它提供高效能、使用者友善的資料結構和資料分析工具。在 大熊貓,二維桌面物件被稱為 熊貓數據框,而一維標記數組稱為 貓熊系列。 DataFrame 是一種包含列名稱和行標籤的結構。
什麼是Python熊貓?
Pandas 是一個強大的開源資料操作和分析庫 蟒蛇。它提供了輕鬆且有效率地處理結構化資料所需的資料結構和函數。 Pandas 由 Wes McKinney 於 2008 年開發,建立在 NumPy 庫之上,廣泛用於資料整理、清理、分析和視覺化。
Pandas 庫有什麼用?
Pandas 廣泛用於:
- 資料清理:處理缺失值、重複和不正確的資料格式。
- 資料操作:過濾、轉換和合併資料集。
- 數據分析:執行統計分析和匯總。
- 資料視覺化:建立圖表和圖形來視覺化資料中的趨勢和模式。
- 時間序列分析:管理和操作時間序列資料。
Pandas 包的主要優點
- 易於使用:Pandas 提供直覺的語法和高級功能,使資料操作和分析變得簡單,即使對於程式設計新手來說也是如此。
- 效率:建立在 數字貨幣,Pandas 針對大型資料集的效能進行了最佳化,提供快速且有效率的資料操作功能。
- 多功能性:Pandas 支援多種資料格式,包括 CSV、 Excel, 數據庫 SQL等,支援與各種資料來源的無縫整合。
- 強大的資料結構:該程式庫提供了強大的資料結構,例如 貓熊系列 歐洲聯盟 數據框,這對於靈活且有效率地管理結構化資料至關重要。
- 全面的功能:Pandas 包含多種資料清理、轉換和分析方法,例如缺失值處理、資料集合並和資料聚類。
- 時間序列支持:Pandas 對時間序列資料提供強大的支持,包括日期範圍產生、頻率轉換、移動視窗統計等。
- 資料對齊:自動資料對齊和遺失資料管理簡化了處理不完整資料集的過程。
- 與其他庫集成:Pandas 與其他庫無縫集成 蟒蛇 流行的,例如用於資料視覺化的 Matplotlib 和 Scikit學習 用於機器學習。
- 活躍的社群和文件:Pandas 擁有龐大且活躍的社群、豐富的文件以及大量的教學課程和資源,讓用戶更輕鬆地尋求幫助和學習最佳實踐。
- 作為一個開源庫,Pandas 可以免費使用,並透過全球資料科學界的貢獻不斷改進。
如何安裝熊貓?
安裝 Pandas 是一個簡單的過程,可以使用套件管理器來完成 蟒蛇, 點。請依照以下步驟在您的系統上安裝 Pandas:
第 1 步:驗證安裝 蟒蛇
確保 蟒蛇 已安裝在您的系統上。您可以透過在命令提示字元或終端機中執行以下命令來檢查這一點:
python – 版本
第 2 步:開啟命令提示字元或終端機
開啟命令提示字元 (Windows) 或終端機 (MacOS/Linux)。
第 3 步:使用 pip 安裝 Pandas
執行以下命令來安裝 Pandas:
我 pip 安裝 pandas
此命令將下載並安裝最新版本的 Pandas 及其相依性。
第 4 步:驗證安裝
安裝完成後,您可以透過開啟 shell 來驗證 Pandas 是否安裝正確 蟒蛇 並導入熊貓:
熊貓相當於 pd
列印(pd.-版本?)
如果 Pandas 安裝正確,這將列印已安裝的 Pandas 版本。
熊貓系列
一 貓熊系列 是一個一維標記數組,能夠保存任何類型的資料。它類似於電子表格或 SQL 表中的列。
熊貓相當於 pd
– 創建一個 pandas 系列
數據 [1, 2, 3, 4, 5]
系列 ? pd.系列(數據)
印刷(系列)
pandas系列的基本操作
您可以串行執行各種運算,例如算術運算、過濾和統計計算。
算術運算
系列 2?系列+10
列印(系列 2)
– 過濾器過濾器
過濾系列?系列[系列? 2]
列印(過濾系列)
– 統計計算
平均值?系列.mean()
列印(平均值)
熊貓資料框
pandas 資料框是一種帶有標記軸(行和列)的二維、多維、異質表格資料結構。
建立資料框
相關數據? ?
'姓名':['愛麗絲','鮑伯','查理'],
'Eo': [25, 30, 35],
'城市':['紐約'、'洛杉磯'、'芝加哥']
-
df? pd.DataFrame(data)
列印(df)
pandas資料框的基本操作
Dataframes 支援廣泛的資料操作和分析操作。
訪問列
列印 (df['姓名'])
– 新增列
df['工資'] [70000, 80000, 90000]
列印(df)
– 刪除一列
df.drop('城市', axis-1)
列印(df)
使用 Python Pandas 排序
資料排序是資料分析的一個基本面向。在 Pandas 中,您可以按一列或多列的值或按 DataFrame 索引對資料進行排序。此功能可協助您更有效地組織和分析資料。
按值排序:
若要根據特定欄位的值對 DataFrame 進行排序,可以使用 sort-values 方法。
熊貓相當於 pd
– 範例資料幀
數據:['愛麗絲','鮑伯','查理'],'查理'],
'Eo': [25, 30, 35],
‘工資’: [70000, 80000, 90000]
df? pd.DataFrame(data)
– 依「年齡」排序
排序 df ? df.sort?values(from-'Age')
列印(已排序-df)
按索引排序:
您也可以使用 sort-index 方法依索引對 DataFrame 進行排序。
– 依索引排序
排序 df 索引 ? df.sort-index()
列印(排序 df 索引)
這兩種方法都允許透過將 ascending 參數設為 True 或 False 來按升序或降序排序。
Python 熊貓組
Pandas 中的 groupby 方法是一個強大的工具,它允許您根據一個或多個欄位對資料進行分組,並對這些群組執行聚合操作。這對於匯總資料和深入了解資料的不同子集特別有用。
分組和聚合:
以下介紹如何使用 groupby 將資料分組並執行求和、求平均值或計數等聚合操作。
– 範例資料幀
數據:['人力資源','財務','人力資源','人力資源','財務','人力資源'],
'員工':['愛麗絲','鮑勃','查理','大衛','愛德華'],
‘工資’: [50000, 60000, 70000, 80000, 90000]
df? pd.DataFrame(data)
按“部門”分組並新增“薪資”
分組? df.groupby('部門')['薪資'].
列印(分組)
groupby 方法傳回一個 GroupBy 對象,然後可以使用各種函數(例如 sum、average、count 等)來聚合該物件。
Python Pandas:融合
合併是一項至關重要的操作,它允許您基於公共列或索引組合兩個 DataFrame。 Pandas 為此提供了合併功能,類似於 SQL 連線。
合併資料框:
– 範例資料幀
df1? pd.DataFrame('key': ['A', 'B', 'C'], 'value1': [1, 2, 3] ?)
df2 ? pd.DataFrame('key': ['B', 'C', 'D'], 'value2': [2, 3, 4]?)
– 合併「關鍵」列
咕嚕? pd.merge(df1, df2, on“key”)
列印(合併-df)
您可以使用參數指定連線類型(內部、外部、左、右)。
– 外部以斯帖加入
外部合併 df ? pd.merge(df1, df2, on“key”, how“outer”)
列印(外部合併-df)
Python Pandas:串聯
連接是相加的過程 數據框 沿著特定的軸線(儀式或柱子)。 Pandas concat 函數可讓您連接兩個或多個 數據框.
連接資料框:
– 範例資料幀
df1? pd.DataFrame('A': [1, 2, 3], 'B': [4, 5, 6] ?)
df2? pd.DataFrame('A': [7, 8, 9], 'B': [10, 11, 12] ?)
沿著行連接
連接? pd.concat([df1, df2])
列印(concat-df)
您也可以將 axis 參數設為 1 來沿列串聯。
沿著列連接
連接?df?col ? pd.concat([df1, df2], 軸?1)
印(concat?df?col)
使用 Pandas 進行資料視覺化
資料視覺化對於資料分析至關重要,它使您能夠看到資料中的模式、趨勢和異常值。該庫與 Matplotlib,可以輕鬆地直接從 DataFrame 建立各種圖表。
繪製數據:
將 matplotlib.pyplot 導入為 plt
– 範例資料幀
數據 ? '年份:[2017, 2018, 2019, 2020, 2021],
'腹腔': [250, 300, 400, 350, 500]
df? pd.DataFrame(data)
繪製折線圖
df.plot(x?'年份', y「銷售額」, 種類」)
plt.xlabel('年份)
plt.ylabel('銷售')
plt.title('EsVendite di Mezzo')
plt.show()
該庫支援各種繪圖類型,包括線條圖、繪圖、直方圖等。您可以利用這些視覺化功能有效地傳達訊息和資料發現。