Tutorial Python: Apa Pandas lan carane nggunakake perpustakaan Pandas ing Python
Python minangka basa canggih sing nduweni kekuwatan lan popularitas kanggo perpustakaan.
Pandas minangka salah sawijining, sing paling akeh digunakake ing ilmu data lan analytics.
Tutorial babagan libraria Pandas iki nerangake babagan dhasar Pandas, kayata arsitektur lan lingkungane, ayo dideleng bebarengan.
Perkiraan Wektu Wacan: 8 menit
Python Pandas minangka salah sawijining perpustakaan sing paling akeh digunakake ing ilmu data lan analytics. Nawakake struktur data kanthi kinerja dhuwur, pangguna-loropaken lan alat kanggo analisis data. Ing Pandas, obyek meja rong dimensi diarani Pandas DataFrame, nalika array labeled siji-dimensi dikenal minangka seri panda. DataFrame minangka struktur sing kalebu jeneng kolom lan label baris.
Apa Python Pandas?
Pandas minangka perpustakaan manipulasi lan analisis data open source sing kuat kanggo Python. Iki nyedhiyakake struktur data lan fungsi sing dibutuhake kanggo nggarap data terstruktur kanthi gampang lan efisien. Dikembangake dening Wes McKinney ing 2008, Pandas dibangun ing ndhuwur perpustakaan NumPy lan akeh digunakake kanggo wrangling data, reresik, analisis lan visualisasi.
Apa perpustakaan Pandas digunakake?
Pandas digunakake kanggo:
- Reresik data: Nangani nilai sing ilang, duplikasi, lan format data sing salah.
- Manipulasi data: nyaring, ngowahi lan nggabungake dataset.
- Analisis data: Nindakake analisis statistik lan agregasi.
- Visualisasi data: Nggawe grafik lan grafik kanggo nggambarake tren lan pola ing data sampeyan.
- Analisis Time Series: Ngatur lan manipulasi data seri wektu.
Keuntungan utama paket Pandas
- Gampang digunakake: Pandas nawakake sintaks intuisi lan fungsi sing luwih maju, nggawe manipulasi lan analisis data dadi gampang, sanajan kanggo wong sing anyar babagan program.
- Efisiensi: Dibangun ing ndhuwur NomPy, Pandas dioptimalake kanggo kinerja kanthi dataset gedhe, nyedhiyakake kemampuan manipulasi data sing cepet lan efisien.
- Versatility: Pandas ndhukung macem-macem format data, kalebu CSV, Excel, database SQL lan liya-liyane, mbisakake integrasi sing lancar karo macem-macem sumber data.
- Struktur Data sing Mantap: Pustaka nyedhiyakake struktur data sing kuat, kayata seri panda ei DataFrame, sing penting kanggo ngatur data terstruktur kanthi fleksibel lan efisien.
- Fungsi sing komprehensif: Panda kalebu macem-macem cara kanggo ngresiki, transformasi, lan analisis data, kayata penanganan nilai sing ilang, panggabungan dataset, lan clustering data.
- Dhukungan Seri Wektu: Pandas nduweni dhukungan sing kuat kanggo data seri wektu, kalebu generasi rentang tanggal, konversi frekuensi, statistik jendhela obah, lan liya-liyane.
- Alignment data: Alignment data otomatis lan manajemen data sing ilang nyederhanakake proses nggarap set data sing ora lengkap.
- Integrasi karo perpustakaan liyane: Pandas nggabungake kanthi lancar karo perpustakaan liyane Python populer, kayata Matplotlib kanggo visualisasi data lan Scikit-Sinau kanggo machine learning.
- Komunitas lan dokumentasi aktif: Pandas nduweni komunitas gedhe lan aktif, dokumentasi ekstensif, lan akeh tutorial lan sumber daya, supaya pangguna luwih gampang golek pitulung lan sinau praktik paling apik.
- Minangka perpustakaan open source, Pandas bebas digunakake lan terus-terusan ditingkatake kanthi kontribusi saka komunitas ilmu data global.
Carane nginstal Pandas?
Nginstal Pandas minangka proses prasaja sing bisa ditindakake nggunakake manajer paket Python, piup. Tindakake langkah iki kanggo nginstal Pandas ing sistem sampeyan:
Langkah 1: Verifikasi instalasi saka Python
Priksa manawa Python wis diinstal ing sistem sampeyan. Sampeyan bisa mriksa iki kanthi mbukak printah ing ngisor iki ing command prompt utawa terminal:
Versi python
Langkah 2: Bukak Command Prompt utawa Terminal
Bukak Command Prompt (Windows) utawa Terminal (MacOS/Linux).
Langkah 3: Instal Pandas nggunakake pip
Jalanake printah ing ngisor iki kanggo nginstal Pandas:
Aku pip nginstal panda
Printah iki bakal ngundhuh lan nginstal versi paling anyar saka Pandas bebarengan karo dependensi.
Langkah 4: Verifikasi instalasi
Sawise instalasi rampung, sampeyan bisa verifikasi manawa Panda wis diinstal kanthi bener kanthi mbukak cangkang Python lan ngimpor Pandas:
Jumlah Panda minangka pd
Print (pd.-versi?)
Yen Pandas diinstal kanthi bener, iki bakal nyithak versi Pandas sing diinstal.
Seri Panda
Una panda seri minangka array label siji-dimensi sing bisa nahan jinis data apa wae. Iku padha karo kolom ing spreadsheet utawa tabel SQL.
Jumlah Panda minangka pd
- Nggawe seri panda
Data [1, 2, 3, 4, 5]
Seri? pd.seri(data)
Print (seri)
Operasi dhasar ing seri panda
Sampeyan bisa nindakake macem-macem operasi kanthi serial, kayata operasi aritmetika, nyaring, lan petungan statistik.
Operasi aritmetika
Seri 2? seri + 10
Print (seri 2)
- Filter Filter
Seri sing disaring? seri [seri? 2]
Print (seri disaring)
- Petungan statistik
Nilai rata-rata? series.mean()
Print (nilai rata-rata)
Pandas Dataframe
Bingkai data panda minangka struktur data tabular rong dimensi, dimensi, lan heterogen kanthi sumbu (garis lan kolom).
Nggawe DataFrame
Data sing ana hubungane karo? ?
'Jeneng': ['Alice', 'Bob', 'Charlie'],
'Eo': [25, 30, 35],
'Kota': ['New York', 'Los Angeles', 'Chicago']
-
df? pd.DataFrame(data)
Print (df)
Operasi dhasar ing pigura data panda
Dataframes ndhukung macem-macem operasi kanggo manipulasi lan analisis data.
Akses menyang kolom
Print (df['Jeneng'])
- Tambah kolom anyar
df['Gaji'] [70000, 80000, 90000]
Print (df)
- Nyelehake kolom
df.drop('Kutha', axis-1)
Print (df)
Ngurutake karo Python Pandas
Ngurutake data minangka aspek dhasar saka analisis data. Ing Pandas, sampeyan bisa ngurutake data miturut nilai siji utawa luwih kolom utawa kanthi indeks DataFrame. Fitur iki mbantu sampeyan ngatur lan nganalisa data kanthi luwih efektif.
Urut miturut nilai:
Kanggo ngurutake DataFrame adhedhasar nilai kolom tartamtu, sampeyan nggunakake metode sort-values.
Jumlah Panda minangka pd
- Sample DataFrame
data: ['Alice', 'Bob', 'Charlie'], 'Charlie'],
'Eo': [25, 30, 35],
'Gaji': [70000, 80000, 90000]
df? pd.DataFrame(data)
- Urut saka 'Umur'
diurut-df ? df.sort?values(saka-'Umur')
Print (diurut-df)
Urut miturut indeks:
Sampeyan uga bisa ngurutake DataFrames miturut indeks kanthi nggunakake metode indeks-urut.
- Ngurutake miturut indeks
diurutake-df-index ? df.sort-index()
Print (sorted-df-index)
Kaloro cara kasebut ngidini ngurutake kanthi urutan munggah utawa mudhun kanthi nyetel parameter munggah dadi Bener utawa Salah.
Grup Pandas Python
Cara groupby ing Pandas minangka alat sing kuat sing ngidini sampeyan nglumpukake data adhedhasar siji utawa luwih kolom lan nindakake operasi agregat ing grup kasebut. Iki utamané migunani kanggo ngringkes data lan entuk wawasan babagan macem-macem subset data sampeyan.
Pengelompokan lan agregasi:
Mangkene carane sampeyan bisa nggunakake groupby kanggo nglumpukake data lan nindakake operasi agregasi kaya jumlah, rata-rata, utawa count.
- Sample DataFrame
Data: ['HR', 'Finance', 'HR', 'HR', 'Finance', 'HR'],
'Karyawan': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Gaji': [50000, 60000, 70000, 80000, 90000]
df? pd.DataFrame(data)
Ngelompokake miturut 'Departemen' lan nambah 'Gaji'
diklompokaké? df.groupby('Departemen')['Gaji'].
Print (klompok)
Cara groupby ngasilake obyek GroupBy, sing banjur bisa dikumpulake nggunakake macem-macem fungsi kayata jumlah, rata-rata, count, lsp.
Python Pandas: The Fusion
Penggabungan minangka operasi penting sing ngidini sampeyan nggabungake rong DataFrames adhedhasar kolom utawa indeks umum. Pandas nyedhiyakake fungsi gabungan kanggo tujuan iki, sing padha karo gabungan SQL.
Nggabungake DataFrames:
- Sample DataFrames
df1? pd.DataFrame('key': ['A', 'B', 'C'], 'value1': [1, 2, 3] ?)
df2? pd.DataFrame('key': ['B', 'C', 'D'], 'value2': [2, 3, 4]?)
– Gabung ing kolom 'kunci'
purr?df? pd.merge(df1, df2, on”key’)
Print (digabungake-df)
Sampeyan bisa nemtokake jinis gabung (inner, njaba, kiwa, tengen) nggunakake parameter.
- Eksternal Ester gabung
external-merged-df ? pd.merge(df1, df2, on"key', how'outer')
Print (outer-merged-df)
Python Pandas: Concatenation
Concatenation minangka proses nambah DataFrame bebarengan sumbu tartamtu (ritures utawa kolom). Fungsi Pandas concat ngidini sampeyan nggabungake loro utawa luwih DataFrame.
Concatenating DataFrames:
- Sample DataFrames
df1? pd.DataFrame('A': [1, 2, 3], 'B': [4, 5, 6] ?)
df2? pd.DataFrame('A': [7, 8, 9], 'B': [10, 11, 12] ?)
Concatenate ing sadawane baris
concat?df ? pd.concat([df1, df2])
Print (concat-df)
Sampeyan uga bisa nggabungake kolom kanthi nyetel parameter sumbu dadi 1.
Concatenate bebarengan kolom
concat?df?col ? pd.concat([df1, df2], sumbu?1)
Print (concat?df?col)
Visualisasi data karo Pandas
Visualisasi data penting kanggo analisis data, ngidini sampeyan ndeleng pola, tren, lan outlier ing data sampeyan. Perpustakaan Integrasi uga karo matplotlib, nggawe gampang nggawe macem-macem grafik langsung saka DataFrame sampeyan.
Data ploting:
Impor matplotlib.pyplot minangka plt
- Sample DataFrame
data? 'Taun: [2017, 2018, 2019, 2020, 2021],
'Ventorial': [250, 300, 400, 350, 500]
df? pd.DataFrame(data)
Plotting menyang grafik garis
df.plot(x?'Taun', y"Penjualan', jenis")
plt.xlabel('Taun)
plt.ylabel('Sales')
plt.title('EsVendite ing Mezzo')
plt.show()
Pustaka ndhukung macem-macem jinis plot, kalebu plot garis, plot, histogram, lan liya-liyane. Sampeyan bisa komunikasi informasi lan temuan data kanthi efektif kanthi nggunakake kemampuan visualisasi kasebut.