Python Tutorial: cos’è Pandas e come usare la libreria Pandas in Python

Python è un linguaggio evoluto che deve la sua potenza, e la sua popolarità alle librerie.
Pandas è una di queste, tra le più usate nella scienza dei dati e nell’analisi.
Questo tutorial su libraria Pandas spiega le basi di Pandas, come la sua architettura e ambiente, vediamolo insieme.
Tempo stimato di Lettura: 8 minuti
Python Pandas è una delle librerie più utilizzate nella scienza dei dati e nell’analisi. Offre strutture di dati e strumenti ad alte prestazioni e user-friendly per l’analisi dei dati. In Pandas, gli oggetti da tavolo bidimensionali sono chiamati Pandas DataFrame, mentre gli array etichettati unidimensionali sono noti come pandas series. Un DataFrame è una struttura che include sia i nomi delle colonne che le etichette di riga.
Che cosa è Python Pandas?
Pandas è una potente libreria di analisi e manipolazione dei dati open source per Python. Fornisce strutture e funzioni di dati necessarie per lavorare su dati strutturati in modo semplice ed efficiente. Sviluppato da Wes McKinney nel 2008, Pandas è costruito sulla cima della libreria NumPy ed è ampiamente utilizzato per la disputa, la pulizia, l’analisi e la visualizzazione dei dati.
Per cosa si usa la libreria Pandas ?
Pandas è ampiamente utilizzato per:
- Pulizia dei dati: gestione dei valori mancanti, delle duplicazioni e dei formati di dati errati.
- Manipolazione dei dati: filtraggio, trasformazione e fusione di set di dati.
- Analisi dei dati: Esecuzione di analisi e aggregazioni statistiche.
- Visualizzazione dei dati: creazione di grafici e grafici per visualizzare le tendenze e i modelli dei dati.
- Analisi delle serie temporali: gestione e manipolazione dei dati delle serie temporali.
Vantaggi principali del pacchetto Pandas
- Facilità d’uso: Pandas offre una sintassi intuitiva e funzionalità avanzate, rendendo semplice la manipolazione e l’analisi dei dati, anche per coloro che sono nuovi alla programmazione.
- Efficienza: costruito in cima a NumPy, Pandas è ottimizzato per le prestazioni con grandi set di dati, fornendo funzionalità di manipolazione dei dati rapide ed efficienti.
- Versatilità: Pandas supporta un’ampia gamma di formati di dati, tra cui CSV, Excel, database SQL e altro ancora, consentendo una perfetta integrazione con varie fonti di dati.
- Robusto Strutture di dati: la libreria fornisce potenti strutture di dati, come la pandas series e i DataFrame, che sono essenziali per la gestione dei dati strutturati in modo flessibile ed efficiente.
- Funzionalità completa: Pandas include numerosi metodi per la pulizia, la trasformazione e l’analisi dei dati, come la gestione dei valori mancanti, la fusione di set di dati e il raggruppamento dei dati.
- Supporto per serie temporali: Pandas ha un supporto robusto per i dati delle serie temporali, tra cui la generazione di intervalli di date, la conversione di frequenza, le statistiche delle finestre in movimento e altro ancora.
- Allineamento dei dati: l’allineamento automatico dei dati e la gestione dei dati mancanti semplificano il processo di lavoro con set di dati incompleti.
- Integrazione con altre librerie: Pandas si integra perfettamente con altre librerie Python popolari, come Matplotlib per la visualizzazione dei dati e Scikit-Learn per l’apprendimento automatico.
- Comunità attiva e documentazione: Pandas ha una comunità ampia e attiva, ampia documentazione e numerosi tutorial e risorse, rendendo più facile per gli utenti trovare aiuto e apprendere le migliori pratiche.
- Come libreria open source, Pandas è libero di utilizzare e continuamente migliorato dai contributi della comunità globale di scienza dei dati.
Come installare Pandas?
Installare Pandas è un processo semplice che può essere fatto usando il gestore dei pacchetti di Python, pip. Segui questi passaggi per installare Pandas sul tuo sistema:
Passo 1: Verificare l’installazione di Python
Assicurati che Python sia installato sul tuo sistema. È possibile controllare questo eseguendo il seguente comando nel prompt dei comandi o nel terminale:
Il pitone –versione
Passaggio 2: Prompt o Terminale dei comandi aperti
Aprire il prompt dei comandi (Windows) o terminale (MacOS/Linux).
Passo 3: Installare Pandas usando pip
Eseguire il seguente comando per installare Pandas:
I pip install pandas
Questo comando scaricherà e installerà l’ultima versione di Pandas insieme alle sue dipendenze.
Passaggio 4: Verificare l’installazione
Una volta completata l’installazione, è possibile verificare che Pandas sia installato correttamente aprendo una shell Python e importando Pandas:
Importi panda come pd
Stampa (pd.-version?)
Se Pandas è installato correttamente, questo stamperà la versione di Pandas installata.
Pandas Series
Una series pandas è una matrice etichettata unidimensionale in grado di contenere qualsiasi tipo di dati. È simile a una colonna in un foglio di calcolo o in una tabella SQL.
Importi panda come pd
– Creare una pandas series
Dati [1, 2, 3, 4, 5]
Serie ? pd.Series(dati)
Stampa (serie)
Operazioni di base su pandas series
È possibile eseguire varie operazioni in serie, come operazioni aritmetiche, filtraggio e calcoli statistici.
Le operazioni aritmetiche
Serie2 ? serie + 10
Stampa (serie 2)
– Filtro di filtraggio
Serie filtrata ? series[serie ? 2]
Stampa (filtrato-serie)
– Calcoli statistici
Valore medio ? series.mean()
Stampa (mean-value)
Pandas Dataframe
Un pandas dataframe è una struttura di dati tabulare bidimensionale, di dimensioni ed eterogenee con assi etichettati (riture e colonne).
Creazione di un DataFrame
Dati relativi a ? ?
‘Nome’: [‘Alice’, ‘Bob’, ‘Charlie’],
‘Eo’: [25, 30, 35],
‘City’: [‘New York’, ‘Los Angeles’, ‘Chicago’]
–
df ? pd.DataFrame(data)
Stampa (df)
Operazioni di base su pandas dataframe
Dataframes supporta una vasta gamma di operazioni per la manipolazione e l’analisi dei dati.
Accesso alle colonne
Stampa (df[‘Nome’])
– Aggiungere una nuova colonna
df[‘Salario’] [70000, 80000, 90000]
Stampa (df)
– Gocciare una colonna
df.drop(‘City’, axis-1)
Stampa (df)
Ordinamento con Python Pandas
L’ordinamento dei dati è un aspetto fondamentale dell’analisi dei dati. In Pandas è possibile ordinare i dati in base ai valori di una o più colonne o dall’indice DataFrame. Questa funzionalità consente di organizzare e analizzare i dati in modo più efficace.
Ordinare per valori:
Per ordinare un DataFrame in base ai valori di una colonna specifica, si utilizza il metodo sort-values.
Importi panda come pd
– Campione di datiFrame
dati: [‘Alice’, ‘Bob’, ‘Charlie’], ‘Charlie’],
‘Eo’: [25, 30, 35],
‘Salario’: [70000, 80000, 90000]
df ? pd.DataFrame(data)
– Smistamento da ‘Age’
ordinati-df ? df.sort?values(da-‘Age’)
Stampa (sorted-df)
Ordinamento per indice:
Puoi anche ordinare i tuoi DataFrame dal suo indice utilizzando il metodo sort-index.
– Smistamento per indice
ordinati-df-index ? df.sort-index()
Stampa (sorted-df-index)
Entrambi i metodi consentono l’ordinamento degli ordini ascendenti o decrescente impostando il parametro ascendente a Vero o Falso.
Gruppo di Python Pandas
Il metodo groupby in Pandas è un potente strumento che consente di raggruppare i dati in base a una o più colonne ed eseguire operazioni aggregate su tali gruppi. Ciò è particolarmente utile per riassumere i dati e ottenere informazioni su diversi sottoinsiemi dei tuoi dati.
Raggruppamento e aggregazione:
Ecco come puoi usare groupby per raggruppare i dati ed eseguire operazioni di aggregazione come somma, media o conteggio.
– Campione di datiFrame
Dati: [‘HR’, ‘Finance’, ‘HR’, ‘HR’, ‘Finance’, ‘HR’],
‘Employee’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Edward’],
‘Salario’: [50000, 60000, 70000, 80000, 90000]
df ? pd.DataFrame(data)
Raggruppamento per ‘Dipartimento’ e sommando il ‘Salario’
raggruppati ? df.groupby(‘Dipartimento’)[‘Salario’].
Stampa (raggruppato)
Il metodo groupby restituisce un oggetto GroupBy, che può quindi essere aggregato utilizzando varie funzioni come somma, media, conteggio, ecc.
Python Pandas: la fusione
La fusione è un’operazione cruciale che consente di combinare due DataFrames basati su una colonna o un indice comune. Pandas fornisce la funzione di fusione per questo scopo, che è simile a SQL joins.
Fusione di DataFrames:
– Campione di datiFrames
df1 ? pd.DataFrame(‘key’: [‘A’, ‘B’, ‘C’], ‘value1’: [1, 2, 3] ?)
df2 ? pd.DataFrame(‘key’: [‘B’, ‘C’, ‘D’], ‘value2’: [2, 3, 4]?)
– Fusione sulla colonna ‘chiave’
fusa?df ? pd.merge(df1, df2, on”key’)
Stampa (merged-df)
È possibile specificare il tipo di join (interno, esterno, sinistro, destro) utilizzando il parametro.
– Ester esterna unirsi
esterna-merged-df ? pd.merge(df1, df2, on”key’, how’outer’)
Stampa (outer-merged-df)
Pandas di Python: Concatenazione
La concatenazione è il processo di aggiunta di DataFrame lungo un particolare asse (riture o colonne). La funzione concat dei Pandas ti permette di concatenare due o più DataFrame.
Concatenating DataFrames:
– Campione di datiFrames
df1 ? pd.DataFrame(‘A’: [1, 2, 3], ‘B’: [4, 5, 6] ?)
df2 ? pd.DataFrame(‘A’: [7, 8, 9], ‘B’: [10, 11, 12] ?)
Concatenare lungo le righe
concat?df ? pd.concat([df1, df2])
Stampa (concat-df)
È anche possibile concatenare lungo le colonne impostando il parametro dell’asse a 1.
Concatenare lungo le colonne
concat?df?col ? pd.concat([df1, df2], axis?1)
Stampa (concat?df?col)
Visualizzazione dei dati con Pandas
La visualizzazione dei dati è fondamentale per l’analisi dei dati, consentendo di vedere modelli, tendenze e outlier nei dati. La libreria si integra bene con Matplotlib, rendendo facile la creazione di vari grafici direttamente dal tuo DataFrame.
Dati di Plotting:
Importazione matplotlib.pyplot come plt
– Campione di datiFrame
Dati ? ‘Anno: [2017, 2018, 2019, 2020, 2021],
‘Venitoriali’: [250, 300, 400, 350, 500]
df ? pd.DataFrame(data)
Plotting a un grafico a linea
df.plot(x?’Year’, y”Sales’, gentile”)
plt.xlabel(‘Anno)
plt.ylabel(‘Vendite’)
plt.title(‘EsVendite di Mezzo’)
plt.show ()
La libreria supporta vari tipi di trama, tra cui trame di linea, appezzamenti, istogrammi e altro ancora. È possibile comunicare efficacemente le informazioni e i risultati dei dati sfruttando queste capacità di visualizzazione.