Python Tutorial: cos’è Pandas e come usare la libreria Pandas in Python

python pandas dataframe series

Python è un linguaggio evoluto che deve la sua potenza, e la sua popolarità alle librerie.

Pandas è una di queste, tra le più usate nella scienza dei dati e nell’analisi.

Questo tutorial su libraria Pandas spiega le basi di Pandas, come la sua architettura e ambiente, vediamolo insieme.

Tempo stimato di Lettura: 8 minuti

Python Pandas è una delle librerie più utilizzate nella scienza dei dati e nell’analisi. Offre strutture di dati e strumenti ad alte prestazioni e user-friendly per l’analisi dei dati. In Pandas, gli oggetti da tavolo bidimensionali sono chiamati Pandas DataFrame, mentre gli array etichettati unidimensionali sono noti come pandas series. Un DataFrame è una struttura che include sia i nomi delle colonne che le etichette di riga.

Che cosa è Python Pandas?

Pandas è una potente libreria di analisi e manipolazione dei dati open source per Python. Fornisce strutture e funzioni di dati necessarie per lavorare su dati strutturati in modo semplice ed efficiente. Sviluppato da Wes McKinney nel 2008, Pandas è costruito sulla cima della libreria NumPy ed è ampiamente utilizzato per la disputa, la pulizia, l’analisi e la visualizzazione dei dati.

Per cosa si usa la libreria Pandas ?

Pandas è ampiamente utilizzato per:

  • Pulizia dei dati: gestione dei valori mancanti, delle duplicazioni e dei formati di dati errati.
  • Manipolazione dei dati: filtraggio, trasformazione e fusione di set di dati.
  • Analisi dei dati: Esecuzione di analisi e aggregazioni statistiche.
  • Visualizzazione dei dati: creazione di grafici e grafici per visualizzare le tendenze e i modelli dei dati.
  • Analisi delle serie temporali: gestione e manipolazione dei dati delle serie temporali.

Vantaggi principali del pacchetto Pandas

  1. Facilità d’uso: Pandas offre una sintassi intuitiva e funzionalità avanzate, rendendo semplice la manipolazione e l’analisi dei dati, anche per coloro che sono nuovi alla programmazione.
  2. Efficienza: costruito in cima a NumPy, Pandas è ottimizzato per le prestazioni con grandi set di dati, fornendo funzionalità di manipolazione dei dati rapide ed efficienti.
  3. Versatilità: Pandas supporta un’ampia gamma di formati di dati, tra cui CSV, Excel, database SQL e altro ancora, consentendo una perfetta integrazione con varie fonti di dati.
  4. Robusto Strutture di dati: la libreria fornisce potenti strutture di dati, come la pandas series e i DataFrame, che sono essenziali per la gestione dei dati strutturati in modo flessibile ed efficiente.
  5. Funzionalità completa: Pandas include numerosi metodi per la pulizia, la trasformazione e l’analisi dei dati, come la gestione dei valori mancanti, la fusione di set di dati e il raggruppamento dei dati.
  6. Supporto per serie temporali: Pandas ha un supporto robusto per i dati delle serie temporali, tra cui la generazione di intervalli di date, la conversione di frequenza, le statistiche delle finestre in movimento e altro ancora.
  7. Allineamento dei dati: l’allineamento automatico dei dati e la gestione dei dati mancanti semplificano il processo di lavoro con set di dati incompleti.
  8. Integrazione con altre librerie: Pandas si integra perfettamente con altre librerie Python popolari, come Matplotlib per la visualizzazione dei dati e Scikit-Learn per l’apprendimento automatico.
  9. Comunità attiva e documentazione: Pandas ha una comunità ampia e attiva, ampia documentazione e numerosi tutorial e risorse, rendendo più facile per gli utenti trovare aiuto e apprendere le migliori pratiche.
  10. Come libreria open source, Pandas è libero di utilizzare e continuamente migliorato dai contributi della comunità globale di scienza dei dati.

Come installare Pandas?

Installare Pandas è un processo semplice che può essere fatto usando il gestore dei pacchetti di Python, pip. Segui questi passaggi per installare Pandas sul tuo sistema:

Passo 1: Verificare l’installazione di Python

Assicurati che Python sia installato sul tuo sistema. È possibile controllare questo eseguendo il seguente comando nel prompt dei comandi o nel terminale:

Il pitone –versione

Passaggio 2: Prompt o Terminale dei comandi aperti

Aprire il prompt dei comandi (Windows) o terminale (MacOS/Linux).

Passo 3: Installare Pandas usando pip

Eseguire il seguente comando per installare Pandas:

I pip install pandas

Questo comando scaricherà e installerà l’ultima versione di Pandas insieme alle sue dipendenze.

Passaggio 4: Verificare l’installazione

Una volta completata l’installazione, è possibile verificare che Pandas sia installato correttamente aprendo una shell Python e importando Pandas:

Importi panda come pd

Stampa (pd.-version?)

Se Pandas è installato correttamente, questo stamperà la versione di Pandas installata.

Pandas Series

Una series pandas è una matrice etichettata unidimensionale in grado di contenere qualsiasi tipo di dati. È simile a una colonna in un foglio di calcolo o in una tabella SQL.

Importi panda come pd

– Creare una pandas series

Dati [1, 2, 3, 4, 5]

Serie ? pd.Series(dati)

Stampa (serie)

Operazioni di base su pandas series

È possibile eseguire varie operazioni in serie, come operazioni aritmetiche, filtraggio e calcoli statistici.

Le operazioni aritmetiche

Serie2 ? serie + 10

Stampa (serie 2)

– Filtro di filtraggio

Serie filtrata ? series[serie ? 2]

Stampa (filtrato-serie)

– Calcoli statistici

Valore medio ? series.mean()

Stampa (mean-value)

Pandas Dataframe

Un pandas dataframe è una struttura di dati tabulare bidimensionale, di dimensioni ed eterogenee con assi etichettati (riture e colonne).

Creazione di un DataFrame

Dati relativi a ? ?

‘Nome’: [‘Alice’, ‘Bob’, ‘Charlie’],

‘Eo’: [25, 30, 35],

‘City’: [‘New York’, ‘Los Angeles’, ‘Chicago’]

df ? pd.DataFrame(data)

Stampa (df)

Operazioni di base su pandas dataframe

Dataframes supporta una vasta gamma di operazioni per la manipolazione e l’analisi dei dati.

Accesso alle colonne

Stampa (df[‘Nome’])

– Aggiungere una nuova colonna

df[‘Salario’] [70000, 80000, 90000]

Stampa (df)

– Gocciare una colonna

df.drop(‘City’, axis-1)

Stampa (df)

Ordinamento con Python Pandas

L’ordinamento dei dati è un aspetto fondamentale dell’analisi dei dati. In Pandas è possibile ordinare i dati in base ai valori di una o più colonne o dall’indice DataFrame. Questa funzionalità consente di organizzare e analizzare i dati in modo più efficace.

Ordinare per valori:

Per ordinare un DataFrame in base ai valori di una colonna specifica, si utilizza il metodo sort-values.

Importi panda come pd

– Campione di datiFrame

dati: [‘Alice’, ‘Bob’, ‘Charlie’], ‘Charlie’],

‘Eo’: [25, 30, 35],

‘Salario’: [70000, 80000, 90000]

df ? pd.DataFrame(data)

– Smistamento da ‘Age’

ordinati-df ? df.sort?values(da-‘Age’)

Stampa (sorted-df)

Ordinamento per indice:

Puoi anche ordinare i tuoi DataFrame dal suo indice utilizzando il metodo sort-index.

– Smistamento per indice

ordinati-df-index ? df.sort-index()

Stampa (sorted-df-index)

Entrambi i metodi consentono l’ordinamento degli ordini ascendenti o decrescente impostando il parametro ascendente a Vero o Falso.

Gruppo di Python Pandas

Il metodo groupby in Pandas è un potente strumento che consente di raggruppare i dati in base a una o più colonne ed eseguire operazioni aggregate su tali gruppi. Ciò è particolarmente utile per riassumere i dati e ottenere informazioni su diversi sottoinsiemi dei tuoi dati.

Raggruppamento e aggregazione:

Ecco come puoi usare groupby per raggruppare i dati ed eseguire operazioni di aggregazione come somma, media o conteggio.

– Campione di datiFrame

Dati: [‘HR’, ‘Finance’, ‘HR’, ‘HR’, ‘Finance’, ‘HR’],

‘Employee’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Edward’],

‘Salario’: [50000, 60000, 70000, 80000, 90000]

df ? pd.DataFrame(data)

Raggruppamento per ‘Dipartimento’ e sommando il ‘Salario’

raggruppati ? df.groupby(‘Dipartimento’)[‘Salario’].

Stampa (raggruppato)

Il metodo groupby restituisce un oggetto GroupBy, che può quindi essere aggregato utilizzando varie funzioni come somma, media, conteggio, ecc.

Python Pandas: la fusione

La fusione è un’operazione cruciale che consente di combinare due DataFrames basati su una colonna o un indice comune. Pandas fornisce la funzione di fusione per questo scopo, che è simile a SQL joins.

Fusione di DataFrames:

– Campione di datiFrames

df1 ? pd.DataFrame(‘key’: [‘A’, ‘B’, ‘C’], ‘value1’: [1, 2, 3] ?)

df2 ? pd.DataFrame(‘key’: [‘B’, ‘C’, ‘D’], ‘value2’: [2, 3, 4]?)

– Fusione sulla colonna ‘chiave’

fusa?df ? pd.merge(df1, df2, on”key’)

Stampa (merged-df)

È possibile specificare il tipo di join (interno, esterno, sinistro, destro) utilizzando il parametro.

– Ester esterna unirsi

esterna-merged-df ? pd.merge(df1, df2, on”key’, how’outer’)

Stampa (outer-merged-df)

Pandas di Python: Concatenazione

La concatenazione è il processo di aggiunta di DataFrame lungo un particolare asse (riture o colonne). La funzione concat dei Pandas ti permette di concatenare due o più DataFrame.

Concatenating DataFrames:

– Campione di datiFrames

df1 ? pd.DataFrame(‘A’: [1, 2, 3], ‘B’: [4, 5, 6] ?)

df2 ? pd.DataFrame(‘A’: [7, 8, 9], ‘B’: [10, 11, 12] ?)

Concatenare lungo le righe

concat?df ? pd.concat([df1, df2])

Stampa (concat-df)

È anche possibile concatenare lungo le colonne impostando il parametro dell’asse a 1.

Concatenare lungo le colonne

concat?df?col ? pd.concat([df1, df2], axis?1)

Stampa (concat?df?col)

Visualizzazione dei dati con Pandas

La visualizzazione dei dati è fondamentale per l’analisi dei dati, consentendo di vedere modelli, tendenze e outlier nei dati. La libreria si integra bene con Matplotlib, rendendo facile la creazione di vari grafici direttamente dal tuo DataFrame.

Dati di Plotting:

Importazione matplotlib.pyplot come plt

– Campione di datiFrame

Dati ? ‘Anno: [2017, 2018, 2019, 2020, 2021],

‘Venitoriali’: [250, 300, 400, 350, 500]

df ? pd.DataFrame(data)

Plotting a un grafico a linea

df.plot(x?’Year’, y”Sales’, gentile”)

plt.xlabel(‘Anno)

plt.ylabel(‘Vendite’)

plt.title(‘EsVendite di Mezzo’)

plt.show ()

La libreria supporta vari tipi di trama, tra cui trame di linea, appezzamenti, istogrammi e altro ancora. È possibile comunicare efficacemente le informazioni e i risultati dei dati sfruttando queste capacità di visualizzazione.

Autore