Analisi del testo utilizzando chatGPT
L’analisi del testo, o text mining, è una tecnica fondamentale per estrarre informazioni preziose da grandi quantità di dati testuali non strutturati.
Implica l’elaborazione e l’analisi del testo per scoprire modelli, tendenze e relazioni.
Consente ad aziende, ricercatori e organizzazioni di prendere decisioni basate su informazioni estrapolate dai testi.
Poiché il volume di dati non strutturati continua a crescere in modo esponenziale, la necessità di strumenti di analisi del testo accurati ed efficienti è diventata sempre più critica in diversi ambiti, come marketing, finanza, assistenza sanitaria e scienze sociali.
Tradizionalmente, l’analisi del testo è stata eseguita utilizzando metodi basati su regole e tecniche di apprendimento automatico come SpaCY e la tecnica del trasformatore. Sebbene questi metodi si siano dimostrati efficaci, richiedono un notevole impegno e competenza per perfezionarli.
Con l’avvento di modelli di linguaggio di grandi dimensioni (LLM) come ChatGPT di OpenAI. Ha dimostrato notevoli capacità nella generazione di testo simile a quello umano e nella comprensione del contesto, rendendolo uno strumento promettente per attività di analisi del testo come entity recognition
, sentiment analysis
, e topic modeling
.
Andiamo a vedere ora come possiamo eseguire l’analisi del testo utilizzando ChatGPT.
Metodo tradizionale (modelli singoli) vs. LLM
In passato, abbiamo sempre utilizzato modelli diversi per compiti diversi nell’apprendimento automatico. Ad esempio, se voglio estrarre conoscenza da un testo, avrò bisogno di utilizzare un modello di riconoscimento di entità nominate (NER – Named Entity Recognition
), se ho bisogno di classificare il mio testo in classi separate, avrò bisogno di un modello di classificazione. Ogni attività diversa richiedeva che i modelli venissero addestrati in modo diverso a seconda delle attività, mediante trasferimento dell’apprendimento o addestramento.
Con l’introduzione dei Large Language Models (LLM), un modello LLM sarà in grado di eseguire più attività di PNL con o senza formazione. Ogni attività può essere definita semplicemente modificando le istruzioni nei prompt.
Vediamo ora come eseguire l’attività NLP tradizionale in ChatGPT e confrontarla con il modo tradizionale. Le attività di PNL che verranno eseguite da ChatGPT in questo articolo sono:
- Estrazione della conoscenza (NER)
- Classificazione del testo
Sentiment analysis
- Riepilogo
Estrazione della Conoscenza (NER)
Named Entity Recognition (NER) si riferisce al compito di identificare automaticamente i termini in diversi blocchi di dati testuali. Viene utilizzato principalmente per estrarre importanti categorie di entità come nomi di farmaci da note cliniche, termini relativi a incidenti da richieste di risarcimento assicurativo e altri domini – termini specifici dai record.
Si noti che questa attività è specifica del dominio medico. In passato ci richiedeva di annotare e addestrare più di 10.000 righe di dati affinché un singolo modello conoscesse la classe e il termine specifici nel testo. ChatGPT può identificare correttamente il termine senza alcun testo pre-addestrato o messa a punto, il che è un risultato relativamente buono!
Classificazione del testo
Le classificazioni di testo si riferiscono al processo automatico per trovare e classificare il testo in categorie da enormi dati, svolge un ruolo essenziale nel recupero e nell’estrazione di dati di testo. Esempi di applicazioni di classificazione del testo includono allarmi clinici o categorizzazione dei fattori di rischio, classificazione diagnostica automatica e rilevamento di posta indesiderata.
Sentiment analysis
Sentiment analysis
implica la determinazione del sentimento o dell’emozione espressa in un pezzo di testo. Ha lo scopo di classificare il testo in categorie predefinite, come positivo, negativo o neutro, in base sul sentimento sottostante trasmesso dall’autore.
Le applicazioni dell’analisi del sentiment includono:
- l’analisi delle recensioni e dei feedback dei clienti,
- il monitoraggio del sentiment dei social media,
- il monitoraggio delle tendenze del mercato e
- la misurazione del sentiment politico durante le campagne elettorali.
Riepilogo
I riepiloghi automatici si riferiscono al processo mediante il quale gli argomenti principali di uno o più documenti vengono identificati e presentati in modo conciso e preciso. Ciò consente all’utente di dare un’occhiata a grandi blocchi di dati in breve tempo. Esempi di applicazioni includono un sistema di riepilogo che consente la generazione automatica di riassunti da articoli di notizie e il riepilogo di informazioni estraendo frasi da abstract di documenti di ricerca.
ChatGPT è un eccellente strumento di riepilogo, soprattutto per articoli lunghi e recensioni complicate. Incollando le recensioni in ChatGPT, possiamo facilmente conoscere il riepilogo delle recensioni dei prodotti a colpo d’occhio.
Limite degli LLM
Poiché lo scopo di questo articolo è esplorare la capacità degli LLM di eseguire attività di analisi del testo, è essenziale riconoscere anche i loro limiti. Alcune delle principali limitazioni degli LLM includono:
- Utilizzo delle risorse : l’utilizzo di LLM richiede notevoli risorse computazionali e finanziarie, il che può rappresentare una sfida per le organizzazioni più piccole o per i singoli ricercatori con risorse limitate. Ad oggi, ChatGPT accetta solo circa 8.000 token per input e output, per analizzare una grande quantità di dati, richiede all’utente di suddividere il testo in più blocchi di dati e potrebbe richiedere più chiamate API per le attività.
- Sensibilità al fraseggio dei prompt : le prestazioni degli LLM possono essere influenzate dal modo in cui sono formulati i prompt. Un leggero cambiamento nella formulazione del prompt può produrre risultati diversi, il che potrebbe essere motivo di preoccupazione quando si cercano output coerenti e affidabili.
- Mancanza di competenza specifica del dominio : sebbene gli LLM abbiano una comprensione generale di vari domini, potrebbero non avere lo stesso livello di competenza dei modelli specializzati addestrati su dati specifici del dominio. Di conseguenza, le loro prestazioni potrebbero non essere ottimali in alcuni casi e richiedere una messa a punto o conoscenze esterne, in particolare quando si tratta di informazioni altamente specializzate o tecniche.
Ercole Palmeri