Articoli

Analisi del testo utilizzando chatGPT

L’analisi del testo, o text mining, è una tecnica fondamentale per estrarre informazioni preziose da grandi quantità di dati testuali non strutturati.

Implica l’elaborazione e l’analisi del testo per scoprire modelli, tendenze e relazioni.

Consente ad aziende, ricercatori e organizzazioni di prendere decisioni basate su informazioni estrapolate dai testi.

Poiché il volume di dati non strutturati continua a crescere in modo esponenziale, la necessità di strumenti di analisi del testo accurati ed efficienti è diventata sempre più critica in diversi ambiti, come marketing, finanza, assistenza sanitaria e scienze sociali.

Tradizionalmente, l’analisi del testo è stata eseguita utilizzando metodi basati su regole e tecniche di apprendimento automatico come SpaCY e la tecnica del trasformatore. Sebbene questi metodi si siano dimostrati efficaci, richiedono un notevole impegno e competenza per perfezionarli.

Con l’avvento di modelli di linguaggio di grandi dimensioni (LLM) come ChatGPT di OpenAI. Ha dimostrato notevoli capacità nella generazione di testo simile a quello umano e nella comprensione del contesto, rendendolo uno strumento promettente per attività di analisi del testo come entity recognition, sentiment analysis, e topic modeling.

Andiamo a vedere ora come possiamo eseguire l’analisi del testo utilizzando ChatGPT.

Metodo tradizionale (modelli singoli) vs. LLM

In passato, abbiamo sempre utilizzato modelli diversi per compiti diversi nell’apprendimento automatico. Ad esempio, se voglio estrarre conoscenza da un testo, avrò bisogno di utilizzare un modello di riconoscimento di entità nominate (NER – Named Entity Recognition), se ho bisogno di classificare il mio testo in classi separate, avrò bisogno di un modello di classificazione. Ogni attività diversa richiedeva che i modelli venissero addestrati in modo diverso a seconda delle attività, mediante trasferimento dell’apprendimento o addestramento.

Con l’introduzione dei Large Language Models (LLM), un modello LLM sarà in grado di eseguire più attività di PNL con o senza formazione. Ogni attività può essere definita semplicemente modificando le istruzioni nei prompt.

Vediamo ora come eseguire l’attività NLP tradizionale in ChatGPT e confrontarla con il modo tradizionale. Le attività di PNL che verranno eseguite da ChatGPT in questo articolo sono:

  • Estrazione della conoscenza (NER)
  • Classificazione del testo
  • Sentiment analysis
  • Riepilogo

Estrazione della Conoscenza (NER)

Named Entity Recognition (NER) si riferisce al compito di identificare automaticamente i termini in diversi blocchi di dati testuali. Viene utilizzato principalmente per estrarre importanti categorie di entità come nomi di farmaci da note cliniche, termini relativi a incidenti da richieste di risarcimento assicurativo e altri domini – termini specifici dai record.

Articoli correlati

Si noti che questa attività è specifica del dominio medico. In passato ci richiedeva di annotare e addestrare più di 10.000 righe di dati affinché un singolo modello conoscesse la classe e il termine specifici nel testo. ChatGPT può identificare correttamente il termine senza alcun testo pre-addestrato o messa a punto, il che è un risultato relativamente buono!

Classificazione del testo

Le classificazioni di testo si riferiscono al processo automatico per trovare e classificare il testo in categorie da enormi dati, svolge un ruolo essenziale nel recupero e nell’estrazione di dati di testo. Esempi di applicazioni di classificazione del testo includono allarmi clinici o categorizzazione dei fattori di rischio, classificazione diagnostica automatica e rilevamento di posta indesiderata.

Sentiment analysis

Sentiment analysis implica la determinazione del sentimento o dell’emozione espressa in un pezzo di testo. Ha lo scopo di classificare il testo in categorie predefinite, come positivo, negativo o neutro, in base sul sentimento sottostante trasmesso dall’autore. 

Le applicazioni dell’analisi del sentiment includono:

  • l’analisi delle recensioni e dei feedback dei clienti,
  • il monitoraggio del sentiment dei social media,
  • il monitoraggio delle tendenze del mercato e
  • la misurazione del sentiment politico durante le campagne elettorali.

Riepilogo

I riepiloghi automatici si riferiscono al processo mediante il quale gli argomenti principali di uno o più documenti vengono identificati e presentati in modo conciso e preciso. Ciò consente all’utente di dare un’occhiata a grandi blocchi di dati in breve tempo. Esempi di applicazioni includono un sistema di riepilogo che consente la generazione automatica di riassunti da articoli di notizie e il riepilogo di informazioni estraendo frasi da abstract di documenti di ricerca.

ChatGPT è un eccellente strumento di riepilogo, soprattutto per articoli lunghi e recensioni complicate. Incollando le recensioni in ChatGPT, possiamo facilmente conoscere il riepilogo delle recensioni dei prodotti a colpo d’occhio.

Limite degli LLM

Poiché lo scopo di questo articolo è esplorare la capacità degli LLM di eseguire attività di analisi del testo, è essenziale riconoscere anche i loro limiti. Alcune delle principali limitazioni degli LLM includono:

  1. Utilizzo delle risorse : l’utilizzo di LLM richiede notevoli risorse computazionali e finanziarie, il che può rappresentare una sfida per le organizzazioni più piccole o per i singoli ricercatori con risorse limitate. Ad oggi, ChatGPT accetta solo circa 8.000 token per input e output, per analizzare una grande quantità di dati, richiede all’utente di suddividere il testo in più blocchi di dati e potrebbe richiedere più chiamate API per le attività.
  2. Sensibilità al fraseggio dei prompt : le prestazioni degli LLM possono essere influenzate dal modo in cui sono formulati i prompt. Un leggero cambiamento nella formulazione del prompt può produrre risultati diversi, il che potrebbe essere motivo di preoccupazione quando si cercano output coerenti e affidabili.
  3. Mancanza di competenza specifica del dominio : sebbene gli LLM abbiano una comprensione generale di vari domini, potrebbero non avere lo stesso livello di competenza dei modelli specializzati addestrati su dati specifici del dominio. Di conseguenza, le loro prestazioni potrebbero non essere ottimali in alcuni casi e richiedere una messa a punto o conoscenze esterne, in particolare quando si tratta di informazioni altamente specializzate o tecniche.

Ercole Palmeri

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Reply rende disponibile MLFRAME Reply un framework basato sull’Intelligenza Artificiale Generativa applicato allo sviluppo e alla condivisione della conoscenza

Reply annuncia il lancio di MLFRAME Reply, un nuovo framework di intelligenza artificiale generativa per basi di conoscenza eterogenee. Ideato…

23 Settembre 2023

Premiate le Startup più Innovative: le 10 finaliste dell’ITALIAN MASTER STARTUP AWARD (IMSA) 2023

Giunge alla sua 17a edizione il Premio IMSA per le giovani startup nate dalla ricerca nell’ambito delle Università e degli…

22 Settembre 2023

I Thought Leader in occasione del Forum per il Premio Zayed per la Sostenibilità evidenziano i percorsi per promuovere il progresso delle persone e del pianeta

Il Premio Zayed per la Sostenibilità è il premio globale per la sostenibilità e l'impegno umanitario degli Emirati Arabi Uniti.…

22 Settembre 2023

Reply ottiene 4 Oracle EMEA Cluster Partner Awards nelle categorie Innovation, Business Impact e Customer Success

Reply, società di consulenza e system integrator a livello globale e Oracle Cloud Managed Service Provider, annuncia di aver ricevuto…

19 Settembre 2023

MasterZ, il Master su Blockchain e WEB 3.0 piu grande d’Europa, lancia una nuova piattaforma dedicata all’apprendimento, alla pratica e al lavoro

MasterZ Blockchain, aumenta il valore per il Master d’ eccellenza WEB 3.0 più grande d' Europa. Il team tutto italiano…

19 Settembre 2023

Lo Zayed Sustainability Prize annuncia 33 finalisti che promuovono iniziative di sostenibilità globale

33 finalisti selezionati tra 5.213 candidature in 163 paesi I finalisti sostengono un'azione climatica incisiva e supportano l'accesso all'energia pulita,…

18 Settembre 2023

Tendenze emergenti e innovazioni nella ricerca biologica: dal banco al letto del paziente

I prodotti biologici si sono evidenziati come una classe farmaceutica innovativa, rivoluzionando il campo della medicina attraverso terapie mirate. A…

17 Settembre 2023

3D Systems semplifica la produzione e promuove l’innovazione continua mediante l’internalizzazione della produzione di piattaforme di stampa aggiuntive

L'internalizzazione delle stampanti per la produzione di metalli e polimeri negli stabilimenti di Riom, Francia e Rock Hill, Carolina del…

17 Settembre 2023

Biognosys presenta innovazioni tecnologiche e progressi scientifici per rendere il proteoma utilizzabile per la ricerca sulle scienze della vita al Congresso mondiale HUPO 2023

L'analisi dei dati senza librerie e potenziata dall'apprendimento automatico con Spectronaut ® 18 offre quantificazione e produttività delle proteine ​​leader del settore…

16 Settembre 2023

Mattermost lancia nuove partnership per favorire una maggiore innovazione e adozione nel settore pubblico

Mattermost presenta un ecosistema ampliato di alleati con un'enfasi sui nuovi casi d'uso del Dipartimento della Difesa per le soluzioni…

16 Settembre 2023