Karena volume data tidak terstruktur terus tumbuh secara eksponensial, kebutuhan akan alat analisis teks yang akurat dan efisien menjadi semakin penting di berbagai industri, seperti pemasaran, keuangan, kesehatan, dan ilmu sosial.
Secara tradisional, analisis teks dilakukan dengan menggunakan metode berbasis aturan dan teknik pembelajaran mesin seperti SpaCY dan teknik transformator. Meskipun metode ini telah terbukti efektif, metode ini membutuhkan usaha dan keahlian yang cukup besar untuk menyempurnakannya.
Dengan munculnya model bahasa besar (LLM) seperti ChatGPT di OpenAI. Ini telah menunjukkan kemampuan luar biasa dalam menghasilkan teks seperti manusia dan memahami konteks, menjadikannya alat yang menjanjikan untuk tugas analisis teks seperti entity recognition
, sentiment analysis
Dan topic modeling
.
Sekarang mari kita lihat bagaimana kita dapat melakukan penguraian teks menggunakan ChatGPT.
Di masa lalu, kami selalu menggunakan model yang berbeda untuk tugas yang berbeda dalam pembelajaran mesin. Misalnya, jika saya ingin mengekstraksi pengetahuan dari sebuah teks, saya perlu menggunakan model pengenalan entitas bernama (NER – Named Entity Recognition
), jika saya perlu mengklasifikasikan teks saya ke dalam kelas terpisah, saya memerlukan model klasifikasi. Setiap aktivitas yang berbeda membutuhkan model yang akan dilatih secara berbeda untuk setiap aktivitas, baik dengan transfer pembelajaran atau dengan pelatihan.
Dengan diperkenalkannya Large Language Models (LLM), model LLM akan mampu melakukan beberapa tugas NLP dengan atau tanpa pelatihan. Aktivitas apa pun bisa defidiselesaikan hanya dengan mengubah instruksi di petunjuknya.
Sekarang mari kita lihat bagaimana melakukan tugas NLP tradisional ChatGPT dan membandingkannya dengan cara tradisional. Tugas NLP yang akan dilakukan oleh ChatGPT dalam artikel ini adalah:
Sentiment analysis
Named Entity Recognition (NER) mengacu pada tugas mengidentifikasi istilah secara otomatis dalam berbagai blok data tekstual. Ini terutama digunakan untuk mengekstraksi kategori entitas penting seperti nama obat dari catatan klinis, istilah terkait kecelakaan dari klaim asuransi, dan istilah khusus domain lainnya dari catatan.
Perhatikan bahwa aktivitas ini khusus untuk domain medis. Dulu kami harus membuat anotasi dan melatih lebih dari 10.000 baris data untuk satu model untuk mengetahui kelas dan istilah tertentu dalam teks. ChatGPT dapat mengidentifikasi istilah dengan benar tanpa teks terlatih atau penyetelan halus, yang merupakan hasil yang relatif bagus!
Klasifikasi teks mengacu pada proses otomatis untuk menemukan dan mengklasifikasikan teks ke dalam kategori dari data yang sangat besar, ini memainkan peran penting dalam pengambilan dan ekstraksi data teks. Contoh aplikasi klasifikasi teks meliputi peringatan klinis atau kategorisasi faktor risiko, klasifikasi diagnostik otomatis, dan deteksi spam.
Sentiment analysis
Sentiment analysis
melibatkan penentuan perasaan atau emosi yang diungkapkan dalam sebuah teks. Ini bertujuan untuk mengklasifikasikan teks ke dalam pra kategoridefinite, sebagai positif, negatif, atau netral, berdasarkan sentimen yang mendasari disampaikan oleh penulis.
Aplikasi analisis sentimen meliputi:
Ringkasan otomatis mengacu pada proses dimana topik utama dari satu atau lebih dokumen diidentifikasi dan disajikan secara ringkas dan akurat. Hal ini memungkinkan pengguna untuk melihat potongan besar data dalam waktu singkat. Contoh aplikasi termasuk sistem ringkasan yang memungkinkan pembuatan abstrak secara otomatis dari artikel berita dan ringkasan informasi dengan mengekstraksi kalimat dari abstrak makalah penelitian.
ChatGPT adalah alat ringkasan yang luar biasa, terutama untuk artikel panjang dan ulasan rumit. Dengan menempelkan ulasan di ChatGPT, kita dapat dengan mudah mengetahui ringkasan ulasan produk secara sekilas.
Karena tujuan artikel ini adalah untuk mengeksplorasi kemampuan LLM untuk melakukan tugas analisis teks, penting juga untuk mengenali keterbatasannya. Beberapa batasan utama LLM meliputi:
Ercole Palmeri
Senin lalu, Financial Times mengumumkan kesepakatan dengan OpenAI. FT melisensikan jurnalisme kelas dunianya…
Jutaan orang membayar layanan streaming, membayar biaya berlangganan bulanan. Sudah menjadi pendapat umum bahwa Anda…
Coveware by Veeam akan terus menyediakan layanan respons insiden pemerasan siber. Coveware akan menawarkan kemampuan forensik dan remediasi…
Pemeliharaan prediktif merevolusi sektor minyak & gas, dengan pendekatan inovatif dan proaktif terhadap manajemen pembangkit listrik.…