लेख

chatGPT वापरून मजकूर पार्सिंग

मजकूर विश्लेषण, किंवा मजकूर खनन, मोठ्या प्रमाणात असंरचित मजकूर डेटामधून मौल्यवान अंतर्दृष्टी काढण्यासाठी एक महत्त्वपूर्ण तंत्र आहे. 

यात नमुने, ट्रेंड आणि संबंध शोधण्यासाठी मजकूरावर प्रक्रिया करणे आणि त्याचे विश्लेषण करणे समाविष्ट आहे.

हे कंपन्यांना, संशोधकांना आणि संस्थांना मजकूरांमधून गोळा केलेल्या माहितीवर आधारित निर्णय घेण्यास अनुमती देते. 

असंरचित डेटाचे प्रमाण झपाट्याने वाढत असल्याने, अचूक आणि कार्यक्षम मजकूर विश्लेषण साधनांची गरज विपणन, वित्त, आरोग्यसेवा आणि सामाजिक विज्ञानांसारख्या विविध उद्योगांमध्ये अधिकाधिक गंभीर बनली आहे.

पारंपारिकपणे, नियम-आधारित पद्धती आणि मशीन लर्निंग तंत्र जसे की SpaCY आणि ट्रान्सफॉर्मर तंत्र वापरून मजकूर विश्लेषण केले जाते. या पद्धती प्रभावी ठरल्या असल्या तरी, त्यांना परिपूर्ण करण्यासाठी भरपूर प्रयत्न आणि कौशल्य आवश्यक आहे.

मोठ्या भाषा मॉडेल (LLM) च्या आगमनाने जसे की चॅटजीपीटी di AI उघडा. मानवासारखा मजकूर तयार करण्यात आणि संदर्भ समजून घेण्याच्या उल्लेखनीय क्षमतांचे प्रदर्शन केले आहे, ज्यामुळे ते मजकूर विश्लेषण कार्यांसाठी एक आश्वासक साधन बनले आहे जसे की entity recognition, sentiment analysis, ई topic modeling.

आता आपण ChatGPT वापरून टेक्स्ट पार्सिंग कसे करू शकतो ते पाहू.

पारंपारिक पद्धत (सिंगल मॉडेल) वि. एलएलएम

भूतकाळात, आम्ही नेहमी मशीन लर्निंगमधील वेगवेगळ्या कामांसाठी वेगवेगळी मॉडेल्स वापरली आहेत. उदाहरणार्थ, जर मला एखाद्या मजकुरातून ज्ञान काढायचे असेल, तर मला नामांकित अस्तित्व ओळख मॉडेल वापरावे लागेल (NER – Named Entity Recognition), मला माझ्या मजकुराचे स्वतंत्र वर्गांमध्ये वर्गीकरण करायचे असल्यास, मला वर्गीकरण मॉडेलची आवश्यकता असेल. प्रत्येक वेगळ्या कृतीसाठी मॉडेलला प्रत्येक क्रियाकलापासाठी वेगळ्या पद्धतीने प्रशिक्षण देणे आवश्यक आहे, एकतर हस्तांतरण शिक्षणाद्वारे किंवा प्रशिक्षणाद्वारे.

च्या परिचयाने Large Language Models (LLM), LLM मॉडेल प्रशिक्षणासोबत किंवा त्याशिवाय अनेक NLP कार्ये करण्यास सक्षम असेल. कोणताही उपक्रम असू शकतो defiफक्त प्रॉम्प्ट्समधील सूचना बदलून nished.

आता मध्ये पारंपारिक NLP कार्य कसे करायचे ते पाहू चॅटजीपीटी आणि त्याची पारंपारिक पद्धतीशी तुलना करा. द्वारे केली जाणारी NLP कार्ये चॅटजीपीटी या लेखात आहेत:

  • नॉलेज एक्स्ट्रॅक्शन (NER)
  • मजकूर वर्गीकरण
  • Sentiment analysis
  • सारांश

नॉलेज एक्स्ट्रॅक्शन (NER)

नेम्ड एंटिटी रेकग्निशन (NER) मजकूर डेटाच्या वेगवेगळ्या ब्लॉक्समधील संज्ञा आपोआप ओळखण्याच्या कार्याचा संदर्भ देते. हे प्रामुख्याने वैद्यकीय नोट्समधून औषधांची नावे, विमा दाव्यांमधून अपघात-संबंधित अटी आणि रेकॉर्डमधून इतर डोमेन-विशिष्ट अटी यासारख्या महत्त्वाच्या घटक श्रेणी काढण्यासाठी वापरला जातो.

लक्षात घ्या की ही क्रिया वैद्यकीय क्षेत्रासाठी विशिष्ट आहे. मजकूरातील विशिष्ट वर्ग आणि संज्ञा जाणून घेण्यासाठी आम्हाला एका मॉडेलसाठी डेटाच्या 10.000 पेक्षा जास्त पंक्तींचे भाष्य आणि प्रशिक्षण देणे आवश्यक होते. ChatGPT कोणत्याही पूर्व-प्रशिक्षित मजकूर किंवा फाइन-ट्यूनिंगशिवाय संज्ञा योग्यरित्या ओळखू शकते, जो तुलनेने चांगला परिणाम आहे!

मजकूर वर्गीकरण

मजकूर वर्गीकरण मोठ्या डेटामधून मजकूर शोधणे आणि वर्गीकरण करण्याच्या स्वयंचलित प्रक्रियेस संदर्भित करते, ते मजकूर डेटा पुनर्प्राप्ती आणि काढण्यात एक आवश्यक भूमिका बजावते. मजकूर वर्गीकरण अनुप्रयोगांच्या उदाहरणांमध्ये क्लिनिकल अलर्ट किंवा जोखीम घटक वर्गीकरण, स्वयंचलित निदान वर्गीकरण आणि स्पॅम शोध यांचा समावेश आहे.

Sentiment analysis

Sentiment analysis मजकुराच्या तुकड्यात व्यक्त केलेली भावना किंवा भावना निश्चित करणे समाविष्ट आहे. मजकूराचे पूर्व श्रेणींमध्ये वर्गीकरण करणे हे त्याचे उद्दिष्ट आहेdefinite, सकारात्मक, नकारात्मक किंवा तटस्थ म्हणून, लेखकाने व्यक्त केलेल्या अंतर्निहित भावनांवर आधारित. 

भावना विश्लेषणाच्या अनुप्रयोगांमध्ये हे समाविष्ट आहे:

  • ग्राहक पुनरावलोकने आणि अभिप्रायाचे विश्लेषण,
  • सोशल मीडिया भावनांचा मागोवा घेणे,
  • बाजाराच्या ट्रेंडचे निरीक्षण करणे इ
  • निवडणूक प्रचारादरम्यान राजकीय भावनांचे मोजमाप.

सारांश

स्वयंचलित सारांश त्या प्रक्रियेचा संदर्भ देतात ज्याद्वारे एक किंवा अधिक दस्तऐवजांचे मुख्य विषय ओळखले जातात आणि संक्षिप्त आणि अचूक रीतीने सादर केले जातात. हे वापरकर्त्याला कमी वेळेत डेटाच्या मोठ्या भागांवर एक नजर टाकण्याची परवानगी देते. उदाहरण ऍप्लिकेशन्समध्ये सारांश प्रणाली समाविष्ट आहे जी बातम्यांच्या लेखांमधून अॅब्स्ट्रॅक्ट्सची स्वयंचलित निर्मिती आणि संशोधन पेपर अॅब्स्ट्रॅक्टमधून वाक्ये काढून माहितीचा सारांश तयार करण्यास अनुमती देते.

ChatGPT हे एक उत्कृष्ट सारांश साधन आहे, विशेषत: लांब लेख आणि क्लिष्ट पुनरावलोकनांसाठी. ChatGPT मध्ये पुनरावलोकने पेस्ट करून, आम्ही एका दृष्टीक्षेपात उत्पादन पुनरावलोकन सारांश सहजपणे जाणून घेऊ शकतो.

एलएलएमची मर्यादा

या लेखाचा उद्देश मजकूर विश्लेषण कार्ये करण्यासाठी LLM ची क्षमता शोधणे हा असल्याने, त्यांच्या मर्यादा ओळखणे देखील आवश्यक आहे. LLM च्या काही प्रमुख मर्यादांमध्ये हे समाविष्ट आहे:

  1. संसाधनाचा वापर : LLMs वापरण्यासाठी महत्त्वपूर्ण संगणकीय आणि आर्थिक संसाधने आवश्यक आहेत, जे लहान संस्थांसाठी किंवा मर्यादित संसाधनांसह वैयक्तिक संशोधकांसाठी एक आव्हान असू शकते. आजपर्यंत, चॅटजीपीटी इनपुट आणि आउटपुटसाठी सुमारे 8.000 टोकन स्वीकारते, मोठ्या प्रमाणात डेटाचे विश्लेषण करण्यासाठी, वापरकर्त्याला डेटाच्या अनेक भागांमध्ये मजकूर मोडण्याची आवश्यकता असते आणि कार्यांसाठी एकाधिक API कॉलची आवश्यकता असू शकते.
  2. प्रॉम्प्ट वाक्यांशासाठी संवेदनशीलता : LLM च्या कार्यक्षमतेवर प्रॉम्प्ट शब्दबद्ध करण्याच्या पद्धतीमुळे प्रभावित होऊ शकतात. तत्पर शब्दात थोडासा बदल भिन्न परिणाम देऊ शकतो, जे सातत्यपूर्ण आणि विश्वासार्ह आउटपुट शोधत असताना चिंतेचे कारण असू शकते.
  3. डोमेन विशिष्ट कौशल्याचा अभाव : LLM ला विविध डोमेन्सची सामान्य समज असली तरी, त्यांच्याकडे डोमेन-विशिष्ट डेटावर प्रशिक्षित विशेष मॉडेल्सइतकेच कौशल्य नसू शकते. परिणामी, त्यांचे कार्यप्रदर्शन काही प्रकरणांमध्ये इष्टतम असू शकत नाही आणि विशेषत: उच्च विशिष्ट किंवा तांत्रिक माहितीचा व्यवहार करताना उत्कृष्ट-ट्यूनिंग किंवा बाह्य ज्ञान आवश्यक असू शकते.

Ercole Palmeri

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

अलीकडील लेख

भविष्य येथे आहे: शिपिंग उद्योग जागतिक अर्थव्यवस्थेत कशी क्रांती घडवत आहे

नौदल क्षेत्र ही एक खरी जागतिक आर्थिक शक्ती आहे, ज्याने 150 अब्जांच्या बाजारपेठेकडे नेव्हिगेट केले आहे...

1 मे 2024

आर्टिफिशियल इंटेलिजन्सद्वारे प्रक्रिया केलेल्या माहितीच्या प्रवाहाचे नियमन करण्यासाठी प्रकाशक आणि OpenAI करारांवर स्वाक्षरी करतात

गेल्या सोमवारी, फायनान्शिअल टाईम्सने OpenAI सह करार जाहीर केला. FT ने त्याच्या जागतिक दर्जाच्या पत्रकारितेचा परवाना…

30 एप्रिल 2024

ऑनलाइन पेमेंट: स्ट्रीमिंग सेवा तुम्हाला कायमचे पैसे कसे देतात ते येथे आहे

लाखो लोक स्ट्रीमिंग सेवांसाठी पैसे देतात, मासिक सदस्यता शुल्क भरतात. असे सामान्य मत आहे की आपण…

29 एप्रिल 2024

Veeam मध्ये रॅन्समवेअरसाठी सर्वात व्यापक समर्थन, संरक्षणापासून प्रतिसाद आणि पुनर्प्राप्तीपर्यंत वैशिष्ट्ये आहेत

Veeam द्वारे Coveware सायबर खंडणी घटना प्रतिसाद सेवा प्रदान करणे सुरू ठेवेल. Coveware फॉरेन्सिक आणि उपाय क्षमता प्रदान करेल…

23 एप्रिल 2024

तुमच्या भाषेत इनोव्हेशन वाचा

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

आमचे अनुसरण करा