असंरचित डेटाचे प्रमाण झपाट्याने वाढत असल्याने, अचूक आणि कार्यक्षम मजकूर विश्लेषण साधनांची गरज विपणन, वित्त, आरोग्यसेवा आणि सामाजिक विज्ञानांसारख्या विविध उद्योगांमध्ये अधिकाधिक गंभीर बनली आहे.
पारंपारिकपणे, नियम-आधारित पद्धती आणि मशीन लर्निंग तंत्र जसे की SpaCY आणि ट्रान्सफॉर्मर तंत्र वापरून मजकूर विश्लेषण केले जाते. या पद्धती प्रभावी ठरल्या असल्या तरी, त्यांना परिपूर्ण करण्यासाठी भरपूर प्रयत्न आणि कौशल्य आवश्यक आहे.
मोठ्या भाषा मॉडेल (LLM) च्या आगमनाने जसे की चॅटजीपीटी di AI उघडा. मानवासारखा मजकूर तयार करण्यात आणि संदर्भ समजून घेण्याच्या उल्लेखनीय क्षमतांचे प्रदर्शन केले आहे, ज्यामुळे ते मजकूर विश्लेषण कार्यांसाठी एक आश्वासक साधन बनले आहे जसे की entity recognition
, sentiment analysis
, ई topic modeling
.
आता आपण ChatGPT वापरून टेक्स्ट पार्सिंग कसे करू शकतो ते पाहू.
भूतकाळात, आम्ही नेहमी मशीन लर्निंगमधील वेगवेगळ्या कामांसाठी वेगवेगळी मॉडेल्स वापरली आहेत. उदाहरणार्थ, जर मला एखाद्या मजकुरातून ज्ञान काढायचे असेल, तर मला नामांकित अस्तित्व ओळख मॉडेल वापरावे लागेल (NER – Named Entity Recognition
), मला माझ्या मजकुराचे स्वतंत्र वर्गांमध्ये वर्गीकरण करायचे असल्यास, मला वर्गीकरण मॉडेलची आवश्यकता असेल. प्रत्येक वेगळ्या कृतीसाठी मॉडेलला प्रत्येक क्रियाकलापासाठी वेगळ्या पद्धतीने प्रशिक्षण देणे आवश्यक आहे, एकतर हस्तांतरण शिक्षणाद्वारे किंवा प्रशिक्षणाद्वारे.
च्या परिचयाने Large Language Models (LLM), LLM मॉडेल प्रशिक्षणासोबत किंवा त्याशिवाय अनेक NLP कार्ये करण्यास सक्षम असेल. कोणताही उपक्रम असू शकतो defiफक्त प्रॉम्प्ट्समधील सूचना बदलून nished.
आता मध्ये पारंपारिक NLP कार्य कसे करायचे ते पाहू चॅटजीपीटी आणि त्याची पारंपारिक पद्धतीशी तुलना करा. द्वारे केली जाणारी NLP कार्ये चॅटजीपीटी या लेखात आहेत:
Sentiment analysis
नेम्ड एंटिटी रेकग्निशन (NER) मजकूर डेटाच्या वेगवेगळ्या ब्लॉक्समधील संज्ञा आपोआप ओळखण्याच्या कार्याचा संदर्भ देते. हे प्रामुख्याने वैद्यकीय नोट्समधून औषधांची नावे, विमा दाव्यांमधून अपघात-संबंधित अटी आणि रेकॉर्डमधून इतर डोमेन-विशिष्ट अटी यासारख्या महत्त्वाच्या घटक श्रेणी काढण्यासाठी वापरला जातो.
लक्षात घ्या की ही क्रिया वैद्यकीय क्षेत्रासाठी विशिष्ट आहे. मजकूरातील विशिष्ट वर्ग आणि संज्ञा जाणून घेण्यासाठी आम्हाला एका मॉडेलसाठी डेटाच्या 10.000 पेक्षा जास्त पंक्तींचे भाष्य आणि प्रशिक्षण देणे आवश्यक होते. ChatGPT कोणत्याही पूर्व-प्रशिक्षित मजकूर किंवा फाइन-ट्यूनिंगशिवाय संज्ञा योग्यरित्या ओळखू शकते, जो तुलनेने चांगला परिणाम आहे!
मजकूर वर्गीकरण मोठ्या डेटामधून मजकूर शोधणे आणि वर्गीकरण करण्याच्या स्वयंचलित प्रक्रियेस संदर्भित करते, ते मजकूर डेटा पुनर्प्राप्ती आणि काढण्यात एक आवश्यक भूमिका बजावते. मजकूर वर्गीकरण अनुप्रयोगांच्या उदाहरणांमध्ये क्लिनिकल अलर्ट किंवा जोखीम घटक वर्गीकरण, स्वयंचलित निदान वर्गीकरण आणि स्पॅम शोध यांचा समावेश आहे.
Sentiment analysis
Sentiment analysis
मजकुराच्या तुकड्यात व्यक्त केलेली भावना किंवा भावना निश्चित करणे समाविष्ट आहे. मजकूराचे पूर्व श्रेणींमध्ये वर्गीकरण करणे हे त्याचे उद्दिष्ट आहेdefinite, सकारात्मक, नकारात्मक किंवा तटस्थ म्हणून, लेखकाने व्यक्त केलेल्या अंतर्निहित भावनांवर आधारित.
भावना विश्लेषणाच्या अनुप्रयोगांमध्ये हे समाविष्ट आहे:
स्वयंचलित सारांश त्या प्रक्रियेचा संदर्भ देतात ज्याद्वारे एक किंवा अधिक दस्तऐवजांचे मुख्य विषय ओळखले जातात आणि संक्षिप्त आणि अचूक रीतीने सादर केले जातात. हे वापरकर्त्याला कमी वेळेत डेटाच्या मोठ्या भागांवर एक नजर टाकण्याची परवानगी देते. उदाहरण ऍप्लिकेशन्समध्ये सारांश प्रणाली समाविष्ट आहे जी बातम्यांच्या लेखांमधून अॅब्स्ट्रॅक्ट्सची स्वयंचलित निर्मिती आणि संशोधन पेपर अॅब्स्ट्रॅक्टमधून वाक्ये काढून माहितीचा सारांश तयार करण्यास अनुमती देते.
ChatGPT हे एक उत्कृष्ट सारांश साधन आहे, विशेषत: लांब लेख आणि क्लिष्ट पुनरावलोकनांसाठी. ChatGPT मध्ये पुनरावलोकने पेस्ट करून, आम्ही एका दृष्टीक्षेपात उत्पादन पुनरावलोकन सारांश सहजपणे जाणून घेऊ शकतो.
या लेखाचा उद्देश मजकूर विश्लेषण कार्ये करण्यासाठी LLM ची क्षमता शोधणे हा असल्याने, त्यांच्या मर्यादा ओळखणे देखील आवश्यक आहे. LLM च्या काही प्रमुख मर्यादांमध्ये हे समाविष्ट आहे:
Ercole Palmeri
नौदल क्षेत्र ही एक खरी जागतिक आर्थिक शक्ती आहे, ज्याने 150 अब्जांच्या बाजारपेठेकडे नेव्हिगेट केले आहे...
गेल्या सोमवारी, फायनान्शिअल टाईम्सने OpenAI सह करार जाहीर केला. FT ने त्याच्या जागतिक दर्जाच्या पत्रकारितेचा परवाना…
लाखो लोक स्ट्रीमिंग सेवांसाठी पैसे देतात, मासिक सदस्यता शुल्क भरतात. असे सामान्य मत आहे की आपण…
Veeam द्वारे Coveware सायबर खंडणी घटना प्रतिसाद सेवा प्रदान करणे सुरू ठेवेल. Coveware फॉरेन्सिक आणि उपाय क्षमता प्रदान करेल…