के हो Data Science, यसले के गर्छ र के उद्देश्यका साथ

अवधि संग Data Science डेटाको प्रशोधन र व्याख्या गर्ने अनुशासन हो। अनुशासन Data Science यो तथ्याङ्कदेखि गणित, विज्ञानदेखि कम्प्युटर विज्ञानसम्मका धेरै ज्ञानको अभिसरणबाट उत्पन्न हुन्छ।

La Data Science, वा डेटा विज्ञान, एक अपेक्षाकृत नयाँ विज्ञान हो, वास्तवमा यो लगभग पचास वर्ष को लागी भएको छ। यो धेरै जीवन्त र द्रुत रूपमा विकसित सन्दर्भमा अर्डर राख्नु पर्ने आवश्यकताबाट उत्पन्न हुन्छ। डाटाको मात्रामा भएको बृद्धि, तथ्याङ्कलाई अर्थ दिने सम्भावना र क्षमताले तथ्याङ्कलाई बढाएको छ Data Science.

ऐतिहासिक रूपमा बोल्दा, डेटालाई प्रायः कुनै पनि प्रक्रियाको माध्यमिक उत्पादनको रूपमा व्यवहार गरिएको छ। शताब्दीयौंदेखि जो कोहीले पनि डाटा सङ्कलन गर्न थालेको छ, मुख्यतया आफ्नो सुविधाको लागि यो गरेको छ, प्रायः कल्पना नगरी। आज एक आर्थिक मूल्य डेटा को एक संग्रह को श्रेय दिन सकिन्छ। यदि हामीले सोच्यौं भने, उदाहरणका लागि, वर्षौंदेखि बाली, घटनाहरू, रोपाइँ, इत्यादिका बारेमा जानकारी सङ्कलन गरेको फार्मको बारेमा, सायद यसले यसको कर्पोरेट इतिहास अभिलेख गर्न त्यसो गरेको हुन सक्छ। यदि सबै फार्महरूले त्यो विधि गरेको भए, आज मल कम्पनीहरूले अनुसन्धान उद्देश्यका लागि वा मार्केटिंग उद्देश्यका लागि यसको फाइदा लिन सक्थे।

डेटा वैज्ञानिक

जसले व्यवहार गर्छ Data Science, उसलाई बोलाइएको छ डाटा वैज्ञानिक: हाल कामको संसारमा सबैभन्दा धेरै खोजिने पेशेवरहरू मध्ये एक।

डाटा वैज्ञानिकको कार्य भनेको तिनीहरू भित्रका मोडेलहरू पहिचान गर्न डाटाको विश्लेषण गर्नु हो, त्यो हो, जुन म प्रवृत्ति मार्फत उपलब्ध डाटा व्यक्त गर्दछु। यी मोडेलहरूको पहिचान ग्राहकको उद्देश्यका लागि कार्यात्मक छ: कम्पनी, सार्वजनिक निकाय आदि ...

मुद्रीकरण

हालैका वर्षहरूमा, डेटा मार्केटिङ मोडेल बढ्दो रूपमा स्थापित भएको छ जहाँ कोही डाटा बेच्न र अरू कसैले यसलाई किन्नमा रुचि राख्छन्।

डाटा उत्पादनमा विशेष कम्पनीहरू जन्मिएका थिए, र कम्पनीहरू उपयुक्त सफाई र पुन: प्रशोधन कार्यहरू पछि खरिद र बिक्रीमा विशेषज्ञ थिए। यदि हामीले गोपनीयता नियमहरूको बारेमा सोच्यौं भने, हामीले विषयको जटिलता महसुस गर्छौं। आज त्यहाँ कडा कानूनहरू छन् जसले जानकारीको सचेत र सम्मानजनक प्रयोगको लागि कल गर्दछ।

योजना

को एक परियोजना Data Science सामान्यतया निम्न चरणहरू समावेश छन्:

समस्या को वर्णन: एउटा परियोजना परिणाम प्राप्त गर्ने, वा समस्या समाधान गर्ने उद्देश्यका साथ जन्मिएको छ। यस विवरणले परिणामहरू प्राप्त गर्नका लागि विशेषताहरू परिभाषित गर्दछ, तिनीहरूलाई प्राप्त गर्ने समय, र उपलब्ध स्रोतहरू;
तथ्यांक संकलन: समस्या समाधान गर्न, डाटासेटहरू कम्पनीमा पहिले नै अवस्थित वा बाह्य स्रोतहरूबाट प्राप्त गर्नुपर्नेछ। यो अनलाइन सर्वेक्षण, सामाजिक स्रोतहरूबाट सङ्कलन डाटा, आदि हुन सक्छ। यस डेटासेटलाई त्यसपछि सफा, अर्डर र संरचित यसरी बनाइनेछ कि यो कामको स्रोत बन्नेछ। डाटा वैज्ञानिक;
प्रारम्भिक डाटाको अन्वेषण: यस बिन्दुमा डाटा हेर्न र अन्वेषण गर्न, फिल्टर, तालिकामा संक्षेप र ग्राफमा प्रदर्शित हुनुपर्छ। यी सबैले यसको विशेषताहरू, सीमाहरू र कुनै पनि खाडलहरू पहिचान गर्न सम्भव बनाउनेछ;
डाटा विश्लेषण: यो चरण हो जसमा मोडेलहरू पहिचान गरिन्छ, लक्ष्यहरू अनुसार सबैभन्दा उपयुक्त उपकरण र प्रविधिहरू प्रयोग गरेर;
मोडेल को आवेदन: यस अन्तिम चरणमा, पहिचान गरिएका मोडेलहरूको अनुप्रयोगले इच्छित परिणामहरू प्राप्त गर्न अनुमति दिनेछ। यहाँ द डाटा वैज्ञानिक यसले डाटा सेटको प्रयोग र सही जानकारीको एक्स्ट्रापोलेसनको लागि मात्र दिशानिर्देश दिन्छ। यी दिशानिर्देशहरू कम्पनीको व्यावसायिक भाषामा व्यक्त गरिनु पर्छ, जसले परियोजनाको विकासको लागि समस्याहरू समाधान गर्न सेवा गर्नेछ।

प्रत्येक एक कदम मा डाटा वैज्ञानिक विशिष्ट कम्पनी विभागहरु संग अन्तरक्रिया गर्दछ, र त्यसैले हामी भन्न सक्छौं कि डाटा वैज्ञानिक कर्पोरेट वास्तविकतामा पूर्ण रूपमा एकीकृत छ।

प्राविधिक विकास संग, द डाटा वैज्ञानिक उनी प्रायः बिग डाटा र आर्टिफिसियल इन्टेलिजेन्सको समस्याको सामना गरिरहेका छन्।

ठूलो डाटा

जब हामी बिग डाटाको बारेमा कुरा गर्छौं हामी डेटालाई सन्दर्भ गर्छौं जुन ठूलो विविधता समावेश गर्दछ, बढ्दो भोल्युममा र ठूलो गतिमा आइपुग्छ। यस अवधारणालाई तीन Vs को नियमको रूपमा पनि चिनिन्छ, जुन तीनवटा सर्तहरूको छनोटमा समावेश हुन्छ जसले बिग डाटा घटनालाई यसको आवश्यक विशेषताहरूमा चित्रण गर्दछ:

खण्ड: किनभने प्रशोधन गरिने डाटाको मात्रा अत्यन्त उच्च छ। यो कारक पक्कै पनि तीन मध्ये सबैभन्दा सूचक हो, वास्तवमा डाटा शब्द विशेषण बिग द्वारा अघि छ। बिग डाटा अभिलेख टेराबाइट वा पेटाबाइट को क्रम मा मापन गरिन्छ;
गति: यो शब्दले डाटा संकलन गर्ने गतिलाई जनाउँछ। सन्दर्भहरू जसमा डेटाको प्रवाह निरन्तर छ, नन-स्टप, सर्भरमा प्रवाहित प्रवाहहरू बढ्दो सामान्य छन्। यसले डेटा हानि बिना, ब्लक बिना र विलम्बता समय कम गर्न को लागी सक्षम प्रणाली को कार्यान्वयन को लागी बाध्य गर्दछ। विचार गरौं, उदाहरणका लागि, वित्तीय लेनदेन, अनलाइन व्यापार, IoT आदि ...
Varietà: उच्च संरचित अभिलेखहरूको विपरीत, डाटा जुन BigData प्रणालीको अंश हो धेरै भिन्न हुन्छ। उदाहरणको रूपमा हामी कुनै पनि सामाजिक सञ्जालमा सङ्कलन गरिएको डेटा बारे सोच्न सक्छौं: फोटो, पाठ, संलग्नकहरू, भिडियोहरू।

वास्तविकतामा, समयसँगै अन्य विशेषताहरू पनि थपिएका छन्, जस्तै डाटाको विश्वसनीयता र विश्वसनीयता पहिचान गर्न डाटाको सत्यता।

डाटाको ठूलो मात्रा ठूलो गतिमा आइपुग्छ, र ठूलो विविधताद्वारा विशेषता, आवश्यक रूपमा डाटा संगठन समस्याहरू निम्त्याउँछ।

तिनीहरूलाई कसरी व्यवस्थित गर्ने?

तिनीहरूलाई स्वागत र त्यसपछि तिनीहरूलाई प्रशोधन? तिनीहरूलाई संरचना र त्यसपछि तिनीहरूलाई प्रशोधन?

डाटा प्रणालीहरूको संगठनका धेरै प्रतिमानहरू जन्मिएका थिए, जसले समयसँगै आफूलाई स्थापित गरेको छ:

डाटावरहाउस: अर्थात्, संरचित डेटा अभिलेखहरू। व्यापक रूपमा प्रयोग गरिन्छ, विशेषताको साथ कि डाटा प्राप्त भएको क्षणमा व्यवस्थित हुनुपर्छ;
डाटा ताल: कुनै पनि संरचित भण्डारण नीति बिना कन्टेनरमा सबै आगमन डेटा अलग गरिएको तथ्य द्वारा विशेषता। Datawarehouse को विपरित प्रतिमान, किनभने डाटा लेक मा डाटा संरचित हुनेछ जब यो तिनीहरूलाई व्याख्या गर्न तिनीहरूलाई पढ्न आवश्यक छ। यस दृष्टिकोणले प्राप्ति चरणलाई सरल र गति दिन्छ, त्यसपछिका चरणहरूको हानिमा;
सिलोस: कम्पार्टमेन्टलाइज्ड पनि भनिन्छ। प्रत्येक विभाग वा कम्पनी विभागले अरूसँग साझेदारी नगरीकन यसको डाटा संकलन गर्दछ।

हाल यी सबै भन्दा व्यापक रूपमा प्रयोग गरिएका प्रतिमानहरू हुन्, र धेरै अवस्थामा एकीकरणको समाधान प्रबल हुन्छ, अर्थात् विभिन्न परियोजनाहरूले विभिन्न संचयन विधिहरू प्रयोग गर्न सक्छन् र त्यसपछि आफूलाई एकीकरण गर्न सक्छन्। त्यहाँ परिस्थितिहरू हुन सक्छ जसमा विभिन्न डेटाहरू विभिन्न प्रतिमानहरूसँग सङ्कलन गरिन्छ, वा विभिन्न सङ्कलनहरूले एउटै जीवन चक्रको सन्निहित चरणहरू गठन गर्न सक्छन्।

मिसिन प्रशिक्षण

तिनीहरूको ठूलो उपयोगिताको बावजुद, हामीलाई राम्रोसँग थाहा छ कि प्रशोधन मेसिन वा कम्प्युटरहरू मूर्ख छन्। अर्थात्, कम्प्युटरले कुनै समस्याको विश्लेषण गर्ने, एल्गोरिदम तयार गर्ने र प्रोग्राममा सङ्केत गर्ने मान्छे नभएको खण्डमा केही गर्न सक्दैन।

यो सधैं मामला भएको छ, जब सम्म हामीले कुरा गर्न थाले कृत्रिम खुफिया। वास्तवमा, आर्टिफिसियल इन्टेलिजेन्सले मेसिनमा एक प्रकारको सहज तर्कलाई उत्प्रेरित गर्न समावेश गर्दछ, जसले यसलाई स्वतन्त्र रूपमा समस्याहरू समाधान गर्न नेतृत्व गर्न सक्छ, अर्थात् प्रत्यक्ष मानव मार्गदर्शन बिना।

यो अभिव्यक्ति अघि धेरै वर्ष लाग्यो "मेसिनमा एक प्रकारको सहज तर्क उत्पन्न गर्नुहोस्", अर्थात्, हामीले मेसिनको पूर्ण" जबरजस्ती" निर्देशनको अवस्थाबाट, आत्म-शिक्षाको सर्तमा पार गर्न धेरै वर्ष लाग्यो। अर्को शब्दमा भन्नुपर्दा, मेसिनले आत्म-सिक्न, सिक्न सक्षम भएको छ। त्यसैले हामी आइपुगेका छौं मिसिन प्रशिक्षण.

मेसिन लर्निङ आर्टिफिसियल इन्टेलिजेन्सको एउटा शाखा हो जसमा प्रोग्रामरले ऐतिहासिक तथ्याङ्कको अध्ययनमा आधारित प्रशिक्षण चरणमा मेसिन चलाउँछ। यस प्रशिक्षण चरणको अन्त्यमा, एउटा मोडेल उत्पादन गरिन्छ जुन समस्याहरू समाधान गर्न लागू गर्न सकिन्छ, नयाँ डेटाको साथ व्याख्या गरिएको छ।

म क्लासिक दृष्टिकोणको सम्मान गर्छु, जहाँ डेटा वैज्ञानिकले काम गर्थे definish समाधान एल्गोरिदम, मेसिनले मोडेल के बनाउँछ पत्ता लगाउनेछ। डाटा वैज्ञानिकले बढ्दो प्रभावकारी प्रशिक्षण चरणहरू व्यवस्थित गर्न, धनी र अधिक महत्त्वपूर्ण डेटाको साथ, र तिनीहरूलाई परीक्षणको अधीनमा राखेर उत्पादित मोडेलहरूको वैधता प्रमाणित गर्ने कुरामा ध्यान दिनुपर्दछ।

मेसिन लर्निङका लागि धन्यवाद, हामीले मोबाइल उपकरण, इन्टरनेट, गृह स्वचालनमा प्रयोग गर्ने प्रणालीहरू (वा देखिन्छ) अधिक र अधिक बुद्धिमान छन्। प्रणाली, जसरी यसले काम गर्दछ, त्यसमा र यसलाई प्रयोग गर्ने प्रयोगकर्ताहरूमा डेटा सङ्कलन गर्न, त्यसपछि तिनीहरूलाई प्रशिक्षण चरणमा प्रयोग गर्न र त्यसपछि पूर्वानुमानहरू सुधार गर्न सक्षम हुन सक्छ।

Ercole Palmeri: नवप्रवर्तन लत