Punë praktike

Çfarë është Data Science, çfarë bën dhe me çfarë objektivash

Me termin Data Science nënkupton një disiplinë që merret me përpunimin dhe interpretimin e të dhënave. Disipline Data Science ajo lind nga konvergjenca e shumë njohurive duke filluar nga Statistikat në Matematikë, nga Shkenca në Shkenca Kompjuterike.

La Data Science, ose Data Science, është një shkencë relativisht e re, në fakt ajo ka rreth pesëdhjetë vjet. Ajo lind nga nevoja për të vendosur rregull në një kontekst shumë të gjallë dhe me zhvillim të shpejtë. Rritja e vëllimit të të dhënave, mundësia dhe aftësia për t'i dhënë kuptim të dhënave, kanë bërë që të Data Science.

Historikisht, të dhënat shpesh janë trajtuar si një lloj produkti dytësor i çdo procesi. Kushdo gjatë shekujve ka marrë përsipër të mbledhë të dhëna, e ka bërë këtë kryesisht për lehtësinë e tij, shpesh pa e imagjinuar se sot një vlerë ekonomike mund t'i atribuohet një koleksioni të dhënash. Nëse mendojmë, për shembull, për një fermë që me kalimin e viteve mund të ketë mbledhur informacion mbi të korrat, ngjarjet, mbjelljet, etj., ndoshta mund ta kishte bërë këtë për të arkivuar historinë e saj të korporatës. Nëse të gjitha fermat do ta kishin bërë atë metodë, atëherë kompanitë e plehrave sot mund të përfitonin prej saj për qëllime kërkimore, ose për qëllime marketingu.

Shkencëtar të dhënash

Ai që merret me Data Science, quhet ai shkencëtar i të dhënave: aktualisht një nga profesionistët më të kërkuar në botën e punës.

Detyra e shkencëtarit të të dhënave është të analizojë të dhënat në mënyrë që të identifikojë modelet brenda tyre, domethënë atë që unë shpreh të dhënat e disponueshme përmes trendit. Identifikimi i këtyre modeleve është funksional për qëllimet e klientit: kompani, organ publik etj.

Monetizimi

Vitet e fundit, një model i marketingut të të dhënave është vendosur gjithnjë e më shumë ku dikush është i interesuar të shesë të dhëna dhe dikush tjetër t'i blejë ato.

U lindën kompani të specializuara në prodhimin e të dhënave dhe kompani të specializuara në blerjen dhe shitjen pas operacioneve të duhura të pastrimit dhe ripërpunimit. Nëse më pas mendojmë për rregulloret e privatësisë, kuptojmë kompleksitetin e temës. Sot ka ligje strikte që kërkojnë një përdorim të ndërgjegjshëm dhe të respektueshëm të informacionit.

Planifikimi

Një projekt nga Data Science zakonisht përbëhet nga hapat e mëposhtëm:

Përshkrimi i problemit: një projekt lind me synimin për të arritur një rezultat, ose për të zgjidhur një problem. Ky përshkrim përcakton karakteristikat e rezultateve që do të merren, kohën brenda së cilës ato do të arrihen dhe burimet në dispozicion;
Mbledhja e të dhënave: për të trajtuar problemin, grupet e të dhënave do të duhet të merren, ose të pranishme tashmë në kompani ose nga burime të jashtme. Këto mund të jenë sondazhe në internet, të dhëna të mbledhura nga burime sociale, etj…. Ky grup të dhënash më pas do të pastrohet, renditet dhe strukturohet në mënyrë të tillë që të bëhet burimi i punës së shkencëtar i të dhënave;
Eksplorimi i të dhënave fillestare: në këtë pikë të dhënat duhet të shikohen dhe eksplorohen, filtrohen, përmblidhen në tabela dhe shfaqen në grafikë. E gjithë kjo do të bëjë të mundur identifikimin e karakteristikave, kufijve dhe çdo boshllëku të tij;
Analiza e të dhënave: kjo është faza në të cilën identifikohen modelet, duke përdorur mjetet dhe teknikat më të përshtatshme sipas objektivave që duhen arritur;
Aplikimi i Modeleve: në këtë fazë përfundimtare, aplikimi i modeleve të identifikuara do të mundësojë marrjen e rezultateve të dëshiruara. Këtu shkencëtar i të dhënave ai thjesht jep udhëzime për përdorimin e grupit të të dhënave dhe ekstrapolimin e informacionit të saktë. Këto udhëzime duhet të shprehen në gjuhën e biznesit të kompanisë, e cila do të shërbejë për zgjidhjen e problemeve për të cilat është zhvilluar projekti.

Në çdo hap të vetëm shkencëtar i të dhënave ndërvepron me departamente të veçanta të kompanisë, dhe për këtë arsye mund të themi se shkencëtar i të dhënave është e integruar në mënyrë të përkryer në realitetin e korporatës.

Me përparimin teknologjik, shkencëtar i të dhënave ai shpesh është përballur me problemet e të dhënave të mëdha dhe inteligjencës artificiale.

Të dhënat Big

Kur flasim për Big Data i referohemi të dhënave që përmbajnë një larmi të madhe, duke arritur në vëllime në rritje dhe me shpejtësi më të madhe. Ky koncept njihet edhe si rregulli i tre V-ve, i cili konsiston në zgjedhjen e tre termave që karakterizojnë fenomenin Big Data në tiparet e tij thelbësore:

Vëllim: sepse sasia e të dhënave që do të përpunohen është jashtëzakonisht e lartë. Ky faktor është padyshim më treguesi nga të tre, në fakt fjala Data paraprihet nga mbiemri Big. Arkivat e të dhënave të mëdha maten në rendin e Terabajtit ose Petabajtit;
Speed: Ky term i referohet shpejtësisë me të cilën grumbullohen të dhënat. Kontekstet në të cilat fluksi i të dhënave është i vazhdueshëm, pa ndërprerje, flukset e transmetimit në server janë gjithnjë e më të zakonshme. Kjo detyron zbatimin e sistemeve të afta të grumbullohen pa humbje të të dhënave, pa blloqe dhe të minimizojnë kohën e vonesës. Le të mendojmë, për shembull, për transaksionet financiare, tregtimin në internet, IoT etj ...
Varietà: ndryshe nga arkivat shumë të strukturuara, të dhënat që janë pjesë e një sistemi BigData janë shumë të ndryshme. Si shembull mund të mendojmë për të dhënat që mblidhen në çdo rrjet social: foto, tekst, bashkëngjitje, video.

Në realitet, me kalimin e kohës janë shtuar edhe veçori të tjera, siç është vërtetësia e të dhënave për të identifikuar besueshmërinë dhe besueshmërinë e të dhënave.

Vëllimi i madh i të dhënave që mbërrijnë me shpejtësi të madhe dhe karakterizohen nga shumëllojshmëria e madhe, domosdoshmërisht çojnë në probleme të organizimit të të dhënave.

Si t'i organizoni ato?

I mirëpresim dhe më pas i përpunojmë? Strukturimi i tyre dhe më pas përpunimi i tyre?

Kanë lindur disa paradigma të organizimit të sistemeve të të dhënave, të cilat janë krijuar me kalimin e kohës:

Depo e te dhenave: Kjo është, arkivat e të dhënave të strukturuara. Përdoret gjerësisht, me veçantinë që të dhënat duhet të organizohen pikërisht në momentin kur ato merren;
Liqeni i të Dhënave: karakterizohet nga fakti se të gjitha të dhënat hyrëse vendosen mënjanë në kontejner pa ndonjë politikë të strukturuar të ruajtjes. Paradigma e kundërt me Datawarehouse, sepse në Liqenin e të Dhënave të dhënat do të strukturohen vetëm kur është e nevojshme t'i lexoni ato për t'i interpretuar. Kjo qasje thjeshton dhe shpejton fazën e përvetësimit, në dëm të fazave pasuese;
Silos: quhet edhe i ndarë. Çdo departament ose departament i kompanisë grumbullon të dhënat e tij pa i ndarë me të tjerët.

Aktualisht këto janë paradigmat më të përdorura dhe në shumë raste mbizotëron zgjidhja e integrimit, dmth. projekte të ndryshme mund të përdorin metodologji të ndryshme akumulimi dhe më pas të integrohen më vonë. Mund të ketë situata në të cilat të dhëna të ndryshme mblidhen me paradigma të ndryshme, ose koleksione të ndryshme mund të përbëjnë faza të njëpasnjëshme të të njëjtit cikël jetësor.

Mësim Machine

Pavarësisht dobisë së tyre të madhe, ne e dimë shumë mirë se makinat përpunuese ose kompjuterët janë budallenj. Kjo do të thotë, një kompjuter nuk mund të bëjë asgjë nëse nuk është njeriu që të analizojë një problem, të formulojë një algoritëm dhe ta kodojë atë në një program.

Kështu ka qenë gjithmonë, derisa filluam të flasim Inteligjenca artificiale. Në fakt, inteligjenca artificiale konsiston në nxitjen e një lloj arsyetimi spontan në makinë, i cili mund ta çojë atë në zgjidhjen e problemeve në mënyrë të pavarur, domethënë pa udhëzim të drejtpërdrejtë njerëzor.

U deshën disa vite para se të shprehej "nxisin një lloj arsyetimi spontan në makinë“, Domethënë, u deshën disa vite para se të kalonim nga një gjendje e udhëzimit total” të detyruar” të makinës, në një gjendje të vetë-mësimit. Me fjalë të tjera, makina ka qenë në gjendje të vetë-mësojë, të mësojë. Prandaj kemi arritur në Mësim Machine.

Mësimi i Makinerisë është një degë e Inteligjencës Artificiale në të cilën programuesi drejton makinën në një fazë trajnimi bazuar në studimin e të dhënave historike. Në përfundim të kësaj faze trajnimi, prodhohet një model që mund të përdoret në zgjidhjen e problemeve, i shpjeguar me të dhëna të reja.

Unë respektoj qasjen klasike, ku dikur punonte shkencëtari i të dhënave defiNish algoritmet e zgjidhjes, makina do të zbulojë se çfarë e përbën modelin. Shkencëtari i të dhënave duhet të kujdeset për organizimin e fazave gjithnjë e më efektive të trajnimit, me të dhëna më të pasura dhe më domethënëse, si dhe për të verifikuar vlefshmërinë e modeleve të prodhuara duke i nënshtruar ato në teste.

Falë Machine Learning, sistemet që përdorim në pajisjet mobile, internet, automatizimin e shtëpisë janë (ose duken) gjithnjë e më inteligjente. Një sistem, siç funksionon, mund të jetë gjithashtu në gjendje të mbledhë të dhëna për të dhe për përdoruesit që e përdorin atë, pastaj t'i përdorë ato në fazën e trajnimit dhe më pas të përmirësojë më tej parashikimet.

Ercole Palmeri: I varur nga inovacioni