Artikuj

Analizë e shkurtër e aftësive në zhvillim në modele të mëdha gjuhësore

Pjesa më e madhe e kërkimit mbi inteligjencën artificiale gjatë dy dekadave të fundit është fokusuar në trajnimin e rrjeteve nervore, për të kryer një detyrë të vetme me grupe specifike të të dhënave stërvitore. Për shembull, klasifikoni nëse një imazh përmban një mace, përmblidhni një artikull, përktheni nga anglishtja në suahilisht ...

Vitet e fundit, një paradigmë e re ka evoluar rreth modeleve gjuhësore: rrjetet nervore që thjesht parashikojnë fjalët e ardhshme në një fjali të dhëna fjalët e mëparshme në fjali.

Pasi janë trajnuar në një pjesë të madhe teksti të pa etiketuar, modelet gjuhësore mund të "ftohen" për të kryer detyra arbitrare, si parashikimi i fjalës pas një fjalie. Për shembull, detyra e përkthimit të një fjalie angleze në suahilisht mund të riformulohet si parashikim i fjalës tjetër: "Përkthimi suahili i 'inteligjencës artificiale' është ..."

Nga detyra specifike në detyrën e përgjithshme

Kjo paradigmë e re përfaqëson një ndryshim nga modelet detyrë specifike, të trajnuar për të kryer një detyrë të vetme, në modele detyrë e përgjithshme, të cilat mund të kryejnë detyra të ndryshme. Plus modelet detyrë e përgjithshme ata gjithashtu mund të kryejnë aktivitete të reja që nuk janë përfshirë në mënyrë të qartë në të dhënat e trajnimit. Për shembull, GPT-3 tregoi se modelet gjuhësore mund të shumëzojnë me sukses numrat dyshifrorë, edhe nëse nuk janë trajnuar në mënyrë eksplicite për ta bërë këtë. Sidoqoftë, kjo aftësi për të kryer detyra të reja ndodhi vetëm me modele me një numër të caktuar parametrash dhe të trajnuar në një grup mjaft të madh të dhënash.

Emergjenca si sjellje

Ideja që ndryshimet sasiore në një sistem mund të çojnë në sjellje të reja njihet si emergenza, një koncept i popullarizuar nga eseja e laureatit Nobel Philip Anderson të vitit 1972 "Më shumë është ndryshe". Në shumë disiplina si fizika, biologjia, ekonomia dhe shkenca kompjuterike, fenomeni në zhvillim është vërejtur në sisteme komplekse.

Ne nje artikulli i fundit su pubblicato Transaksionet në Kërkimin e Mësimit të Makinerisë, laboratori HAI in Stanford University defishpreh aftësitë e reja në modelet e mëdha gjuhësore si më poshtë:

Një aftësi është emergjente nëse nuk është i pranishëm në modelet më të vogla por është i pranishëm në modelet më të mëdha.

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Për të karakterizuar praninë e aftësive duke u shfaqur, artikulli ynë grumbulloi gjetjet për modele dhe qasje të ndryshme që janë shfaqur gjatë dy viteve të fundit që nga lëshimi i GPT-3. Punimi shqyrtoi kërkimin që analizoi ndikimin e shkallës: modele të madhësive të ndryshme të trajnuara me burime të ndryshme llogaritëse. Për shumë aktivitete, sjellja e modelit rritet në mënyrë të parashikueshme me shkallë ose rritet në mënyrë të paparashikueshme nga performanca e rastësishme në vlera më të larta se ato të rastësishme në një prag të shkallës specifike.

Për të mësuar më shumë lexoni artikullin në aftësitë e shfaqura në modelet gjuhësore

Jason Wei është një shkencëtar kërkimor në Google Brain. Rishi Bommasani është një student i dytë i doktoraturës në Departamentin e Shkencave Kompjuterike në Stanford, i cili ndihmoi në nisjen e Qendra Stanford për Kërkime mbi Modelet e Fondacionit (CRFM). Lexoni studimin e tyre "Aftësitë e shfaqura të Large Language Models,", shkruar në bashkëpunim me studiues nga Google Research, Universiteti Stanford, UNC Chapel Hill dhe DeepMind.

hartimi BlogInnovazione.it

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Artikujt e fundit

Rregullatori antitrust në Mbretërinë e Bashkuar ngre alarmin e BigTech mbi GenAI

CMA e Mbretërisë së Bashkuar ka lëshuar një paralajmërim për sjelljen e Big Tech në tregun e inteligjencës artificiale. Aty…

18 Prill 2024

Casa Green: revolucion energjetik për një të ardhme të qëndrueshme në Itali

Dekreti "Case Green", i formuluar nga Bashkimi Evropian për të rritur efiçencën energjetike të ndërtesave, ka përfunduar procesin e tij legjislativ me…

18 Prill 2024

Tregtia elektronike në Itali në +27% sipas Raportit të ri nga Casaleggio Associati

Prezantohet raporti vjetor i Casaleggio Associati mbi tregtinë elektronike në Itali. Raporti i titulluar “AI-Commerce: kufijtë e tregtisë elektronike me inteligjencën artificiale”.…

17 Prill 2024

Ideja brilante: Bandalux prezanton Airpure®, perden që pastron ajrin

Rezultat i inovacionit të vazhdueshëm teknologjik dhe i përkushtimit ndaj mjedisit dhe mirëqenies së njerëzve. Bandalux prezanton Airpure®, një tendë…

12 Prill 2024