Artiklid

Meta toob turule mudeli LLaMA, võimsama otsingutööriista kui OpenAI GPT-3

Meta andis hiljuti välja uue AI keelegeneraatori nimega LLaMA, mis kinnitab väga uuendusliku ettevõtte rolli.

"Täna avaldame uue tipptasemel AI suure keelemudeli nimega LLaMA, mis on loodud selleks, et aidata teadlastel oma tööd edendada," ütles tegevjuht Mark Zuckerberg Facebooki postituses.

Miks LLaMA

Suured keelemudelid on tehnikamaailma tormiliselt vallutanud. Nad toidavad tehisintellekti tööriistu, nagu ChatGPT ja muud vestlusmudelid. Nende tööriistade kasutamisega kaasneb aga märkimisväärne risk, usutavad, kuid valed väited, mürgise sisu tekitamine ja tehisintellekti koolitusandmetes juurdunud eelarvamuste jäljendamine.

Et aidata teadlastel neid probleeme lahendada, on reedel, 25. veebruaril Meta teatas vabastamisest uue suure keelemudeli nimega LLAMA (Large Language Model Meta AI) .

Mis on LLaMA?

LLaMA ei ole a chatbot, kuid see on otsingutööriist, mis Meta ai sõnul lahendab keelemudelitega seotud probleeme AI. "Väiksemad ja paremini toimivad mudelid, nagu LLaMA, võimaldavad teistel teadlaskonna liikmetel, kellel puudub juurdepääs suurele hulgale infrastruktuurile, neid mudeleid uurida, demokratiseerides juurdepääsu selles olulises ja kiiresti arenevas valdkonnas," ütles Meta oma ajaveebis. ametnik .

LLaMA on keelemudelite kogum, mille parameetrid ulatuvad 7B kuni 65B. Ettevõte ütles, et koolitab oma mudeleid triljonite žetoonide põhjal, öeldes, et suudab tipptasemel mudeleid koolitada avalike andmekogumite abil, mitte tugineda patenteeritud, ligipääsmatutele andmekogumitele.

LLaMA on erinev

Meta sõnul nõuab mudelikoolitus nagu LLaMA väga vähe arvutusvõimsust uute kasutusjuhtude testimiseks, kinnitamiseks ja uurimiseks. Põhilised keelemudelid treenivad suurtel märgistamata andmete plokkidel, mistõttu on need ideaalsed erinevate ülesannete jaoks kohandamiseks.

Oma uurimistöös märkis Meta, et LLaMA-13B edestas OpenAI GPT-3 (175B) enamiku võrdlusnäitajate puhul ja LLaMA-65B on tippmudelitega konkurentsivõimeline, Chinchilla70B firmalt DeepMind e PaLM-540B Google'ilt.

LLaMA ei ole praegu ühegi Meta ai toote puhul kasutusel, kuid ettevõte kavatseb selle teadlastele kättesaadavaks teha. Ettevõte oli juba oma LLM OPT-175B turule toonud, kuid LLaMA on selle kõige arenenum süsteem.

Ettevõte teeb selle kättesaadavaks mitteärilise litsentsi alusel, mis keskendub uurimistööle. See on kättesaadav akadeemilistele teadlastele; valitsuse, kodanikuühiskonna ja akadeemiliste organisatsioonidega seotud isikud; ja tööstusuuringute laborid üle maailma.

Ercole Palmeri