Чланци

ГПТ4 наспрам ЦхатГПТ: Анализирамо методе обуке, перформансе, могућности и ограничења

Очекује се да ће нови генеративни језички модел потпуно трансформисати читаве индустрије, укључујући медије, образовање, право и технологију. 

Последњих месеци, брзина којом су објављени иновативни велики језички модели је запањујућа. У овом чланку ћемо покрити главне сличности и разлике између ГПТ4 и ЦхатГПТ-а, укључујући методе обуке, перформансе, могућности и ограничења.

ГПТ4 вс ЦхатГПТ: Сличности и разлике у методама обуке

ГПТ4 и ЦхатГПТ се надограђују на старије верзије ГПТ модела уз побољшања архитектуре модела, користећи софистицираније методе обуке и са већим бројем параметара обуке.

Оба дизајна су заснована на архитектури трансформатора, која користи енкодер за обраду улазних секвенци и декодер за генерисање излазних секвенци. Кодер и декодер су повезани механизмом, који омогућава декодеру да обрати већу пажњу на најзначајније улазне секвенце.

ГПТ4 технички извештај ОпенАИ нуди мало увида у архитектуру модела и процес формирања ГПТ4, наводећи „competitive landscape and the safety implications of large-scale models“. Оно што знамо је да су ГПТ4 и ЦхатГПТ вероватно обучени слично, што је прилично разлика од метода обуке које се користе за ГПТ-2 и ГПТ-3. Знамо много више о методама обуке за ЦхатГПТ него ГПТ4, па ћемо почети од тога.

ЦхатГПТ

ЦхатГПТ је обучен са скуповима података дијалога, укључујући демо податке, где људски коментари демонстрирају очекивани резултат помоћника цхатбот као одговор на специфичне захтеве. Ови подаци се користе за подешавање ГПТ3.5 уз надгледано учење, стварајући модел политике, који се користи за генерисање вишеструких одговора када су захтеви дати. Људски анотатори затим класификују који од одговора за дати упит је дао најбоље резултате, што се користи за обуку модела награђивања. Модел награђивања се затим користи за итеративно фино подешавање модела политике користећи учење уз помоћ.

ЦхатГПТ се обучава коришћењем Појачано учење из повратних информација људи (РЛХФ), начин да се инкорпорирају људске повратне информације за побољшање језичког модела током тренинга. Ово омогућава да се излаз модела усклади са активношћу коју захтева корисник, уместо да само предвиђа следећу реч у реченици на основу генеричких података о обуци, као што је ГПТ-3.

ГПТКСНУМКС

ОпенАИ тек треба да открије детаље о томе како је обучио ГПТ4. Њихов технички извештај не укључује „details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar“. Оно што знамо је да је ГПТ4 обучени генеративни мултимодни модел у трансформаторском стилу. И на јавно доступним подацима и на подацима треће стране који су лиценцирани и накнадно фино подешени помоћу РЛХФ-аЗанимљиво је да је ОпенАИ поделио детаље у вези са својим ажурираним РЛХФ техникама како би реакције модела биле тачније и мање вероватно да ће изаћи ван сигурносних ограда.

Након обучавања модела политике (као код ЦхатГПТ), РЛХФ се користи у адверсарној обуци, процесу који обучава модел на злонамерним примерима са намером да се модел превари да га брани од таквих примера у будућности. У случају ГПТ4, стручњаци процењују одговоре политичког модела на контрадикторне захтеве. Ови одговори се затим користе за обуку додатних модела награђивања који итеративно прецизирају модел политике, што резултира моделом за који је мање вероватно да ће пружити опасне, избегавајуће или нетачне одговоре.

ГПТ4 и ЦхатГПТ сличности и разлике у погледу перформанси и могућности

Капацитет

Што се тиче функционалности, ЦхатГПТ и ГПТ4 су више слични него различити. Као и његов претходник, ГПТ-4 такође комуницира у стилу разговора који има за циљ да се усклади са корисником. Као што можете видети у наставку, одговори између два модела за широко питање су веома слични.

ОпенАИ се слаже да разлика између модела може бити суптилна и наводи да „разлика долази до изражаја када сложеност задатка достигне довољан праг“. С обзиром на шест месеци борбене обуке коју је ГПТ4 основни модел прошао у фази након обуке, ово је вероватно тачна карактеризација.

За разлику од ЦхатГПТ-а, који прихвата само текст, ГПТ4 прихвата и сликовне и текстуалне упите, враћајући текстуалне одговоре. У тренутку писања овог текста, нажалост, могућност коришћења улаза слика још увек није јавно доступна.

Перформансе

Као што је горе поменуто, ОпенАИ извештава о значајном побољшању безбедносних перформанси за ГПТ4, у поређењу са ГПТ-3.5 (из којег је ЦхатГПТ подешен). Међутим, тренутно је нејасно да ли:

  • смањење одговора на захтеве за забрањени садржај,
  • смањење стварања токсичних садржаја е
  • побољшање одговора на осетљиве теме

су због самог ГПТ4 модела или додатних контрадикторних тестова.

Поред тога, ГПТ4 надмашује ЦПТ-3.5 у већини академских и професионалних испита које полажу људи. Значајно је да ГПТ4 има резултате у 90. перцентилу на испиту Униформ Бар у поређењу са ГПТ-3.5, који има резултат у 10. перцентилу. ГПТ4 такође значајно надмашује свог претходника у односу на стандарде традиционалних језичких модела и друге СОТА моделе (иако понекад уско).

ГПТ4 наспрам ЦхатГПТ: разлике и ограничењаi

И ЦхатГПТ и ГПТ4 имају значајна ограничења и ризике. ГПТ-4 системски лист укључује увиде из детаљног истраживања тих ризика које је спровео ОпенАИ.

Ово су само неки од ризика повезаних са оба модела:

  • Халуцинације (склоност ка стварању бесмисленог или чињенично нетачног садржаја)
  • Правите штетан садржај који крши смернице ОпенАИ (нпр. говор мржње, подстицање на насиље)
  • Појачати и одржавати стереотипе о маргинализованим људима
  • Генеришите реалистичне дезинформације намењене заваравању

Док се ЦхатГПТ и ГПТ-4 боре са истим ограничењима и ризицима, ОпенАИ је уложио посебне напоре, укључујући бројне контрадикторне тестове, да их ублажи за ГПТ-4. Иако је ово охрабрујуће, ГПТ-4 системски лист на крају показује колико је ЦхатГПТ био рањив (а можда и даље јесте). За детаљније објашњење штетних нежељених последица, препоручујем да прочитате ГПТ-4 системски лист, који почиње на страни 38. ГПТ-4 технички извештај .

закључак

Иако мало знамо о архитектури модела и методама обуке иза ГПТ4, изгледа да постоји рафинирана верзија ЦхатГПТ-а. У ствари, тренутно ГПТ4 може да прихвати слике и унос текста, а резултати су сигурнији, тачнији и креативнији. Нажалост, мораћемо да верујемо ОпенАИ-у на реч, јер је ГПТ4 доступан само као део ЦхатГПТ Плус претплате.

Остати информисан о напретку, ризицима и ограничењима ових модела је од суштинског значаја док се крећемо овим узбудљивим, али брзо еволуирајућим пејзажом великих језичких модела.

BlogInnovazione.it

Можда ће вас такође занимати

Иновациони билтен
Не пропустите најважније вести о иновацијама. Пријавите се да их примате путем е-поште.

Недавни чланци

Зелена и дигитална револуција: Како предиктивно одржавање трансформише индустрију нафте и гаса

Предиктивно одржавање револуционише сектор нафте и гаса, са иновативним и проактивним приступом управљању постројењима.…

КСНУМКС април КСНУМКС

Британски антимонополски регулатор подигао је БигТецх аларм због ГенАИ

УК ЦМА је издао упозорење о понашању Биг Тецх-а на тржишту вештачке интелигенције. Тамо…

КСНУМКС април КСНУМКС

Цаса Греен: енергетска револуција за одрживу будућност у Италији

Уредба „Цасе Греен“, коју је формулисала Европска унија за побољшање енергетске ефикасности зграда, завршила је свој законодавни процес са…

КСНУМКС април КСНУМКС

Е-трговина у Италији на +27% према новом извештају Цасалеггио Ассоциати

Представљен годишњи извештај Цасалеггио Ассоциати-а о е-трговини у Италији. Извештај под насловом „АИ-Цоммерце: границе е-трговине са вештачком интелигенцијом“.…

КСНУМКС април КСНУМКС

Прочитајте Иновације на свом језику

Иновациони билтен
Не пропустите најважније вести о иновацијама. Пријавите се да их примате путем е-поште.

Пратите нас