Modeli i madh gjuhësor

Nga testwiki
Versioni i datës 18 mars 2025 22:28 nga imported>Smallem (Përsht. e përkoh.-fillimi; Përshtat. e përkoh.-përfund.; Rreg. me param. e datës)
(ndrysh) ← Version më i vjetër | Rishikimi i fundit (ndrysh) | Version më i ri → (ndrysh)
Kërceni tek navigimi Kërceni tek kërkimi

Stampa:Përkthim i përafërt

Një model i madh gjuhësor (MMGJ; nga anglishtja: Stampa:Lang, LLM) është një lloj modeli i mësimit makinerik i caktuar për detyra të përpunimit të gjuhës natyrore siç është gjenerimi i gjuhës. Si modele gjuhësore, MMGJ-të i fitojnë këto aftësi duke mësuar marrëdhëniet statistikore nga sasi të mëdha teksti gjatë një procesi trajnimi të vetëmbikëqyrur dhe gjysmë të mbikëqyrur.[1]

MMGJ-të më të fuqishme dhe më të avancuara janë transformuesit e ushtruar gjenerativë (Stampa:Lang; GPT), pra rrjetet nervore artificiale që mund të përshtaten deri në imtësi për detyra të caktuara ose të udhëzohet nga porositë e përdoruesit.[2] Më i njohuri prej këtyre transformuesve është ChatGPT, një model që mundëson gjenerimin, përmbledhjen dhe interpretimin e tekstit sipas pyetjeve të përdoruesit.[3] Këto modele fitojnë aftësinë e parashikimit të sintaksës dhe semantikës, por i trashëgojnë edhe pasaktësitë dhe paragjykimet[4] nga të dhënat mbi të cilat janë trajnuar.[5]

Historia

Llogaritja e trajnimit të modeleve të mëdha të dukshme në FLOP kundrejt datës së publikimit gjatë periudhës 2010-2024. Për modelet e përgjithshme të dukshme (lart majtas), modelet kufitare (lart djathtas), modelet e gjuhës së sipërme (poshtë majtas) dhe modelet kryesore brenda kompanive kryesore (poshtë djathtas). Shumica e këtyre modeleve janë modele gjuhësore.
Llogaritja e trajnimit të modeleve të mëdha të dukshme të AI në FLOP kundrejt datës së publikimit gjatë periudhës 2017-2024. Shumica e modeleve të mëdha janë modele gjuhësore ose modele multimodale me kapacitet gjuhësor.

Para vitit 2017, disa modele gjuhësore ishin të konsiderueshme për kohën. Në vitet 1990, IBM prezantoi modelimin statistikor të gjuhës, dhe në vitin 2001, një model i rrafshuar n-gram me 0.3 miliardë fjalë arriti rezultate të larta për atë kohë. Në vitet 2000, studiuesit filluan të trajnojnë modele gjuhësore mbi grupe të mëdha të dhënash nga interneti. Deri në vitin 2009, modelet statistikore të gjuhës dominonin për shkak të aftësisë së tyre për të përpunuar sasi të mëdha të dhënash.[6]

Pasi qe rrjetat nervore bëhen dominante në processimin e imazhit rreth 2012,[7] ato janë aplikuar në modelimin e gjuhës po ashtu. Google e konvertoi shërbimin e tij të përkthimit në Përkthimin e Makinerisë Neurale në 2016. Siç ishte përpara Transformers, ajo u bë nga rrjetet e thella LSTM seq2seq.

Një ilustrim i përbërësve kryesorë të modelit të transformatorit nga letra origjinale, ku shtresat u normalizuan pas (në vend të mëparshëm) vëmendjes me shumë koka

Në konferencën NeurIPS 2017, studiuesit e Google prezantuan arkitekturën e transformatorit në punimin e tyre historik "Vëmendja është gjithçka që ju nevojitet". Qëllimi i këtij punimi ishte të përmirësonte teknologjinë Seq2seq të vitit 2014,[8] dhe bazohej kryesisht në mekanizmin e vëmendjes të zhvilluar nga Bahdanau et al. në 2014.[9] Një vit më pas në 2018, BERT u prezantua dhe shpejt u bë "i kudondodhur".[10] Megjithëse transformatori origjinal ka blloqe kodues dhe dekoder, BERT është një model vetëm për kodues.

Megjithëse GPT-1 u prezantua në vitin 2018, ishte GPT-2 që tërhoqi vëmendje të madhe në 2019 pasi OpenAI vendosi të mos e lëshonte fillimisht për publikun, për shkak të shqetësimeve mbi keqpërdorimin. GPT-3 në 2020 e çoi më tej dhe që nga viti 2024 është i disponueshëm vetëm përmes API-së. ChatGPT, i prezantuar në 2022, fitoi popullaritet të gjerë për përdoruesit e zakonshëm. GPT-4, lëshuar në 2023, vlerësohet për saktësinë e tij dhe aftësitë multimodale, por OpenAI nuk zbuloi detajet e plota të arkitekturës.

Që nga viti 2022, modelet me burim të hapur si BLOOM dhe LLaMA kanë fituar popullaritet, megjithëse kanë disa kufizime në përdorim. Modelet si Mistral AI (Mistral 7B dhe Mixtral 8x7b) përdorin licencën Apache. Që nga qershori 2024, Llama 3 me 70 miliardë parametra, në versionin e tij të akorduar, është LLM më i fuqishëm i hapur, sipas tabelës LMSYS Chatbot Arena, duke tejkaluar GPT-3.5, por mbetet më pak i fuqishëm se GPT-4.

Që nga viti 2024, modelet më të mëdha dhe më të afta bazohen të gjitha në arkitekturën Transformer. Disa implementime të kohëve të fundit bazohen në arkitektura të tjera, të tilla si variantet e rrjetit nervor të përsëritur dhe Mamba (një model i hapësirës shtetërore ).[11][12]

Parapërpunimi i të dhënave

Tokenizimi

Për shkak se algoritmet e mësimit makinerik përpunojnë numra dhe jo tekst, teksti duhet të konvertohet në numra. Në hapin e parë, vendoset një fjalor, më pas indekset e numrave të plotë caktohen në mënyrë arbitrare, por unike për çdo hyrje të fjalorit, dhe së fundi, një përfshirje shoqërohet me indeksin e numrit të plotë. Algoritmet përfshijnë kodimin e çifteve bajt (BPE) dhe WordPiece. Ekzistojnë gjithashtu shenja të veçanta që shërbejnë si karaktere kontrolli, të tilla si [MASK] për shenjën e maskuar (siç përdoret në BERT) dhe [UNK] ("i panjohur") për karakteret që nuk shfaqen në fjalor. Gjithashtu, disa simbole të veçanta përdoren për të treguar formatimin e veçantë të tekstit. Për shembull, "Ġ" tregon një hapësirë të bardhë të mëparshme në RoBERTa dhe GPT. "##" tregon vazhdimin e një fjale të mëparshme në BERT.[13]

Për shembull, tokenizuesi BPE i përdorur nga varianti i vjetër i GPT-3 do të zbërthente tokenizer: texts -> series of numerical "tokens" si

token izer :  texts  -> series  of  numerical  " t ok ens "

Tokenizimi gjithashtu ngjesh grupet e të dhënave. Për shkak se MMGJ-të në përgjithësi kërkojnë që hyrja të jetë një grup që nuk është i dehur, tekstet më të shkurtra duhet të "mbushen" derisa të përputhen me gjatësinë e më të gjatit. Sa argumente nevojiten mesatarisht për fjalë varet nga gjuha e grupit të të dhënave.[14][15]

BPE

Stampa:Kryesor Si shembull, merrni parasysh një tokenizues të bazuar në kodimin e çiftëve të bajtit. Në fillim, të gjitha karakteret unike, përfshirë boshllëqet dhe shenjat e pikësimit, trajtohen si një grup fillestar uni-gramësh. Çifti më i shpeshtë i karaktereve bashkohet në një bigram dhe të gjitha rastet e tij zëvendësohen. Më pas, çiftet që ndodhin së bashku më shpesh bashkohen përsëri në n-gram më të gjatë, derisa të formohet një fjalor i caktuar. Pasi të trajnohet, shënuesi mund të përdoret për të shënuar tekstin që nuk përmban karaktere të panjohura.[16]

Problemet

Një fjalor simbolik i bazuar në frekuencat e nxjerra nga korpuset kryesisht angleze përdor sa më pak shenja të jetë e mundur për një fjalë mesatare angleze. Megjithatë, një fjalë mesatare në një gjuhë tjetër e koduar nga një tokenizues i tillë i optimizuar nga anglishtja ndahet në një sasi jooptimale të shenjave. Tokenizuesi GPT-2 mund të përdorë deri në 15 herë më shumë shenja për fjalë për disa gjuhë, për shembull për gjuhën Shan nga Mianmari. Edhe gjuhët më të përhapura si portugalishtja dhe gjermanishtja kanë "një premium prej 50%" në krahasim me anglishten.[17]

Tokenizimi i pangopur gjithashtu shkakton probleme delikate me plotësimin e tekstit.[18]

Pastrimi i të dhënave

Stampa:Listë shënimesh Në kontekstin e trajnimit të MMGJ-ve, grupet e të dhënave zakonisht pastrohen duke hequr pasazhe toksike nga grupi i të dhënave, duke hedhur poshtë të dhënat me cilësi të ulët dhe duke hequr dyfishimin. Pastrimi i grupeve të të dhënave mund të rrisë efikasitetin e trajnimit dhe të çojë në përmirësimin e performancës në rrjedhën e poshtme.[19][20] Një LLM e trajnuar mund të përdoret për të pastruar grupet e të dhënave për trajnimin e një LLM të mëtejshëm.

Me rritjen e përqindjes së përmbajtjes së krijuar nga LLM në ueb, pastrimi i të dhënave në të ardhmen mund të përfshijë filtrimin e përmbajtjes së tillë. Përmbajtja e gjeneruar nga LLM mund të përbëjë problem nëse përmbajtja është e ngjashme me tekstin njerëzor (duke e bërë të vështirë filtrimin) por me cilësi më të ulët (performancë degraduese e modeleve të trajnuar në të).

Të dhëna sintetike

Trajnimi i modeleve më të mëdha gjuhësore mund të ketë nevojë për më shumë të dhëna gjuhësore sesa të disponueshme natyrshëm, ose që të dhënat e natyrshme të jenë të cilësisë së pamjaftueshme. Në këto raste, mund të përdoren të dhëna sintetike. Seria Phi e Microsoft-it e MMGJ-ve është trajnuar mbi të dhëna të ngjashme me tekstet shkollore të krijuara nga një LLM tjetër.[21]

Trajnimi dhe arkitektura

Të mësuarit përforcues nga reagimet njerëzore (RLHF)

Të mësuarit përforcues nga reagimet njerëzore (RLHF) përmes algoritmeve, të tilla si optimizimi i politikave proksimale, përdoret për të rregulluar më tej një model të bazuar në një grup të dhënash të preferencave njerëzore.

Akordimi i udhëzimeve

Duke përdorur qasjet "vetë-udhëzuese", MMGJ-të kanë qenë në gjendje të nisin përgjigjet e sakta, duke zëvendësuar çdo përgjigje naive, duke filluar nga korrigjimet e krijuara nga njeriu në disa raste. Për shembull, në udhëzimin "Shkruani një ese për temat kryesore të përfaqësuara në Hamlet ", një përfundim fillestar naiv mund të jetë "Nëse e dorëzoni esenë pas datës 17 mars, nota juaj do të reduktohet me 10% për çdo ditë vonesë." bazuar në shpeshtësinë e kësaj sekuence tekstuale në korpus.

Përzierje ekspertësh

MMGJ-ja më e madhe mund të jetë shumë e shtrenjtë për t'u trajnuar dhe përdorur drejtpërdrejt. Për modele të tilla, mund të aplikohet përzierja e ekspertëve (MM), një linjë kërkimesh e ndjekur nga studiuesit e Google që nga viti 2017 për të trajnuar modele që arrijnë deri në 1 trilion parametra.[22][23]

Inxhinieri e shpejtë, mekanizmi i vëmendjes dhe dritarja e kontekstit

Shumica e rezultateve të arritura më parë vetëm me rregullim të imët (të kushtueshëm), mund të arrihen përmes inxhinierisë së shpejtë, megjithëse të kufizuara në shtrirjen e një bisede të vetme (më saktë, të kufizuar në fushëveprimin e një dritareje konteksti).[24]

Kur secila kokë llogarit, sipas kritereve të veta, sa shenja të tjera janë të rëndësishme për shenjën "it_", vini re se koka e dytë e vëmendjes, e përfaqësuar nga kolona e dytë, fokusohet më së shumti në dy rreshtat e parë, dmth. The" dhe "kafshë", ndërsa kolona e tretë fokusohet më së shumti në dy rreshtat e poshtëm, dmth në "i lodhur", i cili është shënjuar në dy shenja.[25]

Për të identifikuar rëndësinë e shenjave brenda fushëveprimit të dritares së kontekstit, mekanizmi i vëmendjes llogarit peshat "të buta" për çdo shenjë, duke përdorur disa koka të vëmendjes, secila me "relevancën" e saj për të llogaritur peshat. Për shembull, modeli i vogël GPT-2 (117M parametra) kishte dymbëdhjetë koka vëmendjeje dhe një dritare konteksti me 1,000 shenja. Versioni mesatar i tij kishte 345 milion parametra dhe 24 shtresa, gjithashtu me 12 koka vëmendjeje. Trajnimi përdorte një grup prej 512.[16]

Modelet më të mëdha, si Gemini 1.5 i Google, i prezantuar në shkurt 2024, mund të kenë një dritare konteksti deri në 1 milion shenja (madje është testuar një dritare prej 10 milionësh). Modele të tjera me dritare të gjera konteksti përfshijnë Claude 2.1 nga Anthropic, që mbështet deri në 200,000 shenja. Është e rëndësishme të theksohet se ky maksimum i referohet shenjave hyrëse, ndërsa numri maksimal i shenjave të daljes është shpesh më i vogël, si në rastin e GPT-4 Turbo me 4,096 shenja dalëse.

Kohëzgjatja e një bisede që modeli merr parasysh për të gjeneruar përgjigjen e tij të radhës është e kufizuar nga madhësia e dritares së kontekstit. Nëse biseda është më e gjatë se dritarja e kontekstit, vetëm pjesët brenda saj do të merren parasysh gjatë gjenerimit të përgjigjes. Alternativisht, modeli mund të përdorë një algoritëm për të përmbledhur pjesët më të largëta të bisedës për të përfshirë informacionin relevant.

Mangësitë e zgjerimit të dritares së kontekstit përfshijnë kosto më të lartë llogaritëse dhe një ndoshta zvogëlim të fokusit në kontekstin lokal. Nga ana tjetër, zvogëlimi i saj mund të çojë në humbjen e varësive të rëndësishme me rreze të gjatë. Balancimi i këtyre aspekteve është një çështje eksperimentimi dhe kërkon konsiderata specifike për domenin.

Një model mund të trajnohet paraprakisht ose për të parashikuar se si segmenti vazhdon, ose çfarë mungon në segment, duke pasur parasysh një segment nga grupi i të dhënave të tij të trajnimit.[26] Mund të jetë ose

  • autoregresiv (dmth. parashikimi se si vazhdon segmenti, mënyra se si e bëjnë GPT-të): për shembull duke pasur parasysh një segment "Më pëlqen të ha", modeli parashikon "supë gjeli" ose "sushi".
  • " i maskuar " (dmth. plotësimi i pjesëve që mungojnë nga segmenti, siç e bën "BERT" [27] ): për shembull, duke pasur parasysh një segment "Më pëlqen të [__] [__] gjeli", modeli parashikon se "ha" dhe "supë" mungojnë.

Modelet mund të trajnohen për detyra ndihmëse që testojnë të kuptuarit e tyre për shpërndarjen e të dhënave, siç është Parashikimi i Fjalive Tjera (NSP), ku çifte fjalish paraqiten dhe modeli duhet të parashikojë nëse ato shfaqen në mënyrë të njëpasnjëshme në korpusin e trajnimit. Gjatë stërvitjes, humbja e rregullimit përdoret për të stabilizuar procesin, por zakonisht nuk aplikohet gjatë testimit dhe vlerësimit.

Infrastruktura

Infrastruktura e konsiderueshme është e nevojshme për trajnimin e modeleve më të mëdha.[28][29][30]

Kostoja e trajnimit

Përparimet në softuer dhe harduer kanë ulur ndjeshëm koston që nga viti 2020, kështu që në vitin 2023 trajnimi i një kosto llogaritëse LLM me 12 miliardë parametra është 72,300 orë A100-GPU, ndërsa në vitin 2020 kostoja e trajnimit të një LLM me 1.5 miliardë parametra. (e cila ishte dy rend magnitudë më e vogël se gjendja e artit në 2020) ishte midis 80 mijë dhe 1.6 milion dollarë.[31] Që nga viti 2020, shuma të mëdha janë investuar në modele gjithnjë e më të mëdha. Për shembull, trajnimi i GPT-2 (dmth një model me 1.5 miliardë parametra) në 2019 kushtoi 50,000 dollarë, ndërsa trajnimi i PaLM (dmth një model me 540 miliardë parametra) në 2022 kushtoi 8 milion dollarë, dhe Megatron-Turing NLG. 530 B (në 2021) kushtoi rreth 11 milion dollarë.[32]

Për LLM të bazuar në Transformer, kostoja e trajnimit është shumë më e lartë se kostoja e konkluzionit. Kushton 6 FLOP për parametër për të trajnuar në një shenjë, ndërsa kushton 1 deri në 2 FLOP për parametër për të konkluduar në një shenjë.[33]

Përdorimi i mjetit

Ka disa detyra që, në parim, nuk mund të zgjidhen nga asnjë LLM, të paktën jo pa përdorimin e mjeteve të jashtme ose softuerit shtesë. Një shembull i një detyre të tillë është përgjigjja ndaj hyrjes së përdoruesit '354 * 139 = ', me kusht që LLM të mos ketë hasur tashmë në një vazhdimësi të kësaj llogaritjeje në korpusin e saj të trajnimit.Stampa:Dyshimtë Në raste të tilla, LLM duhet të përdorë kodin e programit të ekzekutimit që llogarit rezultatin, i cili më pas mund të përfshihet në përgjigjen e tij.Stampa:Dyshimtë: Një shembull tjetër është 'Sa është ora tani? Është ', ku një përkthyes i veçantë programi do të duhet të ekzekutojë një kod për të marrë kohën e sistemit në kompjuter, kështu që LLM mund ta përfshijë atë në përgjigjen e tij. [34] Kjo strategji bazë mund të jetë e sofistikuar me përpjekje të shumta të programeve të krijuara, dhe strategji të tjera kampionimi.

Në përgjithësi, në mënyrë që një LLM të përdorë mjete, duhet ta rregulloni atë për përdorim të veglave. Nëse numri i mjeteve është i kufizuar, atëherë rregullimi mund të bëhet vetëm një herë. Nëse numri i mjeteve mund të rritet në mënyrë arbitrare, si me shërbimet API në internet, atëherë LLM mund të rregullohet mirë për të qenë në gjendje të lexojë dokumentacionin API dhe të thërrasë saktë API.[35][36]

Një formë më e thjeshtë e përdorimit të mjetit është gjenerimi i shtuar me rikthim : shtimi i një LLM me rikthim dokumenti. Duke pasur parasysh një pyetje, një rifitues dokumenti thirret për të marrë dokumentet më të rëndësishme. Kjo zakonisht bëhet duke koduar pyetjen dhe dokumentet në vektorë, pastaj duke gjetur dokumentet me vektorë (zakonisht të ruajtura në një bazë të dhënash vektoriale) më të ngjashme me vektorin e pyetjes. LLM më pas gjeneron një dalje bazuar në pyetjen dhe kontekstin e përfshirë nga dokumentet e marra.[37]

Agjencia

Një LLM është një model gjuhësor, i cili nuk është një agjent pasi nuk ka qëllim, por mund të përdoret si një komponent i një agjenti inteligjent.[38] Studiuesit kanë përshkruar disa metoda për integrime të tilla.Stampa:Citim i duhur

Modeli ReAct, një portmanto i "Arsyeja + Act", ndërton një agjent nga një LLM, duke përdorur LLM si një planifikues. MMGJ-së i kërkohet të "mendojë me zë të lartë". Në mënyrë të veçantë, modeli gjuhësor nxitet me një përshkrim tekstual të mjedisit, një qëllim, një listë të veprimeve të mundshme dhe një regjistrim të veprimeve dhe vëzhgimeve të deritanishme. Ai gjeneron një ose më shumë mendime përpara se të gjenerojë një veprim, i cili më pas ekzekutohet në mjedis.[39] Përshkrimi gjuhësor i mjedisit që i jepet planifikuesit LLM mund të jetë edhe kodi LaTeX i një punimi që përshkruan mjedisin.[40]

Në metodën DEPS ("Përshkruani, Shpjegoni, Planifikoni dhe Zgjidh"), një LLM fillimisht lidhet me botën vizuale nëpërmjet përshkrimeve të imazheve, pastaj nxitet të prodhojë plane për detyra dhe sjellje komplekse bazuar në njohuritë e tij të paratrajnuara dhe reagimet mjedisore. merr.

Metoda Reflexion ndërton një agjent që mëson mbi episode të shumta. Në fund të çdo episodi, MMGJ-së i jepet regjistrimi i episodit dhe nxitet të mendojë "mësimet e nxjerra", të cilat do ta ndihmonin atë të performonte më mirë në një episod pasues. Këto "mësime të nxjerra" i jepen agjentit në episodet e mëvonshme.Stampa:Citim i duhur

Kërkimi i pemës në Monte Carlo mund të përdorë një LLM si heuristikë të paraqitjes. Kur një model bote programatik nuk është i disponueshëm, një LLM gjithashtu mund të nxitet me një përshkrim të mjedisit për të vepruar si model botëror.[41]

Për eksplorim të hapur, një LLM mund të përdoret për të shënuar vëzhgime për "interesantitetin" e tyre, i cili mund të përdoret si një sinjal shpërblimi për të udhëhequr një agjent mësimor përforcues normal (jo-LLM).[42] Përndryshe, ai mund të propozojë detyra gjithnjë e më të vështira për mësimin e kurrikulës.[43] Në vend të nxjerrjes së veprimeve individuale, një planifikues LLM mund të ndërtojë gjithashtu "aftësi" ose funksione për sekuenca komplekse veprimesh. Aftësitë mund të ruhen dhe të përdoren më vonë, duke lejuar rritjen e niveleve të abstraksionit në planifikim.[43]

Agjentët e fuqizuar nga LLM mund të mbajnë një memorie afatgjatë të konteksteve të tij të mëparshme dhe kujtesa mund të merret në të njëjtën mënyrë si Retrieval Augmented Generation. Shumë agjentë të tillë mund të ndërveprojnë shoqërisht.

Kompresimi

Në mënyrë tipike, MMGJ-të trajnohen me numra me pikë lundruese me një ose gjysmë saktësi (float32 dhe float16). Një float16 ka 16 bit, ose 2 bajt, dhe kështu një miliard parametra kërkojnë 2 gigabajt. Modelet më të mëdha zakonisht kanë 100 miliardë parametra, që kërkojnë 200 gigabajt për t'u ngarkuar, gjë që i vendos ato jashtë gamës së shumicës së pajisjeve elektronike të konsumit.[44]

Kuantizimi pas trajnimit [45] synon të ulë kërkesën për hapësirë duke ulur saktësinë e parametrave të një modeli të trajnuar, duke ruajtur pjesën më të madhe të performancës së tij. Forma më e thjeshtë e kuantizimit thjesht i shkurton të gjithë numrat në një numër të caktuar bitësh. Mund të përmirësohet duke përdorur një libër kodi të ndryshëm kuantizimi për shtresë. Përmirësimi i mëtejshëm mund të bëhet duke aplikuar saktësi të ndryshme për parametra të ndryshëm, me saktësi më të lartë për parametra veçanërisht të rëndësishëm ("pesha të jashtme"). Shih [46] për një udhëzues vizual.

Ndërsa modelet e kuantizuara zakonisht janë të ngrira, dhe vetëm modelet e para-kuantizuara rregullohen mirë, modelet e kuantizuara mund të akordohen ende.[47]

Multimodaliteti

Multimodaliteti do të thotë "të kesh disa modalitete" dhe një "modalitet" i referohet një lloji të hyrjes ose daljes, të tilla si video, imazh, audio, tekst, proprioceptim, etj.[48] Ka pasur shumë modele të AI të trajnuar posaçërisht për të gëlltitur një modalitet dhe nxirrni një modalitet tjetër, të tilla si AlexNet për etiketimin e imazhit,[49] përgjigjen e pyetjes vizuale për tekstin nga imazhi në tekst,[50] dhe njohja e të folurit nga fjalimi në tekst.

Një metodë e zakonshme për të krijuar modele multimodale nga një LLM është "tokenizimi" i prodhimit nga një kodues i trajnuar. Kjo përfshin përdorimin e një LLM dhe një kodues imazhi të trajnuar. Një perceptron me shumë shtresa krijohet në mënyrë që vektori i pas-përpunuar të ketë dimensione të ngjashme me një token të koduar. Kjo krijon "shenjat e imazhit", të cilat mund të ndërlidhen me shenjat e tekstit. Më pas, modeli rregullohet mirë në një grup të dhënash me tekst dhe imazhe, duke përmirësuar stabilitetin e koduesit të imazhit.[51]

Flamingo demonstroi efektivitetin e metodës së tokenizimit, duke rregulluar një palë modele gjuhësore të paratrajnuara dhe kodues imazhi për të performuar më mirë në përgjigjen vizuale të pyetjeve sesa modelet e trajnuara nga e para.[52] Modeli Google PaLM u akordua mirë në një model multimodal PaLM-E duke përdorur metodën e tokenizimit dhe u aplikua në kontrollin robotik.[53] Modelet LLaMA janë kthyer gjithashtu multimodale duke përdorur metodën e tokenizimit, për të lejuar hyrjet e imazhit,[54] dhe hyrjet video.[55]

GPT-4 mund të përdorë tekstin dhe imazhin si hyrje (megjithëse komponenti i vizionit nuk u lëshua për publikun deri në GPT-4V [56] ); Gemini i Google DeepMind është gjithashtu multimodal.[57] Mistral prezantoi modelin e vet multimodel Pixtral 12B në shtator 2024.[58]

Vetitë

Ligjet e shkallëzimit

Katër hiper-parametrat e mëposhtëm karakterizojnë një LLM:

  • C është kostoja e trajnimit të modelit, në FLOP .
  • N është numri i parametrave në model.
  • D është numri i argumenteve në grupin e trajnimit.
  • L është humbja mesatare negative e gjasave të log-it për shenjë (nats /token), e arritur nga LLM e trajnuar në grupin e të dhënave të testit.

Ato lidhen me ligje të thjeshta statistikore, të quajtura "ligjet e shkallëzimit". Një ligj i veçantë i shkallëzimit (" Shkallëzimi Chinchilla ") për LLM të trajnuar në mënyrë autoregresive për një epokë, me një orar të normës së të mësuarit log-log, thotë se: [59] {C=C0NDL=ANα+BDβ+L0 ku janë variablat

  • C0=6, që do të thotë se kushton 6 FLOP për parametër për t'u trajnuar në një shenjë. Vini re se kostoja e trajnimit është shumë më e lartë se kostoja e konkluzionit, ku kushton 1 deri në 2 FLOP për parametër për të konkluduar në një shenjë.
  • α=0.34,β=0.28,A=406.4,B=410.7,L0=1.69

Aftësitë emergjente

Në pikë(at) të referuara si ndërprerje,[60] vijat ndryshojnë pjerrësinë e tyre, duke u shfaqur në një grafik linear-log si një seri segmentesh lineare të lidhura me harqe.

Performanca e modeleve më të mëdha në detyra të ndryshme, kur vizatohet në shkallë log-log, shfaqet si një ekstrapolim linear nga performanca e modeleve më të vogla. Megjithatë, ky linearitet mund të shënohet nga "ndërprerjet" në ligjin e shkallëzimit, ku pjerrësia e linjës ndryshon papritur dhe ku modelet më të mëdha fitojnë "aftësi emergjente". Këto aftësi lindin nga ndërveprimi kompleks i komponentëve të modelit dhe nuk janë të dizajnuara apo të programura në mënyrë eksplicite.

Gjëja më intriguese midis aftësive emergjente është të mësuarit në kontekst nga demonstrimet e shembujve. Të mësuarit në kontekst përfshihet në detyra, të tilla si:

  • aritmetika e raportuar, deshifrimi i alfabetit fonetik ndërkombëtar, zbërthimi i shkronjave të një fjale, zbërthimi i fjalës në kontekst,[24][61][62] konvertimi i fjalëve hapësinore, drejtimet kryesore (për shembull, përgjigjja "verilindore" në [0, 0, 1; 0, 0, 0; 0, 0, 0]), termat me ngjyra të paraqitura në tekst.[63]
  • nxitja e zinxhirit të mendimit : Rezultatet e modelit përmirësohen nga nxitja e zinxhirit të mendimit vetëm kur madhësia e modelit kalon 62 B. Modelet më të vogla performojnë më mirë kur nxiten të përgjigjen menjëherë, pa zinxhir mendimi.[64]
  • identifikimi i përmbajtjes fyese në paragrafët e Hinglishit (një kombinim i hindishtes dhe anglishtes) dhe gjenerimi i një ekuivalenti të ngjashëm në anglisht të fjalëve të urta kisuahili.[65]

Schaeffer et. al. argumentojnë se aftësitë emergjente nuk janë fituar në mënyrë të paparashikueshme, por janë fituar në mënyrë të parashikueshme sipas një ligji të shkallës së qetë. Autorët konsideruan një model statistikor lodër të një LLM që zgjidh pyetje me zgjedhje të shumëfishta dhe treguan se ky model statistikor, i modifikuar për të llogaritur lloje të tjera detyrash, zbatohet edhe për këto detyra.

Interpretimi

Modelet e mëdha gjuhësore në vetvete janë " kuti të zeza ", dhe nuk është e qartë se si mund të kryejnë detyra gjuhësore. Ka disa metoda për të kuptuar se si funksionon LLM.

Interpretueshmëria mekanike synon të rindërtojë MMGJ- në duke zbuluar algoritme simbolike që përafrojnë përfundimin e kryer nga LLM. Një shembull është Othello-GPT, ku një Transformer i vogël është trajnuar për të parashikuar lëvizjet ligjore të Othello. Është konstatuar se ekziston një paraqitje lineare e tabelës Othello, dhe modifikimi i paraqitjes ndryshon lëvizjet e parashikuara ligjore të Othello në mënyrën e duhur. [66] Në një shembull tjetër, një Transformer i vogël është trajnuar në programet Karel. Ngjashëm me shembullin Othello-GPT, ekziston një paraqitje lineare e semantikës së programit Karel, dhe modifikimi i paraqitjes ndryshon rezultatin në mënyrën e duhur. Modeli gjithashtu gjeneron programe të sakta që janë mesatarisht më të shkurtra se ato në grupin e trajnimit.

Në një shembull tjetër, autorët trajnuan transformatorë të vegjël për mbledhjen aritmetike modulare. Modelet që rezultuan u projektuan në mënyrë të kundërt, dhe doli që ata përdorën transformimin diskrete të Furierit.[67]

Kuptimi dhe inteligjenca

Studiuesit e NLP u ndanë në mënyrë të barabartë kur u pyetën, në një sondazh të vitit 2022, nëse MMGJ-të (të parregulluara) "mund (ndonjëherë) të kuptojnë gjuhën natyrore në një kuptim jo të parëndësishëm".[68] Përkrahësit e "të kuptuarit të LLM" besojnë se disa aftësi LLM, të tilla si arsyetimi matematikor, nënkuptojnë një aftësi për të "kuptuar" koncepte të caktuara. Një ekip i Microsoft-it argumentoi në vitin 2023 se GPT-4 "mund të zgjidhë detyra të reja dhe të vështira që përfshijnë matematikën, kodimin, vizionin, mjekësinë, ligjin, psikologjinë dhe më shumë" dhe se GPT-4 "mund të shihet në mënyrë të arsyeshme si e hershme (ende ende e paplotë) versioni i një sistemi të inteligjencës së përgjithshme artificiale ": "A mund të thuhet me arsye se një sistem që kalon provimet për kandidatët e inxhinierisë softuerike nuk është vërtet inteligjent?" [69] Disa studiues i karakterizojnë MMGJ-të si "inteligjencë aliene".[70] Për shembull, CEO i Conjecture, Connor Leahy i konsideron MMGJ-të e parregulluara si alienët e padepërtueshëm " Shoggoths ", dhe beson se akordimi RLHF krijon një "fasadë të buzëqeshur" duke errësuar funksionimin e brendshëm të LLM: "Nëse nuk e shtyni shumë larg, fytyra e buzëqeshur mbetet e ndezur, por më pas ju i jepni një nxitje të papritur dhe befas shihni këtë nënbark masiv të marrëzisë, të proceseve të çuditshme të të menduarit dhe të kuptuarit qartësisht jo njerëzor.[71][72]

Paragjykimi politik

Paragjykimi politik i referohet tendencës së algoritmeve për të favorizuar sistematikisht pikëpamje të caktuara politike, ideologji ose rezultate mbi të tjerat. Modelet gjuhësore mund të shfaqin gjithashtu paragjykime politike. Meqenëse të dhënat e trajnimit përfshijnë një gamë të gjerë opinionesh dhe mbulimi politik, modelet mund të gjenerojnë përgjigje që anojnë drejt ideologjive ose pikëpamjeve të veçanta politike, në varësi të përhapjes së këtyre pikëpamjeve në të dhëna.[73]

Referime

  1. Stampa:Cite web
  2. Stampa:Cite journal
  3. Stampa:Cite web
  4. Stampa:Cite conference
  5. Stampa:Cite journal
  6. Stampa:Cite journal
  7. https://www.mdpi.com/2072-4292/13/22/4712
  8. Stampa:Cite journal
  9. Stampa:Cite arXiv
  10. Stampa:Cite journal
  11. Stampa:Cite web
  12. Stampa:Citation
  13. Stampa:Citation
  14. Stampa:Cite web
  15. Stampa:Cite journal
  16. 16,0 16,1 Stampa:Cite book
  17. Stampa:Cite arXiv
  18. Stampa:Cite web
  19. Stampa:Cite journal
  20. Stampa:Citation
  21. Stampa:Cite arXiv
  22. Stampa:Cite arXiv
  23. Stampa:Cite arXiv
  24. 24,0 24,1 Stampa:Cite journal
  25. Stampa:Cite web
  26. Stampa:Cite book
  27. Stampa:Cite book
  28. Stampa:Cite web
  29. Stampa:Cite web
  30. Stampa:Cite web
  31. Stampa:Cite web
  32. Stampa:Citation
  33. Section 2.1 and Table 1, Stampa:Cite arXiv
  34. Stampa:Cite web
  35. Stampa:Cite arXiv
  36. Stampa:Cite arXiv
  37. Stampa:Cite journal
  38. Stampa:Cite journal
  39. Stampa:Cite arXiv
  40. Stampa:Cite arXiv
  41. Stampa:Cite arXiv
  42. Stampa:Cite arXiv
  43. 43,0 43,1 Stampa:Cite web
  44. Stampa:Cite web
  45. Stampa:Cite journal
  46. Stampa:Cite web
  47. Stampa:Cite arXiv
  48. Stampa:Cite journal
  49. Stampa:Cite journal
  50. Stampa:Cite journal
  51. Stampa:Cite arXiv
  52. Stampa:Cite journal
  53. Stampa:Cite arXiv
  54. Stampa:Cite arXiv
  55. Stampa:Cite arXiv
  56. Stampa:Cite web
  57. Stampa:Citation
  58. Stampa:Cite web
  59. Stampa:Cite arXiv
  60. Stampa:Cite arXiv
  61. Stampa:Cite journal
  62. Stampa:Cite web
  63. Stampa:Cite journal
  64. A Closer Look at Large Language Models Emergent Abilities (Yao Fu, Nov 20, 2022)
  65. Stampa:Cite web
  66. Stampa:Cite web
  67. Stampa:Cite arXiv
  68. Stampa:Cite journal
  69. Stampa:Cite news
  70. Stampa:Cite news
  71. Stampa:Cite news
  72. Stampa:Cite news
  73. Stampa:Cite web