ChatGPT nebo Open Assistant, je potřeba ho dotrénovat pomocí lidmi vytvořených dat. Mluví se o učení pomocí lidské zpětné vazby [8]. Při tomto dotrénování se model vlastně naučí, že v textu nemá pokračovat, jako by to byl text někde na Internetu, ale že text má mít strukturu, kdy jedna strana dává příkazy a druhá odpovídá, přičemž model tyto příkazy jakoby plní (plnit je však vůbec nemusí a často technicky ani nemůže). Asistenti jako ChatGPT mají při trénování k dispozici podobná data jako internetové vyhledávače, ale neodkazují se do původních zdrojů a spoléhají vlastně na to, co si „zapamatovali“ při trénování. To může být velmi zavádějící – systémy jsou vlastně trénované na to, aby generovaly texty, které vypadají věrohodně, ne aby byly pravdivé. Existují i systémy, které kombinují vyhledávání s velkými jazykovými modely, např. Microsoft Bing Assistant nebo Perplexity.ai. Vyhledávač nejprve vyhledá relevantní stránky a pak se použije jazykový model dotrénovaný tak, aby shrnul hlavní informace z dokumentů poskytnutých vyhledávačem. Ani zde ale není záruka, že nalezené dokumenty jsou ty nejrelevantnější, ani že jejich shrnutí proběhlo správně.
I samo získávání trénovacích dat z Internetu je problematická záležitost: data se sbírají bez souhlasu autorů a bez ohledu na autorská práva. Soukromé firmy tak využívají práci jiných lidí a firem pro vývoj svých produktů, aniž by autorům nabízely kompenzaci [9]. Dále je třeba poznamenat, že pro účely trénování se data často sbírají s jiným cílem, než pro který byla vytvořena a který uživatelé při udělení souhlasu nemohli dohlédnout (např. data uživatelů e-mailových schránek použita pro trénování modelů automatické odpovědi nebo veřejné příspěvky uživatelů diskuzních fór) [10]. Problematické je i získávání ručních anotací pro dotrénování modelů: jedná se o psychicky náročnou práci, za kterou některé firmy platí malou odměnu [11]. Podle amerického časopisu Time anotace pro ChatGPT připravila agentura v keňském Nairobi a svým zaměstnancům platila 1–2 dolary za hodinu (viz Další čtení).
Pro generování obrázků se používají takzvané diffusion modely [12]. Vstupní text se nejprve zpracuje pomocí předtrénovaného jazykového modelu (většinou řádově menšího, než jsou ty, které se používají pro generování textů). Samotné generování pak probíhá v postupných krocích, kdy na začátku je bílý šum (zrnění analogové televize), a v každém kroku se šum sníží. Generování difuzním modelem je výpočetně náročné, a proto se nejprve vygeneruje malý obrázek, který se pak dalšími neuronovými sítěmi zvětšuje. Tím se mimo jiné zajistí konzistence v obrázku, protože na začátku je všechno jenom pár pixelů od sebe. Podobně jako u velkých jazykových modelů se trénovací data získávají automatickým stahováním z internetu [13].
Pro Zeptej se vědce odpovídali Jindřich a Ondřej
Zdroje:
Pozn.: významná část výzkumu probíhá v soukromých firmách. Citujeme tedy i z technických zpráv jednotlivých firem, které neprošly recenzním řízením.
[1] https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
[2] https://arxiv.org/abs/2302.13971
[3] https://arxiv.org/abs/2305.10403
[4] https://dl.acm.org/doi/10.1145/3442188.3445922
[5] https://arxiv.org/abs/2204.02311
[6] https://arxiv.org/abs/2303.08774
[7] https://arxiv.org/abs/2206.07682
[8] https://arxiv.org/abs/2203.02155
[9] https://crsreports.congress.gov/product/pdf/LSB/LSB10922
[10] https://dl.acm.org/doi/10.1145/2939672.2939801
[11] Crawford, Kate. The atlas of AI: Power, politics, and the planetary costs of artificial intelligence. Yale University Press, 2021. Kapitola 2 a 3.
[12] https://arxiv.org/abs/2204.06125
[13] https://openreview.net/forum?id=M3Y74vmsMcY