Dotazy a odpovědi

Jak funguje umělá inteligence?

Datum odpovědi: 22. 9. 2023

801

Dotaz:

Jak funguje umělá inteligence? Kde bere ta vstupní data? Nejsou to jenom informace, které nám podá i třeba Google? Jakto, že umí vytvořit souvislé texty a obrazy, aby to dávalo smysl?
Zdroj obrázku: Canva

Minutová odpověď:

1)

Velké jazykové modely se trénují na obrovském množství dat a díky tomu jsou schopné předpovědět, jaké slovo bude následovat, čímž vytvářejí texty – například ve formě krátké, strukturované odpovědi.

2)

Pro generování obrázků se používají tzv. diffusion modely, které na základě textového zadání postupně mění bílý šum do finálního obrázku.

3)

Náš dojem smysluplnosti vygenerovaných textů posiluje naše přirozená snaha texty vysvětlovat a hledat v nich význam.

4)

I přes zdánlivou důmyslnost generovaných textů mohou modely selhávat ve velmi jednoduchých početních nebo logických úlohách.

5)

Získávání trénovacích dat je problematické z hlediska etiky, autorských práv, nebo zahrnutí toxického obsahu či dezinformací.
Zdroj obrázku: Canva

Celá odpověď:

ChatGPT nebo Open Assistant, je potřeba ho dotrénovat pomocí lidmi vytvořených dat. Mluví se o učení pomocí lidské zpětné vazby [8]. Při tomto dotrénování se model vlastně naučí, že v textu nemá pokračovat, jako by to byl text někde na Internetu, ale že text má mít strukturu, kdy jedna strana dává příkazy a druhá odpovídá, přičemž model tyto příkazy jakoby plní (plnit je však vůbec nemusí a často technicky ani nemůže). Asistenti jako ChatGPT mají při trénování k dispozici podobná data jako internetové vyhledávače, ale neodkazují se do původních zdrojů a spoléhají vlastně na to, co si „zapamatovali“ při trénování. To může být velmi zavádějící – systémy jsou vlastně trénované na to, aby generovaly texty, které vypadají věrohodně, ne aby byly pravdivé. Existují i systémy, které kombinují vyhledávání s velkými jazykovými modely, např. Microsoft Bing Assistant nebo Perplexity.ai. Vyhledávač nejprve vyhledá relevantní stránky a pak se použije jazykový model dotrénovaný tak, aby shrnul hlavní informace z dokumentů poskytnutých vyhledávačem. Ani zde ale není záruka, že nalezené dokumenty jsou ty nejrelevantnější, ani že jejich shrnutí proběhlo správně.

I samo získávání trénovacích dat z Internetu je problematická záležitost: data se sbírají bez souhlasu autorů a bez ohledu na autorská práva. Soukromé firmy tak využívají práci jiných lidí a firem pro vývoj svých produktů, aniž by autorům nabízely kompenzaci [9]. Dále je třeba poznamenat, že pro účely trénování se data často sbírají s jiným cílem, než pro který byla vytvořena a který uživatelé při udělení souhlasu nemohli dohlédnout (např. data uživatelů e-mailových schránek použita pro trénování modelů automatické odpovědi nebo veřejné příspěvky uživatelů diskuzních fór) [10]. Problematické je i získávání ručních anotací pro dotrénování modelů: jedná se o psychicky náročnou práci, za kterou některé firmy platí malou odměnu [11]. Podle amerického časopisu Time anotace pro ChatGPT připravila agentura v keňském Nairobi a svým zaměstnancům platila 1–2 dolary za hodinu (viz Další čtení).

Pro generování obrázků se používají takzvané diffusion modely [12]. Vstupní text se nejprve zpracuje pomocí předtrénovaného jazykového modelu (většinou řádově menšího, než jsou ty, které se používají pro generování textů). Samotné generování pak probíhá v postupných krocích, kdy na začátku je bílý šum (zrnění analogové televize), a v každém kroku se šum sníží. Generování difuzním modelem je výpočetně náročné, a proto se nejprve vygeneruje malý obrázek, který se pak dalšími neuronovými sítěmi zvětšuje. Tím se mimo jiné zajistí konzistence v obrázku, protože na začátku je všechno jenom pár pixelů od sebe. Podobně jako u velkých jazykových modelů se trénovací data získávají automatickým stahováním z internetu [13].

Pro Zeptej se vědce odpovídali Jindřich a Ondřej

Zdroje:

Pozn.: významná část výzkumu probíhá v soukromých firmách. Citujeme tedy i z technických zpráv jednotlivých firem, které neprošly recenzním řízením.

[1] https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html 

[2] https://arxiv.org/abs/2302.13971 

[3] https://arxiv.org/abs/2305.10403 

[4] https://dl.acm.org/doi/10.1145/3442188.3445922 

[5] https://arxiv.org/abs/2204.02311 

[6] https://arxiv.org/abs/2303.08774 

[7] https://arxiv.org/abs/2206.07682 

[8] https://arxiv.org/abs/2203.02155 

[9] https://crsreports.congress.gov/product/pdf/LSB/LSB10922 

[10] https://dl.acm.org/doi/10.1145/2939672.2939801

[11] Crawford, Kate. The atlas of AI: Power, politics, and the planetary costs of artificial intelligence. Yale University Press, 2021. Kapitola 2 a 3.

[12] https://arxiv.org/abs/2204.06125

[13] https://openreview.net/forum?id=M3Y74vmsMcY 

Další čtení:

https://time.com/6247678/openai-chatgpt-kenya-workers

Odpovídali

doc. RNDr. Ondřej Bojar, Ph.D.
(Ústav formální a aplikované lingvistiky (ÚFAL), MFF UK)
Mgr. Jindřich Libovický, Ph.D.
(Ústav formální a aplikované lingvistiky (ÚFAL), MFF UK)

Odborná recenze:

(Ústav fyzikální chemie J. Heyrovského AV ČR)

Editace textu:

(Ústav analytické chemie, VŠCHT Praha)

Mohlo by se vám líbit: