„Jsem unavená fyzicky, jsem vyčerpaná psychicky. Jsem jako chodící zombie,“ popisuje svůj den datová anotátorka z Nigérie, která musí denně zpracovat kolem tisícovky tiketů — textů, obrázků nebo videí. Každé označení je pro trénování systémů umělé inteligence novou vstupní informací. Na místní poměry jde o relativně dobře placenou práci, v Evropě nebo Americe by ale za podobné peníze nikdo takovou pozici nepřijal; startovní sazby se pohybují někde kolem deseti korun za hodinu. Velké firmy najímají agentury, které hledají globálně nejlevnější zdroje lidské práce, a bez těchto anotátorů by moderní AI systémy nevznikly.
Jak upozornila Timnit Gebru, etička zabývající se dopady AI, strojové učení už teď ovlivňuje životy lidí po celém světě. Gebru opustila Google po sporné studii o nerovnostech, kterou publikovala, a založila výzkumný institut DAIR, kde se problematikou dál zabývá. Trénování modelů probíhá ve třech hlavních fázích: shromáždění dat a základní učení sítě, doladění pomocí lidské zpětné vazby (metoda RLHF, kdy lidé vybírají lepší odpovědi) a konečná inference, tedy provozní generování textu či obrazu.
Praktické dopady jsou všudypřítomné. OpenAI platila anotátorům v Keni za ladění modelů pro ChatGPT necelých padesát korun na hodinu. Většina uživatelů se na tréninku podílí nevědomky — stačí psát text nebo publikovat fotku. Firmy dlouho sbíraly co nejvíce dat často bez explicitního souhlasu uživatelů.
Příklad strojového překladu ukazuje, jak lidská práce paradoxně vytvořila ideální tréninková data: profesionální paralelní texty (Bible, právní předpisy EU) zlepšily modely natolik, že překladové systémy začaly překonávat lidské překladatele v rychlosti i dostupnosti. Mnozí překladatelé pak zůstali u post-editace, která je vyčerpávající a méně tvořivá; překladatel Miroslav Pošta mluví o nutnosti přistupovat k výstupu s „presumpcí viny“ kvůli halucinacím a nepředvídatelným chybám.
Algoritmické zkreslení a riziko diskriminace vyplývají z trénovacích dat: pokud je určitý jazyk nebo skupina méně zastoupena, model bude chybovat častěji. Očekávaná objektivita strojů navíc skrytá předsudky snadno maskuje, a proto je nutné další ladění modelů, aby se tyto tendence potlačily.
