Oriol Vinyals (Google DeepMind): „Bylo by lepší být pomalejší v oblasti umělé inteligence, ale svět se pohybuje rychle a je to velmi vzrušující“

Viceprezident divize, která vyvinula Gemini, věří, že umělá inteligence bude stále více přítomna ve formě hlasu, videí a robotiky.

Když Walter Benjamin napsal „Dílo umění v době technické reprodukovatelnosti“ v roce 1939, uběhlo už století od doby, kdy fotografii přinesl na svět daguerrotyp a více než 40 let od vynálezu kinematografu bratry Lumière. Přesto, i po tak dlouhé době, filozofové jako Benjamin stále uvažovali a byli ohromeni vstupem těchto technologií a jejich schopností oddělit lidské zkušenosti od technických procesů. Dnes rychlost technologického pokroku vzrostla natolik, že porozumět tomu, co se děje, se zdá být téměř nemožné, a to i pro ty, kteří stojí za těmito inovacemi.

Například když se EL PAÍS naposledy setkal s Oriolem Vinyalsem v prosinci 2022, umělá inteligence (AI) teprve začínala pronikat do povědomí široké veřejnosti prostřednictvím programů textu nebo obrazu jako ChatGPT. O tři roky později, a aniž by se to skoro stačilo strávit, všechny softwarové programy tuto technologii integrují, vědci ji používají k testování svých teorií a umělci ji začínají považovat za další nástroj v jejich paletě. Pro studenty je téměř nezbytná a dokonce funguje jako psycholog. To vše je spojeno s riziky a nejistotami, které rostou, jak se technologie stávají přesnějšími a ohromujícími.

Vinyals (Sabadell, 42 let) uznává, že tempo je velmi rychlé, ačkoli připouští, že požadavky trhu a „vzrušení“ z dělání něčeho, co se dá přirovnat k cestě na Měsíc, brání zpomalení. Navzdory zprávám o možné bublině v oblasti AI, peníze stále přicházejí a technici nepropásnou příležitost. Vinyals cítí zodpovědnost za tento okamžik, protože je jedním z největších odborníků na AI na světě, viceprezidentem Google DeepMind, anglické společnosti, kterou Alphabet, mateřská společnost Googlu, koupila v roce 2014, aby se soustředila na techniku hlubokého učení. Hlavním produktem DeepMind je Gemini, motor AI, který soutěží s ChatGPT, a jehož verze 3.0 byla uvedena minulý týden. Tato společnost také vyvinula slavného AlphaGo, který kreativním způsobem porazil mistra světa v hře Go, AlphaStar, který hraje a vyhrává ve video hře StarCraft II, a AlphaFold, AI, která predikuje strukturu proteinů a jejíž tvůrci získali Nobelovu cenu za chemii minulý rok.

Vzdělání a kariéra Oriola Vinyalse

Matematik a inženýr telekomunikací z UPC, byl tento týden jmenován doktorem honoris causa touto univerzitou, z které vzešel jako mladá naděje, která téměř bez studia chodila na zkoušky. Doktorát získal na Berkeley a stal se jednou z hlavních osobností v oblasti AI.

Jako často citovaný vědec, Vinyals stále přemýšlí o tajemstvích, jak mluvil počítač Hal ve filmu „2001: Vesmírná odysea“, který poprvé viděl, když mu bylo osm let.

Rozhovor s Oriolem Vinyalsem

Otázka: Co se stalo za poslední tři roky od doby, co se AI dostala do našich životů?

Odpověď: Pokusím se to shrnout. Technologie, kterou dnes používáme, je podobná té, kterou jsme používali před desetiletími; jde o doladění receptu. V podstatě se stále snažíme napodobit, jak fungují neuronové spoje v našem mozku. Začal jsem v této oblasti v roce 2007, kdy byla AI pohříchu jen vědeckým tématem v publikacích. V roce 2013 jsem nastoupil do Googlu, kde jsme ještě čtyři nebo pět let pokračovali v výzkumu a publikování, ale brzy jsme si uvědomili, že tato technologie může sloužit k něčemu mnohem většímu než k samotnému výzkumu. Od té doby došlo k významným událostem, jako byl AlphaGo nebo AlphaStar, které představily AI široké veřejnosti; a AlphaFold, který způsobil revoluci v biologii. V roce 2016 byla založena startup OpenAI, který se rozhodl nevydávat vědecké publikace, ale zaměřit se na dosahování dalších kroků k silnější inteligenci. Toho dosáhli s modelem ChatGPT, který, jelikož se jedná o jazykový model, prokázal, že je nejen vědecky zajímavý, ale i velmi užitečný, a stal se populární aplikací před třemi lety. V roce 2019 jsme se také snažili vytvořit velmi silný jazykový model a nakonec jsme sloučili modely, které jsme vyvíjeli v Google Brain a Google DeepMind do nového projektu s názvem Gemini. Na začátku nebyl tak silný, ale zlepšili jsme recept a teď je v elitní skupině.

Otázka: Jaké novinky přináší verze 3.0 Gemini?

Odpověď: Vše působí poměrně podobně, ale kvalita se výrazně zvyšuje, stejně jako možnosti toho, co s ním lze dělat. Schopnost vytvářet obrázky pomocí motoru Nano Banana Pro je mnohem silnější. Je také mnohem lepší v psaní kódu, matematických schopnostech a v argumentaci, a zlepšili jsme i jeho osobnost.

Otázka: Jaké jsou příčiny „halucinací“ nebo cyklů?

Odpověď: Ano, to se děje; zařízení říká, že věci existují, přestože nejsou. Je obtížné to vysvětlit, závisí to na typu problému. Provádíme testy. Například když se zeptáte, kolik písmen má slovo „strawberry“, vždy říká, že má dvě. Určitě máme výsledek, ale nevíme, jak k tomu došlo. Nelze zjistit, kde v kódu něco selhalo, protože to není program; je to neuronová síť. Také nemůžeme přesně pochopit, jak proces myšlení v mozku dospěje k dané odpovědi. To, co nám pomáhá porozumět, je, že s ním hovoříme v jazyce; ptáme se ho, proč dospěl k této odpovědi a necháváme ho provádět introspekci. Takto můžeme číst a interpretovat. Vysvětlení, proč dochází k chybám v AI, zahrnuje také to, že na internetu jsou chyby, a jazykový model čerpá své odpovědi právě z toho; trénuje se s internetovým obsahem a samo sebou. Máme způsoby, jak se zlepšovat, ale stejně jako uživatelé internetu ví, že ne všechno, co najdou, je pravda, měli by si to být vědomi také v případě AI.

Otázka: Myslíte si, že si uživatelé jsou toho vždy vědomi? Když se o to ještě sami divíte…?

Odpověď: Ano, je to nová technologie s úžasnými schopnostmi, ale… Problém spočívá v tom, že změny, které uvidíme, budou rychlejší než ostatní technologické změny. Demis Hassabis, generální ředitel DeepMind, uvedl, že to, co se dnes děje, je 10krát větší a rychlejší než průmyslová revoluce. Uživatelé se však postupně přizpůsobují různým technologiím. Vzdělání začíná u nás samotných, u zdravého rozumu. A firmy musí také zlepšovat.

Otázka: Zmiňujete osobnost AI. Do jaké míry můžeme říct, že je nebo bude podobná nám?

Odpověď: Je už jasné, že modely nejenže interpolují, tedy produkují výsledek mezi dvěma body; mají také kreativitu. Ne vždy, ale v některých aspektech dokážou přinést nové myšlenky. Díky jejich schopnosti, v oblasti vědy, jsou schopny číst všechny články ze dvou zcela odlišných polí a provádět spojení, která nikdo předtím neměl čas udělat. To pomáhá vědcům při brainstormingu. V matematice to funguje stejně: Terence Tao, považovaný za nejlepšího matematika na světě, využívá AI k iteraci procesů. Je to partner pro výzkum. Není nemožné si představit, že AI může vyřešit jeden z nejkomplexnějších matematických problémů. Z pohledu rozsahu: jednomu člověku může trvat 50 let, než vyřeší Riemannovu hypotézu, ale pro tyto modely je jeden den ekvivalentní 600 letům.

Otázka: Geoffrey Hinton a další průkopníci AI varovali před jejími riziky. Jaká je zodpovědnost výzkumníků a firem vůči těmto hrozbám?

Odpověď: S Geoffrey jsme spolu publikovali a byli jsme kolegy v Googlu. Vědecká komunita se nikdy neshodne na jednom názoru všichni stejně. Je dobré mít hlasy ze všech stran. Někteří vidí velké nebezpečí, jiní žádné; já se nacházím ve středu. A Google, nemohu mluvit za jiné společnosti, je zodpovědný při uvedení svých modelů na trh, investoval do nich řadu let. Je také pravda, že pokud neuvedete modely pro širokou veřejnost, nebudete moci tak rychle vidět problémy, které mají. V současné době probíhá závod mezi několika společnostmi a je třeba být obezřetný, ale také předvídat dopady.

Otázka: Budeme litovat, že jdeme tak rychle?

Odpověď: Myslím na to jako vědec, ale také jako rodič; přemýšlím o světě, který přijde, a o tom, jak se změní pracovní prostředí a vztahy. Důkladně uvažuji o důsledcích, zda je dobré, aby mladí lidé měli přístup k chatbotům. Nemáme čas na to, abychom prováděli studie, ale pomáhá přemýšlet o vlastním riziku, abychom to udělali správně. Ano, bylo by lepší jít pomaleji, mít více času na pochopení, co je dobré a co není. Ale je to těžké v této dynamice; svět se hýbe velmi rychle a existuje mnoho pobídek. Je to také vzrušující, je to historický okamžik, jako když se šlo na Měsíc. Je tu hodně optimismu, energie a ekonomických možností. Je složité zastavit nebo zpomalit. Doufám však, že pokud budeme mít dostatek dat o tom, že něco nefunguje, mohli bychom se mírně zastavit.

Otázka: Jak přistoupila k profesi čínská DeepSeek?

Odpověď: S malým týmem to zvládli dobře, dokázali se přizpůsobit tomu, co se dělo. Ale modely na vyšší úrovni jsou od Googlu a OpenAI. Problém je v tom, že v některých aplikacích možná bude limit, který všichni dosáhneme; možná se dostaneme k momentu, kdy všechny AI budou mluvit anglicky bez problémů, a v tomto ohledu nebude dalšího postupu. Tímto směrem to příliš velký dopad nemělo, ale mělo to na geopolitiku, protože Čína a USA jsou hlavními konkurenty.

Otázka: Může být Evropa konkurenceschopná? Jaký je váš názor na regulaci, kterou prosazují?

Odpověď: Ano, bez komentáře. DeepMind je v Londýně, v evropském prostředí, a existují nějaké silné startupy, jako Mistral, ale pokud se podíváte na témata investic a kde jsou datová centra, všechny jsou ve USA nebo Číně.

Otázka: Obáváte se energetického dopadu datových center?

Odpověď: Google slibuje být neutrální v emisích a to se nám daří, protože naše datová centra produkují CO2, ale máme udržitelné investice, které to kompenzují. Také po počátečních investicích budou energetické náklady efektivnější, protože trénink AI bude také efektivnější. Samotná AI nám může pomoci objevit materiály nebo technologie, které vyřeší problém skleníkových plynů. Například jedním z témat, na které se zaměřujeme, je výzkum jaderné fúze. Může být dosažena dříve díky AI.

Otázka: Nyní interagujeme s AI především textově a obrazově. Co přijde v blízké budoucnosti?

Odpověď: Nejpřirozenější formou bude hlas, budeme hovořit a konverzovat s AI, aniž by to nahradilo text. Další formou bude, že AI bude vytvářet videa, malé tutoriály, aby nám vysvětlila věci. To uvidíme brzy. A pak něco, co není tak bezprostřední, ale může být možné za pět let, protože je do toho hodně investic, je robotika. Budeme interagovat s humanoidními roboty, tak jako to už děláme s automobily bez řidiče. Technologie už existuje, ale chybí ji najít vzorec, aby to bylo přístupné a užitečné pro širokou veřejnost.

Melisa Segura
Melisa Segura

Melisa Segura je kreativní autorka, která se zaměřuje na moderní styl života, módu a inspiraci pro každodenní chvíle. Její texty spojují lehkost, autenticitu a pozitivní energii. Ráda sdílí praktické tipy a nové nápady, které pomáhají čtenářům objevovat krásu v detailech i jednoduchosti.

Articles: 686

Leave a Reply

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *