Turnaj chatbotů: Claude na vrcholu, ChatGPT spíše průměrný

Co dostanete v alpské restauraci, když si objednáte „Stange“? Dva chatboti umělé inteligence tvrdí, že dostanete prodloužený dezert, který si můžete ozdobit podle své chuti. Avšak mimo regionu Sarine je „Stange“ ve skutečnosti půllitr – především piva. Tato chyba byla zjištěna během testu provedeného na Vysoké škole odborné a technické severozápadu Švýcarska (FHNW) pro pořad o ochraně spotřebitelů „Kassensturz“ od SRF.

Tyto chybné odpovědi, označované jako „halucinace“, se v této experimentu často objevovaly. Vědci testovali deset populárních chatbotů, aby vyhodnotili jejich praktickou relevanci. Tyto generativní modely velkého jazyka (LLM) měly odpovědět na více než 300 otázek týkajících se různých témat, jako jsou každodenní život, obecná kultura, právo a zdraví, přičemž 20 % dotazů se týkalo Švýcarska. Následně výsledky analyzoval panel odborníků.

Švýcarský chatbot nedokáže přesvědčit

Simon Felix, odborník na umělou inteligenci z FHNW, vysvětluje, že několik chatbotů umělé inteligence se potýká s obtížemi, zejména pokud jde o otázky týkající se Švýcarska. Buď vymýšlejí odpovědi, nebo se soustředí na Německo (experiment nebyl proveden v frankofonní části). Chatbot Lumo, vyvinutý švýcarskou společností Proton, dosáhl nejhorších výsledků. I když je model příkladný z hlediska ochrany dat, kvalita jeho odpovědí ve srovnání s konkurencí zanechává mnohé přání. „Občas Lumo poskytne pouze tři slova, nebo pak velmi dlouhé, dokonce vymyšlené odpovědi,“ uvádí Simon Felix. Čínský chatbot Deepseek a ten od Meta, společnosti za Facebookem, Instagramem a WhatsAppem, byly také hodnoceny jako „neuspokojivé“.

ChatGPT je pouze „dostatečný“

Počet uživatelů těchto jazykových modelů neustále roste. Mezi nimi dominuje ChatGPT. Podle jeho tvůrce, OpenAI, přibližně 800 milionů uživatelských účtů interaguje s ChatGPT alespoň jednou týdně. Avšak výkonnost ChatGPT v analýze odpovědí je „pouze dostatečná“. „Produkt neposkytuje ani špatné, ani vynikající odpovědi,“ říká odborník na umělou inteligenci. Model také vykazuje slabosti v otázkách typicky švýcarských.

Claude má nejrelevantnější odpovědi

Chatbot Claude, vyvinutý společností Anthropic, dosáhl nejlepších výsledků. Při testu poskytl nejrelevantnější odpovědi. „Tento chatbot jde přímo k věci a dává stručné odpovědi bez opomenutí důležitých informací,“ hlásí Simon Felix. Anthropic byla založena bývalými výzkumníky z OpenAI. Microsoftův Copilot a Google’s Gemini také dosáhli dobrých výsledků. Zajímavé je, že Copilot využívá stejný jazykový model jako ChatGPT, ale poskytuje lepší odpovědi. „Přičítáme to tomu, že Microsoft vytvořil lepší směrnice a poskytl vyšší výpočetní výkon, což umožňuje generovat kvalitnější odpovědi,“ dodává odborník na umělou inteligenci. Tento rozdíl ukazuje, jak velcí poskytovatelé formují své modely.

Buďte opatrní při citlivých tématech

Při používání chatboti umělé inteligence je důležité být opatrný, zejména pokud jde o citlivá témata. LLM nejsou vhodné pro otázky, jejichž nesprávné odpovědi mohou mít závažné následky. „Pokud jde o otázky zdravotnictví, duševního zdraví nebo právní záležitosti, chybná odpověď může být fatální,“ varuje Simon Felix.

Je také důležité zacházet s daty opatrně. Soukromé nebo důvěrné informace nemají v chatbotech místo. Soukromé údaje, citlivá jména nebo tajné dokumenty musí být činěny nečitelnými, nebo je dokonce zakázáno je zadávat vůbec.

Průběh testu

Otázky: Chatboti odpověděli na více než 300 otázek, které se týkaly různých témat, jako je každodenní život, obecná kultura, právo a zdraví. 20 % otázek se týkalo Švýcarska.

Kritéria hodnocení: Čtyřicet odborníků a členů personálu Vysoké školy odborné a technické severozápadu Švýcarska vyhodnotilo odpovědi. Spolehlivé hodnocení bylo zajištěno. U otázek, které neměly jasně správnou nebo nesprávnou odpověď, se hodnotitelé zaměřili na aspekty jako struktura, rozsah, jazyk a srozumitelnost odpovědí.

Nehodnoceno: Faktory „ochrana dat“, „rychlost odpovědi“ a „generování obrázků“ nebyly zahrnuty do hodnocení.

Období: Chatboti byli dotazováni mezi 22. říjnem a 13. listopadem 2025. Modely zveřejněné po tomto období nemohly být zahrnuty. Pokud to bylo možné, chatboti byli testováni bez registrace a se svými výchozími nastaveními.

Odpověď společnosti Proton

Společnost Proton, která vyvinula chatbot Lumo, vysvětluje pro „Kassensturz“: „Lumo je na trhu méně než pět měsíců, proto jsme měli méně času na optimalizaci jeho výkonu než americké a čínské firmy. Tato optimalizace je klíčová pro celkové výkony (proto se americké a čínské firmy snaží co nejrychleji získat co nejvíce uživatelů). Od prvního uvedení Lumo letos v létě byly přibližně každé dva měsíce nasazeny významné aktualizace. Nadcházející vylepšení modelu a webového vyhledávání sníží mezeru, přičemž stále zajistí nezbytnou ochranu soukromí, která chybí americkým a čínským službám.“ Společnosti DeepSeek a Meta na žádost neodpověděly.