Význam výzkumu AI v oblasti softwarového inženýrství

Cílem tohoto výzkumu je, aby umělá inteligence (AI) dokázala pracovat jako softwarový inženýr bez lidské pomoci. To by mělo zrychlit a zpřesnit proces vývoje softwaru. Firmy by díky tomu mohly vytvářet autonomní samoškolící agenty, kteří by sami zvládali úkoly jako je odhalování chyb, testování a ladění. Výzkum byl publikován na arXiv.org a na něm spolupracovali odborníci z Meta, University of Illinois Urbana-Champaign a Carnegie Mellon University. Pokud se tento systém osvědčí v praxi, bude mít dopad jak na výuku programování, tak na softwarový průmysl, protože psaní a úprava kódu se stanou základní schopností AI, nikoli výhradně lidským úkonem.

Jak funguje SSR systém

SSR systém využívá jeden rozsáhlý jazykový model (LLM), který zastává dvě různé role – „vkladač chyby“ a „řešitel chyby“. Když model hraje roli vkladače chyby, úmyslně záměrně vkládá chyby do kódu, například odstraněním řádku, změnou logiky nebo opakováním starých změn. Když však model pracuje jako řešitel, identifikuje tyto chyby a vytváří správný kód. Tento proces se opakuje, což umožňuje AI sama se učit nové vzory a řešení kódování.

Tentokrát byl výcvik prováděn v open-source repozitářích a Docker sandboxových prostředích, aby model mohl bezpečně experimentovat a učit se z reálných kódových základů. Open-source repozitář je veřejný úložiště kódu, které může každý prohlížet, používat a upravovat, zatímco Docker sandboxové prostředí je bezpečné a izolované místo, kde je možné spouštět kód bez rizika poškození systému.

Jaký je rozdíl oproti tradičním systémům

Dosud byli AI kódovací agenti školeni na datech napsaných lidmi. Tyto systémy měly omezené možnosti, protože modely se učily pouze z existujících příkladů. SSR tento závislost na starých datech ruší. Tento systém místo toho hledá nové problémy sám a také si hledá svá vlastní řešení.

Podle Meta SSR překonalo staré záznamy v oblíbených benchmarkových testech SWE-Bench Verified a SWE-Bench Pro. V testu Verified dosáhl o 10,4 bodu více než nejlepší předchozí systémy, zatímco v testu Pro získal o 7,8 bodu více. Tento výkon byl lepší než modely trénované na velkém objemu lidských dat.