Meny

Totalförsvarets forskningsinstitut

31 maj

AlphaZero lär sig själv att bli världs­bäst

Optimeringsalgoritmer kan lära upp sig själva, så bra att de kan bli världsmästare i strategispel som schack eller go. FOI har studerat hur optimeringsalgoritmen AlphaZero arbetar och vilken nyttan är för den svenska Försvarsmakten. Men Risk-spelarna ska kanske inte känna sig allt för hotade ännu.

Schackpjäser

Optimeringsalgoritmen AlphaZero, kan spela strategispel som schack, go och shogi. Det med en slagkraft som lämnar schackdatorer och människor långt på efterkälken. Bild: totojang1977/Shutterstock.

När algoritmen AlphaGo besegrade världsmästaren i det kinesiska spelet go var det en sensation större än när schackdatorerna slog schackmästarna. Framför allt för att AlphaGo är en optimeringsalgoritm som lärt sig spelet genom att träna med sig själv, när traditionella schackdatorer programmeras av människor.

Snart utvecklades AlphaGo till en generell version döpt till AlphaZero, som också kan spela strategispel som schack och shogi. Det med en slagkraft som lämnar schackdatorer och människor långt på efterkälken. Människans bidrag är att tillhandahålla spelplan och att förklara reglerna för algoritmen.

Hög status bland militärer

I många militära kretsar har strategispel en hög status. De preussiska officerarna tränade genom att spela schackliknande brädspel. I Sverige har spelen ofta haft lite lösare former, där de mer liknat rollspel. Spelen används både för att öva inför en operation eller för att utveckla taktik. I FOI-rapporten Krigsspel med AlphaZero berättas exempelvis om att spel användes i förberedelserna till invasionen av Irak 1990 och i jakten på Usama bin Ladin.

AlphaGos framgångar satte särskild fart på den kinesiska militären.

– Go har en särskild status i militära kretsar i Kina. Militärer spelar go eftersom spelet anses träna strategiskt tänkande, berättar Mika Cohen, som tillsammans med Farzad Kamrani, Fredrik Bissmarck och Peter Hammar skrivit rapporten som bygger på forskning gjord i samarbete med studenter från KTH.

För försvarsmakter borde AlphaZero och dess efterföljare kunna användas för att avlasta roller vid övningar, så att exempelvis ett motspel inte kräver stora mängder spelade motståndare. Algoritmen antas också kunna driva analytiska spel, där den tar fram planering och fungerar som beslutsstöd. Och, hoppas en del, hittar helt nya strategier.

– Vi har exempelvis sett i schack att AlphaZero över en natt hittar en strategi som människor förbisett i århundraden. Det finns förhoppningar om att det ska kunna fungera så även militärt, säger Mika Cohen.

Gick sämre i Risk

FOI-forskarna testade också i ett mindre försök att låta AlphaZero spela det klassiska brädspelet Risk. Här klarade sig algoritmen sämre.

– Den klarade sig visserligen bättre än annan AI för Risk. Men Risk saknar fast rutindelning och involverar mycket slump, vilket gör det svårare för AlphaZero. Men jag vill påstå att den spelar på expertnivå, säger Mika Cohen.

Men det viktiga för detta forskningsprojekt var i första hand att FOI:s forskare skulle bekanta sig med AlphaZero.

– Därmed kan vi också introducera AlphaZero för den svenska Försvarsmakten, som vet att andra länders försvarsmakter håller på att tillämpa.

Forskarna letar nu efter former att utveckla AlphaZero för krigsspel.

– Dold information, eller krigsdimma, utgör en viktig aspekt i många krigsspel. Det innebär att olika spelare ser olika saker, att spelbrädet inte är helt öppet. Den dolda informationen gör det fördelaktigt, ofta rent av nödvändigt, att spela oförutsägbart, att överraska, bluffa och vilseleda. Vi vill lära oss hur man utvecklar AlphaZero för spel med dold information, säger Mika Cohen.

En optimeringsalgoritm som AlphaZero lär sig genom att öva med sig själv. I spel som go och schack är regler och förutsättningar allt den får. Till en början är den inte speciellt duktig, men den lär sig av sina misstag och blir allt bättre. Den kan i träningen ges olika förutsättningar, exempelvis hur snabbt den ska spela och hur många drag framåt den ska planera för. Med en superdator kan den spela ett närmast oändligt antal spel. När det sedan blir dags för match räcker det dock med en vanlig laptop. FOI:s Mika Cohen jämför med en schackmästare som inte behöver tänka speciellt länge på ett drag på tävling, eftersom träningen har gjorts hemma.

Dela sidan