Utredning av stödverktyg och metodik för utvärdering av AI-metoder

Författare:

  • Sidney Rydström
  • Ronnie Johansson

Publiceringsdatum: 2023-04-12

Rapportnummer: FOI-R--5453--SE

Sidor: 42

Skriven på: Svenska

Forskningsområde:

  • Ledningsteknologi

Nyckelord:

  • artificiell intelligens
  • AI
  • maskininlärning
  • utvärdering
  • riktmärkning
  • reproducerbarhet
  • stödverktyg

Sammanfattning

Utveckling av metoder avseende artificiell intelligens (AI) sker i imponerande fart vilket medför omfattande krav på effektiv utredning gällande möjlig nytta och tillämpning. Utredningen presenterad i den här rapporten baseras på utvärdering av AI-metoder genom tillämpning av verktyg för jämförelse, prestandamätning och demonstration. Området för hur man ska jämföra och utvärdera AI-system bedöms vara stort och sakna ett universellt verktyg varför det i dagsläget krävs domänspecifika resurser. Emellertid har nyttiga beröringspunkter identifierats så som reproducerbarhet genom exempelvis versionshantering, katalogisering av experiment, och strömlinjeformad dokumentering. För att matcha områdets imponerande utvecklingstakt bedöms det avgörande att tillämpa verktyg med god flexibilitet för användarna. Riktmärkning används vanligen som benämning för utvärdering av prestanda genom jämförelser. Utöver en generell beskrivning av användning av riktmärkning inom AI, och delmängden maskininlärning (ML) specifikt, redogör rapporten för verktyg avsedda för framtagning och sammanställning av resultat, samt vidare jämförelser. Riktmärkning baseras vanligen på datamängder vilket medför begränsningar varför omgivningsbaserad utvärdering är kartlagd för exempelvis utvärdering av förstärkt inlärning och multiagentsystem. Inom industrin tillämpas MLOps som metodpraxis för utveckling, distribution och produktionssättning av ML-modeller, vanligen genom teknikinfrastruktur benämnd AI/ML-systemplattformar med varierande omfattningsgrader. Vissa delar av systemplattformarna bedöms relevanta men alternativen är många varför verktyg för att kartlägga och jämföra tillgängliga plattformar presenteras