Introduction to Multimodal Models

Författare:

  • Simon Enkido Bethdavid
  • Helena Björnesjö
  • Tove Gustavi
  • Hanna Lilja
  • Magnus Rosell
  • Johan Sabel
  • Edward Tjörnhammar
  • Sebastian Öberg

Publiceringsdatum: 2024-05-21

Rapportnummer: FOI-R--5505--SE

Sidor: 52

Skriven på: Engelska

Forskningsområde:

  • Ledningsteknologi

Nyckelord:

  • artificiell intelligens
  • maskininlärning
  • djupinlärning
  • djupa neuronnät
  • multimodala modeller
  • språkmodeller

Sammanfattning

Under det senaste årtiondet har det gjorts betydande framsteg inom utvecklingen av maskininlärningsmodeller, baserade på artificiella neurala nätverk. De flesta av dessa modeller är konstruerade för att hantera en enda så kallad modalitet. En modalitet kan betraktas som en kommunikationskanal eller datatyp, där text och bild är exempel på två olika modaliteter. De senaste åren har emellertid maskininlärningsmodeller, baserade på den så kallade transformer-arkitekturen, uppvisat imponerande resultat på uppgifter som kräver att två eller flera modaliteter behandlas gemensamt. De multimodala egenskaperna gör dessa modeller väl lämpade att hantera en mängd olika problem som uppstår i vår multimodala värld. De multimodala modeller som hittills rönt störst uppmärksamhet är de som kombinerar text och bild för att exempelvis generera bilder baserade på textbeskrivningar eller svara på frågor om bilder. Parallellt utvecklas modeller som kombinerar text och video. Det finns även modeller som kombinerar text och ljud för att generera musik, eller för att konvertera text till tal och tal till text. Vissa modeller har förmåga att kombinera fler än två modaliteter och lägger grunden för nya lösningar på komplicerade problem inom bland annat datafusion och robotik. Industriell robotik fungerar väl i kontrollerade miljöer, men mer generell robotik i okontrollerade miljöer kräver möjligheten till flexibel uppgifts- och rörelseplanering baserad på data från olika typer av sensorer; något som multimodala modeller redan nu visar lovande förmåga att kunna åstadkomma. Denna rapport ger en översikt över den senaste utvecklingen inom forskningsfältet Multimodala Neuronnätsmodeller och beskriver ett urval av de modeller som utvecklats de senaste åren. Rapporten fokuserar på modeller som behandlar mediedata, det vill säga data som primärt är avsedd för mänsklig kommunikation. Text, bild, ljud och video är exempel på mediedata. Även om dagens multimodala modeller har begränsningar så är deras förmåga till automatiskt multimodalt resonerande, åtminstone i vissa avseenden, så imponerande att vi måste ställa oss frågan: hur kommer multimodala maskininlärningsmodeller att påverka våra liv under kommande år?