Från ostrukturerad text till information - Kunskapsgrafer och RAG för analys av nyhetsrapportering

Författare:

  • Helena Björnesjö
  • Ulrika Wickenberg Bolin
  • Tove Gustavi
  • Peter Hammar
  • Sidney Rydström

Publiceringsdatum: 2025-10-02

Rapportnummer: FOI-R--5719--SE

Sidor: 61

Skriven på: Svenska

Forskningsområde:

  • Ledningsteknologi

Nyckelord:

  • kunskapsgraf
  • RAG
  • Retrieval Augmented Generation
  • informationsextraktion
  • entitetsmatchning
  • språkmodeller
  • LLM

Sammanfattning

Nyhetsartiklar utgör en viktig källa för öppen underrättelseinformation. En sammanställning av vad som publiceras om ett ämne i nationell eller internationell nyhetsmedia kan ge en initial lägesuppfattning och tjäna som utgångspunkt för fördjupad analys. Omfattningen av den nyhetsrapportering som är tillgänglig genom webbaserade nyhetssidor är emellertid så stor att det krävs stödverktyg för att få överblick. Två metoder som kan användas för att automatisera delar av datahanteringen och stödja analysen är semi-automatiskt skapade kunskapsgrafer och Retrieval Augmented Generation (RAG). I kunskapsgrafer lagras information explicit på ett mer eller mindre strukturerat grafformat, vilket gör det lätt att generera statistik och utforska samband mellan olika entiteter. Först måste emellertid relevant information extraheras ur nyhetsartiklarna och läggas in i kunskapsgrafen, vilket kan vara en utmaning. RAG gör det istället möjligt för en användare att interagera direkt med nyhetsartiklarna genom ett chatt-baserat användargränssnitt. I gränssnittet kan användaren ställa frågor i fritext och få svar formulerade på naturligt språk, baserat på de tillgängliga nyhetsartiklarna. Denna rapport presenterar de två metoderna, samt beskriver arbetet med att implementera dem i praktiken. En slutsats från implementationsarbetet är att språkmodeller kan användas för att effektivt domän- eller tillämpningsanpassa en kunskapsgraf som byggts upp med hjälp av förtränade och beprövade - men mindre flexibla - maskininlärningsmodeller. Vidare har småskaliga försök med de implementerade prototyperna visat att semi-automatiskt genererade kunskapsgrafer och RAG har potential att komplettera varandra som analysstöd genom sina olika styrkor och svagheter. Arbetet som beskrivs i denna rapport utgör första delen av ett större arbete som syftar till att undersöka de två metodernas användbarhet som analysstöd i en underrättelsekontext. Som underlag för arbetet användes en datamängd bestående av nyhetstexter med koppling till kriget i Ukraina.