Semi-automatisk datadriven webbanalys: forskning, prototyputveckling och undersökningar

Författare:

  • Magnus Rosell
  • Ulrika Wickenberg Bolin
  • Joel Brynielsson
  • Marianela Garcia Lozano
  • David Gustafsson
  • Andreas Horndahl
  • Maja Karasalo
  • Hanna Lilja
  • Björn Pelzer
  • Karl-Göran Stenborg
  • Erik Valldor
  • Stefan Varga

Publiceringsdatum: 2019-02-08

Rapportnummer: FOI-R--4692--SE

Sidor: 73

Skriven på: Svenska

Forskningsområde:

  • Informationssäkerhet
  • Ledningsteknologi

Nyckelord:

  • datadriven analys
  • underrättelseanalys
  • omvärldsanalys
  • vilseledning
  • påverkansoperation
  • sociala medier
  • webbanalys
  • textanalys
  • bildanalys
  • AI
  • maskininlärning
  • språkteknologi

Sammanfattning

Denna rapport beskriver metoder och tekniker för semi-automatisk datadriven underrättelseanalys baserad på ostrukturerad text- och bilddata från webben. Den sammanfattar verksamheten i det treåriga projektet TIA (Teknik för informationsfusion och analys, 2016 - 2018). Enkelt uttryckt har vi studerat datalogiska metoder som kan stödja underrättelseanalytiker i deras arbete, konstruerat ett prototypverktyg i vilket dessa metoder används, samt genomfört workshops och experiment tillsammans med analytiker, i vilka de har provat och använt denna prototyp. Inom projektet har vi bedrivit forskning och utvecklat metoder inom automatisk textoch bildanalys, bland annat med hjälp av djupa neuronnät och andra typer av maskininlärning. Vi har utvecklat detektorer för flera olika typer av objekt i bilder. Inom automatisk textanalys har vi bland annat studerat metoder för att bedöma texters sentiment (om de är positiva eller negativa), bedöma ställningstaganden till rykten och bedöma trovärdigheten för texter. Vi har också utvecklat två regelspråk som kan användas för att detektera förekomster av uttryck och kombinationer av fakta i text. Detta gör det möjligt att relativt enkelt följa många olika teman, vilket vi också gjort i små försök med data från webben (så kallad webbdata). Projektets kanske största bidrag är utvecklingen av en prototyp för semi-automatisk datadriven underrättelseanalys baserad på webbdata. Den består av ett antal komponenter, som täcker allt från metoder för nedladdning av data från webben, via analyskomponenter för att klassificera innehåll i text- och bilddata, till visualisering. Komponenterna kan kombineras på olika vis för att skapa nya sätt att behandla och visualisera data. Prototypen har fyllt flera funktioner i projektet. Genom att implementera flera av de metoder vi bedrivit forskning om (som komponenter i prototypen) har vi kunnat prova hur väl de fungerar på ny och realistisk data. På presentationer och i workshops med analytiker har vi också kunnat visa metodernas möjligheter och begränsningar. Slutligen har vi genomfört ett första användbarhetsexperiment med analytiker för att försöka förstå hur underrättelseanalys på bästa sätt kan stödjas av dessa metoder. Prototypen och de bakomliggande metoderna har genomgående ansetts intressanta. Vi har för avsikt att fortsätta med forskning om automatisk text- och bildanalys, samt utveckling av prototypen i efterföljande projekt.