Cluster Management of Scientific Literature in HSTOOL

Författare:

  • Johan Schubert
  • Ulrika Wickenberg Bolin

Publiceringsdatum: 2021-11-03

Rapportnummer: FOI-R--5178--SE

Sidor: 18

Skriven på: Engelska

Forskningsområde:

  • Övrigt

Nyckelord:

  • avskanning av forskningsfronten
  • horizon scanning
  • scientometri
  • Gibbs sampling
  • Dirichlet multinomial mixture model
  • entropi
  • klustring
  • HSTOOL

Sammanfattning

I den här rapporten utvidgar vi en tidigare utvecklad metodik för avskanning av forskningsfronten (horizon scanning) av vetenskaplig litteratur vars syfte är att upptäcka vetenskapliga trender. Med denna metodik grupperas vetenskapliga artiklar automatiskt inom ett brett definierat forskningsfält baserat på ämne. Vi utvecklar här en ny metod för att låta en analytiker hantera antalet kluster som följer av den automatiska grupperingen av artiklar. Metoden utnyttjar att det går att beräkna ett informationsteoretiskt avstånd mellan alla möjliga par av kluster. Var och en av de vetenskapliga artiklarna har en sannolikhetsfördelning av tillhörighet över alla möjliga kluster som härrör från klusterprocessen. Med hjälp av dessa undersöker vi möjliga parvisa sammanslagningar mellan alla par av befintliga kluster och beräknar entropierna av sannolikhetsfördelningarna av alla artiklar efter varje möjlig sammanslagning av två kluster. Dessa entropier visualiseras i ett dendritiskt träd och ett klusterdiagram. Sammanslagningen med minimal total entropi är det klusterpar som föreslås slås samman.