Entity matching

Författare:

  • Johan Dahlin

Publiceringsdatum: 2012-03-13

Rapportnummer: FOI-R--3265--SE

Sidor: 104

Skriven på: Engelska

Nyckelord:

  • matchning av dataposter
  • identifiering av dupletter
  • entitetsmatchning
  • ensembleklassificering
  • nodlikhet
  • datafusion
  • informationsfusion

Sammanfattning

Denna rapport innehåller en genomgång och diskussion av tidigare arbeten inom entitetsmatchning samt aktuella implementationer av dessa i form av olika programvaror. Entitetsmatchning använder strängmatchande metoder som ofta kallas fältmatchningsmetoder för att hitta liknande textsträngar som kan bestå av exempelvis liknande namn eller adresser. Dessa fältmetoder används ofta tillsammans med olika klassificeringsmetoder för att avgöra om strängar (eller hela den posten som strängarna är en del av) är matchande eller inte. Dessa klassificeringsmetoder innefattar både övervakade (supervised) och oövervakade (unsupervised) metoder som har ursprung i statistik och maskininlärning. Rapporten föreslår att man även kan använda andra typer av klassificerare som inkluderar nodlikheter och text mining-metoder för att generera ytterligare bevis på att två entiteter är matchande. Nodlikhet studeras i nätverksanalys och syftar till att identifiera noder som delar en stor andel gemensamma grannar, vilket visar att entiteterna har liknande sociala nätverk eller kommunikationsvanor. Text mining-metoder är användbara för att hitta liknande dokument och andra skriftliga längre texter, vilket tyder på att två entiteter har samma språkbruk eller skriver om samma ämnen. Några små experimentella utväderingar presenteras även i rapporten, där de föreslagna metoderna appliceras på citeringsdata från två olika källor. Slutligen diskuteras om metoder från datafusion kan användas för att kombinera dessa nya föreslagna metoder tillsammans med traditionella fältmatchningsmetoder för att skapa en ensemble av klassificerare.