Content-based image retrieval. An introduction to literature and applications

Författare:

  • Jörgen Ahlberg
  • Fredrik Johansson
  • Ronnie Johansson
  • Magnus Jändel
  • Anna Linderhed
  • Pontus Svenson
  • Gustav Tolt

Publiceringsdatum: 2012-05-28

Rapportnummer: FOI-R--3395--SE

Sidor: 44

Skriven på: Engelska

Nyckelord:

  • CBIR
  • CBIR-system
  • content-based
  • image retrieval
  • information retrieval.

Sammanfattning

Att söka i bildsamlingar baserat på visuellt innehåll är potentiellt en mycket kraftfull teknik. Problemområdet benämns Content-Based Image Retrieval, CBIR, och har lockat forskare från olika forskningsområden, bland annat datorseende, artificiell intelligens och maskininlärning. Det relativt unga forskningsområdet CBIR har resulterat i en enorm tillväxt av tillgängliga forskningsartiklar i ämnet de senaste åren. Huvudsyftet med denna rapport är att ge en kort introduktion till CBIR, litteratur och applikationer. Rapporten innehåller en översikt över användbara metoder och presenterar några av de största utmaningarna inom CBIR. De flesta av de föreslagna CBIR-metoderna förlitar sig på ett förbehandlingssteg med feature extraction, som syftar till att utvinna lämpliga bildegenskaper för att framgångsrikt kunna hämta relevanta bilder ur en databas som innehåller tusentals eller miljontals bilder. Även om lågnivå-funktioner som färg, textur och form är direkt relaterade till perceptuella aspekter av bildinnehåll, finns det också högnivå-funktioner i bilder som inte extraheras lika enkelt från det visuella innehållet. Att automatiskt dra semantiskt meningsfulla slutsatser från bilder är en svår utmaning som inte har några perfekta lösningar än. Det finns dock flera försök och förslag om hur man extraherar högnivåbegrepp från lågnivåfunktioner och beskriver dessa med hjälp av ontologier. Ontologier är formella beskrivningar av begrepp och relationer i en domän som används för att överbrygga det semantiska gapet. Hur sökfrågan skapas är viktigt för resultatet av sökningen. Mycket arbete sker på frågespråk för multimediasökningar baserade på metadata. Mindre görs på det svårare problemet att bara använda bilddata i sökfrågan. Ett antal kommersiella system finns på marknaden som har CBIR-kapacitet. Vi ger en begränsad översikt över system med CBIR-kapacitet omfattande prototyper, forskningssystem och kommersiella system. CBIR är också intressant för videodata, där man förutom att tillämpa CBIR-tekniker för enskilda bildrutor kan använda den temporala ordningen på bilderna för att upptäcka vissa handlingar, rörelser eller förändringar. Försvarsmakten har idag tillgång till stora mängder av bild-, video- och filmmaterial från internationella uppdrag, men saknar förmåga att effektivt söka i dessa arkiv. Det finns flera olika tillämpningsområden av intresse för det svenska försvaret, särskilt för counter-IED och analys för flygspaning. En slutsats från denna studie är att medan det faktiskt finns stora potentiella fördelar med att använda CBIR kräver förverkligandet av CBIR-system för militära applikationer att potentiella slutanvändare tar aktiv del i utvecklingen för att ta reda på var CBIR-funktionalitet har störst påverkan. Rapporten avslutas med en kort diskussion om de viktigaste slutsatserna från denna studie och presenterar våra tankar för nästa steg för att utreda behovet av att ge det svenska försvaret CBIR-förmågor. I en bilaga finns sammanfattningar av artiklar, tillsammans med en lista över publikationer som är resultatet av den litteratursökning som genomförts i projektet.