Domänanpassning för brusig taligenkänning

Författare:

  • Daniel Oskarsson
  • Hanna Lilja
  • Simon Enkido Bethdavid

Publiceringsdatum: 2023-12-11

Rapportnummer: FOI-R--5523--SE

Sidor: 46

Skriven på: Svenska

Forskningsområde:

  • Övrigt

Nyckelord:

  • tal-till-text
  • taligenkänning
  • talsignalbehandling
  • wav2vec 2.0
  • Whisper
  • domänanpassning
  • CycleGAN
  • robust taligenkänning
  • Transform

Sammanfattning

Polismyndigheten och Säkerhetspolisen har behov av att automatiskt analysera tal i stora mängder av ljuddata, bland annat härrörande från hemliga tvångsmedel som telefonavlyssning och rumsavlyssning. Ett standardförfarande generellt idag är att nyttja stora förtränade maskininlärningsbaserade talmodeller och anpassa dem genom finjustering mot den specifika uppgift som skall lösas. Datakällorna i den aktuella tillämpningen tenderar emellertid att innehålla större inslag av brus och distorsioner än tal inspelat under mer kontrollerade förhållanden. Därför uppstår en fråga om hur förtränade modeller kan anpassas för att åstadkomma förmågan att hantera svårare ljudsignaler än modellerna typiskt är tränade på. Problemet formuleras här som en domänanpassning från en domän med rent tal och tydlig ljudsignal till en domän med tal förvanskat av brus. Härvid antas en begränsad tillgång till beräkningsresurser för modellträning, samt begränsad möjlighet att annotera data i den brusiga domänen. Med denna problemformulering studeras vilka mängder annoterade respektive oannoterade data som krävs för att domänanpassa stora förtränade talbehandlingsmodeller för att nå olika nivåer av prestanda i tal-till-textuppgifter. Därtill genomförs ett försök att träna en generativ modell att transformera data från den brusiga domänen till den renare, det vill säga att reducera brus. I försöken används en datamängd bestående av hundratals timmar tal över telefon på engelska för att representera den domän som modellerna ska anpassas till. Vid träning av den självövervakade modellen wav2vec 2.0 uppnås som väntat bästa resultat när allt tal är annoterat, men det visar sig också att det går att uppnå jämförbara resultat med endast några få timmar annoterat tal och resten oannoterat. Den svagt övervakade modellen Whisper uppnår bättre resultat på testdata än wav2vec 2.0 redan utan finjustering; finjustering ökar dess prestanda ytterligare. Liknande resultat uppnås med så kallad parametereffektiv finjustering, men då med mindre än halva träningstiden och mindre prestandaförlust på andra datamängder. Försöken att träna en generativ modell för att reducera brus avbröts efter att initiala försök inte gav lovande resultat.