Interview met Marijn Huijbregts van SpraakLab

Hoe werkt spraakherkenning?

“De eerste stap binnen spraakherkenning is het achterhalen van wanneer er wordt gesproken binnen een audio of video bestand.”

SpraakLab en NotuBiz werken al diverse jaren samen door spraaktechnologie in te zetten voor het lokale bestuur. Voor ondertiteling wordt zo gebruik gemaakt van de spraakherkenningssoftware van SpraakLab. Hoog tijd voor een interview met onderzoeker en oprichter van SpraakLab, Marijn Huijbregts.

Hoe is het allemaal begonnen?

SpraakLab is eigenlijk begonnen op verschillende universiteiten. Zo heb ik op de universiteit van Enschede promotieonderzoek gedaan naar het doorzoekbaar maken van videoarchieven en dus het zoeken naar 'wat' er wordt gezegd in grote hoeveelheden audio. Op de universiteit van Nijmegen heb ik enkele jaren later vervolgens onderzoek gedaan naar 'wie' er iets heeft gezegd in een audio opname. Om deze onderzoeken goed te kunnen doen, heb ik in die tijd een eigen spraakherkenner geschreven en door de jaren heen een toolkit opgebouwd aan kennis en software die uiteindelijk niet alleen voor onderzoek, maar ook voor bedrijven interessant was. Om op deze vraag in te spelen, heb ik samen met een collega SpraakLab opgericht om naast het doen van onderzoek mijn eigen ontwikkelde spraaktechnologie ook in de praktijk te implementeren. In 2015 heb ik na diverse jaren van onderzoek uiteindelijk besloten om me volledig te focussen op SpraakLab.


Hoe is de samenwerking met NotuBiz tot stand gekomen?

Toen ik begon met SpraakLab heb ik eigenlijk gewoon koude acquisitie gedaan. Ik heb een mailtje naar info@notubiz.nl gestuurd om een afspraak te maken en zo is het balletje gaan rollen. Er bleek al snel een match te zijn tussen wat ik kon en NotuBiz zou willen en vervolgens zijn we gaan praten over wat een samenwerking dan precies in zou houden. Zo zijn we gestart met ‘wie heeft er iets gezegd’ om sprekers in een raadsvergadering te kunnen herkennen en zijn we nu bezig met ‘wat is er gezegd’, om bijvoorbeeld ondertiteling op basis van spraakherkenning mogelijk te maken.

“Automatische ondertiteling komt tot stand op basis van spraakherkenning waarbij spraak binnen enkele seconden wordt omgezet in tekst.”

Hoe werkt spraakherkenning?

Spraakherkenning werkt tegenwoordig vaak op basis van statistiek en kent daarbij verschillende kennisbronnen waaruit het put om de juiste zinnen op te bouwen. Dat is onder andere grammatica. Door te putten uit een grote bron van data van het geschreven en gesproken woord kan er worden gekeken hoe vaak een bepaalde woorden combinatie voorkomt ten opzichte van een andere combinatie om daar vervolgens een kans aan te geven. Als je bijvoorbeeld ‘ik zit aan’ hebt, is er een groep van woorden die een kans hebben om gezegd te worden waarbij ‘tafel’ waarschijnlijk een grotere statistische kans heeft dan ‘lopen’.


Daarnaast maakt statistische spraakherkenning gebruik van klanken als kennisbron. Onze taal kent verschillende klanken waar zoveel mogelijk voorbeelden van worden verzameld om, net als voor de grammatica, een statistisch model te kunnen maken. Dit zorgt ervoor dat de software weet hoe een bepaalde klank gemiddeld klinkt om woorden en zinnen te kunnen maken. Statistische spraakherkenning maakt als derde kennisbron gebruik van een woordenboek waarin als het ware wordt uitgespeld hoe woorden zijn opgebouwd. Zo weet de software bijvoorbeeld dat het woord ‘hoi’ bestaat uit de letter ‘h’ gevolgd door de letters ‘o’, ‘j’, op basis van uitspraak. Met dit woordenboek kunnen klanken dus gekoppeld worden aan woorden en kunnen uiteindelijk de woorden weer gekoppeld worden aan de grammatica om de juiste zinnen te maken.


Als laatste is voor statistische spraakherkenning ook de zogenaamde ‘zoekruimte’ van belang. Hierin wordt gekeken naar wat er nu precies gezegd is in de tijd. Het kan namelijk voorkomen dat er binnen een audio opname het woord ‘water’ wordt gezegd, gevolgd door het woord ‘fiets’. De software moet daarbij de woorden niet los van elkaar zien omdat het woord ‘water’ eerst komt, maar moet binnen een zin signaleren dat het woord ‘fiets’ daarbij hoort. Daarbij neemt de software als het ware ruimte binnen een opname om te zoeken naar de juiste combinaties.


“Met spraakherkenning is het met een goede kwaliteit audio zelfs mogelijk om voor automatische ondertiteling een even grote nauwkeurigheid te behalen als met menselijke annotatie.”
“Met de hedendaagse technologie is steeds meer mogelijk, waardoor de kwaliteit van automatische ondertiteling door de tijd heen alleen maar zal toenemen.”

Hoe komt automatische ondertiteling tot stand?

Ondertiteling komt tot stand via spraakherkenning. Voor NotuBiz zijn we de afgelopen maanden bezig geweest met on demand ondertiteling, waarbij spraakherkenning achteraf plaatsvindt en er dus voldoende tijd voor de software is om de spraak te ‘decoderen’. Daarnaast zijn we nu bezig met de afronding van live ondertiteling, waarbij de software binnen enkele seconden van spraak woorden moet maken. In beide gevallen worden er door de spraakherkenningssoftware tijdens het decodeerproces tijdscodes aan woorden gehangen waardoor deze op het juiste moment in de audio en/of video opname of stream kunnen worden geplaatst. Vooral voor live ondertiteling is het belangrijk dat er een vorm van vertraging in de uitzending van de audio en/of video stream zit, om de software voldoende tijd te geven om de woorden te herkennen en vervolgens de juiste zinnen te construeren.


Wat is de kwaliteit van automatische ondertiteling?

De kwaliteit van de automatisch gegenereerde ondertiteling hangt erg af van de kwaliteit van de audio en/of video opname of stream. Ruis of echo op de achtergrond speelt bijvoorbeeld een grote rol bij de juiste werking van de spraakherkenningssoftware, maar ook de kwaliteit van de spraak zelf kan een effect hebben op de nauwkeurigheid van de ondertiteling. Omdat de spraakherkenningssoftware is getraind op gemiddelde klanken en uitspraak van woorden, kan het voorkomen dat spraak van sprekers met accenten niet altijd even accuraat wordt herkend. Door het uitspraak woordenboek hierop te trainen, kan de spraakherkenningssoftware echter gaandeweg leren, waardoor ook accenten van sprekers (beter) worden herkend. Hetzelfde geldt voor specifiek jargon of namen van straten en sprekers. Deze training kan zowel vooraf worden gedaan, als over meerdere vergaderingen, waarbij de software bepaalde uitspraken, woorden en namen vanzelf begint te herkennen en steeds makkelijker kan omzetten in tekst en dus correcte ondertiteling.


In de meeste gevallen is de kwaliteit van automatische ondertiteling echter zeer hoog. Met de hedendaagse technologie is steeds meer mogelijk en onze modellen worden door de tijd steeds uitgebreider en daarmee beter. Door de kennisbronnen en modellen die door de spraakherkenningssoftware worden gebruikt specifiek voor een bepaalde gemeente te trainen en de software steeds vaker en langer te laten draaien, is de foutenmarge daarnaast relatief klein en neemt de nauwkeurigheid van de ondertiteling over de tijd steeds verder toe. Zo kan de software zelfs een kwaliteit behalen die evenredig is aan de ondertiteling die wordt gebruikt door mediapartijen als de NPO.


Wat is er nog meer mogelijk met spraaktechnologie?

Naast spraakherkenning om automatisch ondertiteling te genereren, is het ook mogelijk om, zoals eerder gezegd, automatisch sprekers te onderscheiden en herkennen. Daarnaast is het mogelijk om, zoals ik in mijn onderzoek aan de universiteit van Enschede heb gedaan, te zoeken in geluid. Deze mogelijkheden ben ik samen met NotuBiz verder aan het onderzoeken als toepassing binnen de dienstverlening van NotuBiz. Voor de toekomst hoop ik dat het ook mogelijk is om met spraaktechnologie een automatische samenvatting te maken van gesproken woord in plaats van alleen een letterlijke vertaling.

Wat zijn de voordelen van ondertiteling?