Hoe Murmel presteert op sprekers uit verschillende provincies
Een methodologiebeschrijving van de Murmel ASR-benchmark op Tweede Kamer-debatten: welke audio is gebruikt, welke modellen zijn vergeleken, hoe de metadata is verzameld, en welke beperkingen er aan de cijfers kleven.
Dit document beschrijft hoe de cijfers in de Murmel ASR-benchmark tot stand zijn gekomen. Het is bedoeld als naslagwerk: een onderzoeker, journalist of overheidsmedewerker die de getallen wil controleren of reproduceren, vindt hier de gebruikte audio, de modellen, de evaluatieprocedure en de beperkingen van de aanpak.
1. Audio
De testset bestaat uit opnames van publiek beschikbare Tweede Kamer-debatten. Sample-eigenschappen:
- 1.662 audiosegmenten, samen 8,9 uur (32.200 seconden) spraak.
- 225 unieke sprekers, verdeeld over 79 verschillende debatten.
- Gemiddelde duur per segment: 19,4 seconden.
- Originele bron: video- en audiostreams van tweedekamer.nl, gesegmenteerd op spreekbeurt.
- Selectie: willekeurige steekproef uit debatten waarvan de opnamedatum ná de trainingsdata-cut-off ligt van het meest recent gepubliceerde model in de vergelijking. Hierdoor zit geen van de geteste segmenten in de trainingsdata van een van de modellen.
- Geen filtering op audiokwaliteit, spreker, partij, geslacht of geboorteplaats. Wel een minimumduur (3 s) en maximumduur (45 s) per segment, om degeneratie van WER bij extreem korte fragmenten te beperken.
2. Geteste modellen
Zeven systemen, allemaal in hun officieel gepubliceerde gewichten en standaardconfiguratie:
- Parakeet TDT v3 (NVIDIA)
- Qwen3-ASR 1.7B (Alibaba)
- Voxtral Small (Mistral)
- Whisper Large v3 (OpenAI)
- Whisper Large v3 Turbo (OpenAI)
- Whisper Large v3 Dutch fine-tuned (third-party Nederlands fine-tune)
- Murmel v1 (getraind door The AI Factory)
Elk model heeft dezelfde audio in dezelfde volgorde en kwaliteit ontvangen. Geen taalprompt of system-instructie; alleen taalcode nl waar het model dat ondersteunt.
3. Evaluatiemetriek
- Metriek: Word Error Rate (WER), gedefinieerd als (substituties + invoegingen + deletions) / aantal referentiewoorden.
- Tekstnormalisatie vóór WER: lowercasing, verwijderen van punctuatie, normaliseren van veelvoorkomende afkortingen en getallen, weghalen van filler-tokens zoals "eh" en "uh". Exact dezelfde routine voor alle modellen en voor de referentie.
- Referentietranscripten: officiële Handelingen van de Tweede Kamer, met handmatige correctie van duidelijke transcriptie- of OCR-fouten.
- Common-sample-filter: alleen segmenten waarvoor alle zeven modellen een niet-lege output produceerden zijn meegenomen (n=1.662). Dit voorkomt dat één model door uitval bevoor- of benadeeld wordt.
4. Belangrijke kanttekening: geboorteprovincie ≠ accent
De uitsplitsing per geboorteprovincie wordt vaak gelezen als een accentmeting. Dat klopt niet één-op-één. Niet iedereen die in een bepaalde provincie geboren is, spreekt met het regionale accent van die provincie. Veel sprekers:
- verhuisden op jonge leeftijd naar een andere regio;
- volgden onderwijs of een carrière waarin het accent richting Algemeen Nederlands verschoof;
- hebben een mengvorm van meerdere regionale invloeden.
De provinciekolommen in de resultatentabel zijn dus een proxy voor de gemiddelde accentvariatie binnen die geboortegroep, niet een meting van het accent zelf. Een zuivere accentmeting zou vereisen dat menselijke beoordelaars elke opname labelen op fonetische kenmerken; dat valt buiten de scope van deze benchmark.
De cijfers moeten daarom gelezen worden als: "voor sprekers met geboorteprovincie X — een groep die gemiddeld bepaalde accentkenmerken vaker bevat — meet WER Y%". Niet als: "het accent van provincie X levert WER Y% op".
5. Resultaten per geboorteprovincie
Onderstaande tabel toont de WER per model, gegroepeerd op geboorteprovincie van de spreker. Lager is beter.
| Geboorteprovincie | Murmel | Whisper Turbo | Whisper Large v3 | Voxtral Small | Qwen3 1.7B | Whisper L-v3 FT |
|---|---|---|---|---|---|---|
| Groningen (n=41) | 6,4% | 12,3% | 12,9% | 9,3% | 10,6% | 17,1% |
| Zeeland (n=8) | 9,8% | 20,7% | 21,6% | 20,7% | 14,4% | 23,9% |
| Overijssel (n=150) | 13,9% | 18,8% | 18,5% | 18,1% | 19,0% | 22,9% |
| Limburg (n=80) | 14,6% | 18,1% | 18,8% | 17,9% | 19,7% | 23,9% |
| Noord-Brabant (n=106) | 15,3% | 19,4% | 20,5% | 19,1% | 20,3% | 23,7% |
| Noord-Holland (n=257) | 15,6% | 19,9% | 20,2% | 20,3% | 21,3% | 26,8% |
| Zuid-Holland (n=342) | 16,0% | 19,2% | 20,4% | 19,2% | 20,8% | 24,8% |
| Drenthe (n=30) | 16,8% | 19,9% | 20,4% | 19,5% | 22,0% | 27,9% |
| Friesland / Fryslân (n=38) | 19,5% | 24,2% | 23,2% | 23,7% | 23,4% | 26,9% |
| Utrecht (n=117) | 19,7% | 23,1% | 22,9% | 22,8% | 24,6% | 27,8% |
| Gelderland (n=201) | 21,2% | 22,8% | 21,5% | 21,5% | 22,1% | 26,4% |
6. Beperkingen van de meting
- Geboorteplaats ≠ accent. Zie sectie 5. De provinciecijfers zijn een proxy, geen directe accentmeting.
- Sample-grootte verschilt per provincie. Zeeland (n=8) en Drenthe (n=30) hebben veel grotere onzekerheidsmarges dan Zuid-Holland (n=342). Vergelijkingen tussen kleine provincies moeten met voorzichtigheid worden gemaakt.
- Code-switching, geen accent-effect. De relatief hoge WER in Friesland / Fryslân hangt waarschijnlijk samen met sprekers die wisselen tussen Nederlands en Fries binnen één zin. Dat is een taalmix-effect, niet een accent-effect.
- Procedurevergaderingen. Korte, technische zinnen en sprekers die door elkaar praten leveren bij alle zeven modellen significant hogere WER op. Deze segmenten zitten in de testset; ze drukken de gemiddelden, maar niet selectief voor één model.
- Domein. Tweede Kamer-audio is relatief formeel en heeft een redelijke microfoonkwaliteit. Resultaten op call-center-, veld- of zorgcontextaudio kunnen anders uitvallen.
- Onbekende metadata. Voor 17–22% van de spraaktijd is geboorteland of -provincie onbekend. Die zit in een aparte "Unknown"-categorie en is uitgesloten van de provincierijen in de tabel.
- Referentiekwaliteit. De officiële Handelingen zijn handmatig samengesteld, maar bevatten af en toe transcriptiefouten. Waar deze met zekerheid herkend werden, zijn ze gecorrigeerd; restfouten zijn niet uit te sluiten.
We werken continu aan het verbeteren van Murmel. Ideeën of input? Neem contact op!
Murmel is kosteloos te proberen — 30 minuten transcriptie inbegrepen, geen creditcard nodig. Maak een account aan en test het direct op je eigen audio.