Beszédkutatás 2013 (2013)

Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai

264 Olaszy Gábor A szöveg is lehet hibás (például kimarad egy betű, elmarad egy rag stb.), de a felolvasó személy automatikusan korrigálja azt az ejtés során. Ilyenkor a kényszerített felismerő program a szöveg karaktereit veszi figyelembe, és akár több hangon keresztül is hamis hanghatárokat jelöl meg, mivel a szöveg által megadott beszédhangra jellemző akusztikai tartalom nem egyezik az ej­tett tartalommal. A 2. ábrán látható egy ilyen példa, a karakterhibás szöveg: felségét; a felolvasott szó helyesen: feleségét. Ezt a hibát például a gépi hiba­kereső segítő algoritmusunk a feltűnően hosszú hangidőtartam alapján találta gyanúsnak, és a vizuális ellenőrzés során ki is derült, hogy kimaradt egy hangjelölés. Programhiba is előfordult a kényszerített beszédfelismerő műkö­désében. Ilyenkor a helyes ortografikus szöveg fonetikai átírása nem korrekt, és más hangokat tesz a hangsorba a gép, mint amilyenek a szövegből adód­nának. A bemondó viszont helyesen olvassa fel a szöveget, tehát a hangazo­nosítások a spektrális tartalom és a hangjelölés alapján nem lesznek korrek­tek. Ilyenkor a felismerő csak több hang után tud újra visszatérni a helyes döntésekhez (3. ábra). A példákból látható, hogy az annotálás és a címkézés utólagos ellenőrzése és javítása számos későbbi munkához szükségszerű, és emeli a beszédadatbázis tudományos értékét. Az adatbázis szolgáltatásai Az adatbázisban tárolt adatok a következők: Szöveg: a mondat helyesírással megadott formája xx.txt fájlban. Fonetikus átirat: a szöveges forma alapján készült el, és a felolvasott mon­dat (xx.wav fájl) pontos tartalmát rögzíti a négyféle jelölési csoporttal. Az au­tomatikus feldolgozásból eredő annotálási és címkézési adatokat az 1. ábra Példa egy felesleges szünetre (fent) és a kézi javítás utáni helyzetre (lent)

Next