Beszédkutatás 2013 (2013)

Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai

Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése... 263 az eredményt, és ha kellett, javítottuk. Ezzel létrehoztuk az első magyar hang­súlyjelölési szöveges adattárat. A PPBA szerkezeti felépítése egységes, minden beszélő adatai ugyanolyan könyvtárszerkezettel rendelkeznek, tehát a párhuzamos adatkeresés és az esetleges összehasonlítás biztosított. A precíziós feldolgozás és a tisztán gépi címkézés kérdésköre Vannak olyan kutatások, amelyek igénylik a precíz annotálást és címké­zést. Ilyenek lehetnek a hangidőtartamokkal és a beszéd egyéb időszerkezeti elemeivel kapcsolatos statisztikai mérések. A beszéd spektrális felépítésével kapcsolatos statisztikai kutatások is ide tartoznak, például a formánsmenetek modellezése, a zárfelpattanások vizsgálata stb. Ha ilyen vizsgálatokat egy be­szédadatbázisból származó adathalmazra akar alapozni a kutató, akkor joggal várja el, hogy minden hanghatár címkéje korrekt időpontra legyen bejelölve, valamint azt, hogy a jelölt hangnak megfelelő akusztikai tartalom legyen a bejelölt beszédszakaszon. A tisztán gépi annotálás egyik hátránya lehet, hogy a mondatkezdő zöngét­len zárhangok virtuális kezdetét a gépi címkézés általában nem jelöli. Ugyan­ez a helyzet a beszédszüneteket jelölő „sil” címkék utáni ilyen hangokra is. Az ilyen esetekben a hangsorkezdő zöngétlen zárhang kezdési pontját jelentő hanghatárcímkét balra kell mozgatni, hogy a virtuális hangidőtartamot érzé­keltessük, vagyis a nem látható néma fázist is a hanghoz jelöljük. Ha nem így van jelölve, akkor például hangidőtartam-méréseknél hibásan mérjük ezeknek a hangoknak az időtartamát (túl rövidre). A VV, VVV kapcsolatok határát csak vizuális ellenőrzéssel és meghallga­tással lehet jó közelítéssel bejelölni. A fonetikai átíró program is hibázhat, nem azt a hangot jelöli az adott he­lyen, ami elhangzik a hangsorban (arccsont, technika, meggyújt). A gép által automatikusan jelölt „sil” szakaszok esetében a beszédhangokon túli részek (összefoglalva: szünetek) gépi jelölésének kritériumrendszere nem kiforrott. Gyakran kell a kézi ellenőrzés során „sil”-t betenni, kivenni, a ,,sil”-hez jelölt határ helyét módosítani. A kényszerített felismerő gyakran jelöl a hanghul­lámban automatikusan olyan „sil”-szakaszt, ami valójában nem szünetet rep­rezentál, hanem egy hang része (1. ábra). Ennek ellenkezője is előfordult, hogy be kellett iktatni egy sil jelölést. Emberi mulasztásból adódó hibák is keletkeznek egy nagyméretű beszéd­adatbázis készítése során. A felolvasó személy mást mond, mint a szöveg. Ez még akkor is előfordul, ha a szöveg teljesen helyesen van írva. A beszélő au­tomatikusan átfogalmazza kissé a leírt mondatot, és más szavakkal mondja azt (például beszúr egy névelőt, és elhagy egy ragot, de a mondat teljesen ér­telmes marad). Előfordult, hogy egy mondatban a fogok helyett fognak-ot mondott, egy másikban a valamilyen helyett milyen-­ ejtett a bemondó. Ezt is korrigálni kell.

Next