Beszédkutatás 2013 (2013)
Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai
Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése... 263 az eredményt, és ha kellett, javítottuk. Ezzel létrehoztuk az első magyar hangsúlyjelölési szöveges adattárat. A PPBA szerkezeti felépítése egységes, minden beszélő adatai ugyanolyan könyvtárszerkezettel rendelkeznek, tehát a párhuzamos adatkeresés és az esetleges összehasonlítás biztosított. A precíziós feldolgozás és a tisztán gépi címkézés kérdésköre Vannak olyan kutatások, amelyek igénylik a precíz annotálást és címkézést. Ilyenek lehetnek a hangidőtartamokkal és a beszéd egyéb időszerkezeti elemeivel kapcsolatos statisztikai mérések. A beszéd spektrális felépítésével kapcsolatos statisztikai kutatások is ide tartoznak, például a formánsmenetek modellezése, a zárfelpattanások vizsgálata stb. Ha ilyen vizsgálatokat egy beszédadatbázisból származó adathalmazra akar alapozni a kutató, akkor joggal várja el, hogy minden hanghatár címkéje korrekt időpontra legyen bejelölve, valamint azt, hogy a jelölt hangnak megfelelő akusztikai tartalom legyen a bejelölt beszédszakaszon. A tisztán gépi annotálás egyik hátránya lehet, hogy a mondatkezdő zöngétlen zárhangok virtuális kezdetét a gépi címkézés általában nem jelöli. Ugyanez a helyzet a beszédszüneteket jelölő „sil” címkék utáni ilyen hangokra is. Az ilyen esetekben a hangsorkezdő zöngétlen zárhang kezdési pontját jelentő hanghatárcímkét balra kell mozgatni, hogy a virtuális hangidőtartamot érzékeltessük, vagyis a nem látható néma fázist is a hanghoz jelöljük. Ha nem így van jelölve, akkor például hangidőtartam-méréseknél hibásan mérjük ezeknek a hangoknak az időtartamát (túl rövidre). A VV, VVV kapcsolatok határát csak vizuális ellenőrzéssel és meghallgatással lehet jó közelítéssel bejelölni. A fonetikai átíró program is hibázhat, nem azt a hangot jelöli az adott helyen, ami elhangzik a hangsorban (arccsont, technika, meggyújt). A gép által automatikusan jelölt „sil” szakaszok esetében a beszédhangokon túli részek (összefoglalva: szünetek) gépi jelölésének kritériumrendszere nem kiforrott. Gyakran kell a kézi ellenőrzés során „sil”-t betenni, kivenni, a ,,sil”-hez jelölt határ helyét módosítani. A kényszerített felismerő gyakran jelöl a hanghullámban automatikusan olyan „sil”-szakaszt, ami valójában nem szünetet reprezentál, hanem egy hang része (1. ábra). Ennek ellenkezője is előfordult, hogy be kellett iktatni egy sil jelölést. Emberi mulasztásból adódó hibák is keletkeznek egy nagyméretű beszédadatbázis készítése során. A felolvasó személy mást mond, mint a szöveg. Ez még akkor is előfordul, ha a szöveg teljesen helyesen van írva. A beszélő automatikusan átfogalmazza kissé a leírt mondatot, és más szavakkal mondja azt (például beszúr egy névelőt, és elhagy egy ragot, de a mondat teljesen értelmes marad). Előfordult, hogy egy mondatban a fogok helyett fognak-ot mondott, egy másikban a valamilyen helyett milyen- ejtett a bemondó. Ezt is korrigálni kell.