Beszédkutatás 2013 (2013)

Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai

PRECÍZIÓS, PÁRHUZAMOS, MAGYAR BESZÉDADATBÁZIS FEJLESZTÉSE ÉS SZOLGÁLTATÁSAI Olaszy Gábor Bevezetés A beszédkutatásban világszerte egyre nagyobb teret kapnak az előre elké­szített, annotált és szegmentált beszédadatbázisok. A gyarapodás oka, hogy a kutatásokban és a fejlesztésekben egyre inkább statisztikai eljárásokkal vizs­gálják a beszédet, azaz nagy adattömeg vizsgálatával határozzák meg a be­szédre jellemző paramétereket, azok változási tendenciáit. Mivel egy ilyen adatbázis nagyszámú adatot tartalmaz, az annotálását és szegmentálását csak gépi eljárások támogatásával lehet elvégezni. Ebből következik, hogy az adathalmazban lesznek hibás adatok is. A kutató számára viszont az lenne a kívánatos, hogy gyakorlatilag hibamentes adathalmazra építhesse a vizsgála­tait. Az ideális megoldás tehát az lenne, ha az annotálási és címkézési hibák számát a minimumra lehetne csökkenteni a beszédadatbázisokban. A jelen tanulmányban olyan beszédadatbázist mutatunk be, amely az ideá­lis esetet közelíti, mivel a gépi hibázásokat félautomatikus támogatással fel­tártuk és manuális javítással megszüntettük. Ilyen részletességgel és pontos­sággal feldolgozott beszédadatbázis korábban még nem készült magyar nyelvre. Számos beszédadatbázist készítettek már az elmúlt évtizedekben Magyarországon, mindegyiket más-más céllal (Gósy et al. 2012). Kiemelendő a legutóbbi fejlesztés, amely az MTA Nyelvtudományi Intéze­tében folyik, egy Beszélt nyelvi Adatbázis (BEA) létrehozása. Itt a kitűzött cél, hogy 500 beszélőtől gyűjtsenek felolvasott és spontán beszédet is. Jelen­leg a fejlesztés a felénél tart, de már most is látszik, hogy számos fonetikai kutatás alapját képezi (Gósy szerk. 2012) a hatalmas adattár. A BEA hang­hullámot és szövegszintű átiratot tartalmaz. Anyag, módszer, beszélő személyek A most ismertetett beszédadatbázis nyelvi anyagának gerincét egy korábbi kutatáshoz gyűjtött szöveges mondatkorpusz képezi (Vicsi-Vígh 1998), amely a BABEL projekt keretében készült el (1992 mondat, 20873 szó, 85424 hang, 33783 magánhangzó), és a magyar nyelvet jól reprezentálja hangstatisztikailag. Ezt egészítettük ki célzottan, egyrészről különböző hosz­­szúságú és típusú kérdő mondatokkal (Ő? Én? Még? Baba? Babával? stb.), valamint rövid kijelentő mondatokkal az egyhangos mondattól kezdve a há­ 261

Next