Partner und Internationale Organisationen
(Deutsch)
|
AT, BE, CY, CZ, DK, FI, FR, DE, EL, HU, IT, LT, NL, NO, PT, SK, SI, ES, SE, CH, TR, UK
|
Abstract
(Deutsch)
|
Das Thema von COST 278 war die multimodale Mensch-Maschinen-Kommunikation, wobei die gesprochene Sprache der wichtigste Modus war. Die Spracherkennung spielte also eine Hauptrolle. Das Ziel der Gruppe für Sprachverarbeitung am TIK/ETHZ war, in Zusammenarbeit mit andern Teilnehmern an COST 278 eine neuartige Lösung für die Spracherkennung zu erarbeiten, die der interdisziplinären Natur der Aufgabe besser Rechnung trägt als herkömmliche Ansätze. Eine solche interdisziplinäre Lösung verlangt ein hybrides System mit einem statistischen und einem wissensbasierten Teil. Der statistische Teil beschreibt die Variabilität und die Häufigkeit sprachlicher Elemente. Der wissensbasierte Teil umfasst linguistisches Wissen (lexikalisches, morphologisches und syntaktisches Wissen) und einen Parser, der es anwendet und damit im System den Aspekt der grammatikalischen Korrektheit verwirklicht. State-of-the-Art-Spracherkennungssysteme arbeiten hingegen mit Statistiken, benutzen also nur den Aspekt der Häufigkeit. In den letzten Jahren ist an der ETH ein Experimentier-Spracherkennungssystem entwickelt worden, das beide Aspekte zu kombinieren vermag. In diesem System lässt sich der wissensbasierte Teil ein- und ausschalten. Ist er ausgeschaltet, dann entspricht das System einem Standard-Spracherkenner. Dadurch lässt sich ermitteln, welche Verbesserung durch den Einsatz eines solchen wissensbasierten Teils erzielt werden kann. Mit diesem System hat die Gruppe für Sprachverarbeitung weltweit zum ersten Mal den Nachweis erbracht, dass der richtige Einbezug des Kriteriums der sprachlichen Korrektheit die Spracherkennung statistisch signifikant verbessert.
|