Multilingual speech control for ROS-driven robots

Dominik P. Hofer, Felix Strohmeier (2019): Multilingual speech control for ROS-driven robots In: e & i Elektrotechnik und Informationstechnik, Springer Verlag

https://doi.org/10.1007/s00502-019-00739-y

Sprachsteuerung mit automatischer Sprachenerkennung (Multilingual Speech Control – MLS) ist ein wesentliches Element zur natürlichen Zusammenarbeit zwischen Mensch und Robotern. Wird der jeweilige Roboter direkt mit Namen angesprochen, kann die Steuerung auf mehrere Geräte verteilt werden. Davor wird der Benutzer/die Benutzerin durch akustische Rückmeldung über Erfolg oder Misserfolg der Ausführung benachrichtigt. In diesem Paper beschreiben wir eine modular aufgebaute MLS-Implementierung. Die einzelnen Funktionsmodule können dabei entweder über Online-Dienste eingebunden werden, oder – für erhöhten Datenschutz – offline mit lokalen Ressourcen ausgeführt werden. Die Systemarchitektur wurde erweiterbar gestaltet, um zukünftigen Anforderungen, z.B. neuen Roboterfähigkeiten, gerecht zu werden. Die MLS folgt dabei grundsätzlich immer demselben Ablauf: Nach der Identifikation der verwendeten Sprache erfolgt zuerst die Transformation in geschriebenen Text (Speech-to-Text). Aus diesem Text wird nun versucht, den Zielroboter und die Absicht des Befehls zu erkennen. Außerdem werden etwaige variable Parameter extrahiert, interpretiert und dem Befehl übergeben. Erreicht der Befehl den Zielroboter, gibt dieser seinen erreichten Zustand durch die Sprachausgabe an den Benutzer zurück. Die Beispielimplementierung wurde mit Technologien der künstlichen Intelligenz umgesetzt und in einem Szenario mit einem kollaborativen Roboterarm einerseits und einem sich autonom bewegenden Roboterfahrzeug andererseits erfolgreich getestet. Das entstandene Software-Framework integriert dabei sowohl Cloud-Dienste als auch bestehende Open-Source-Implementierungen.

Schlüsselwörter

kollaborative Roboter natürliche Sprachverarbeitung Sprachidentifikation Sprach-zu-Text-Transformation Text-zu-Sprache-Transformation Absichtserkennung gesprochene Sprache, Verarbeitung von 

Publikationsautoren der Salzburg Research (in alphabetischer Reihenfolge):