KI zum Anfassen - multimodale Interaktion mit Cobots | Prof. Dr. Markus Rickert

Shownotes

Roboter, die uns in der Produktion, im Haushalt oder am Krankenbett helfen, müssen nicht nur technisch einwandfrei funktionieren. Im Umgang mit Menschen und beim Stapeln von Großmutters Porzellan sind Serviceroboter mit Fingerspitzengefühl gefragt. Multimodale KI schafft hierfür die Voraussetzungen, indem sie mehrere Datenquellen - z.B. visuelle (Mimik und Gestik), auditive (Sprache) und taktile Sensordaten (Berührungen) - für die Situationsanalyse und Verhaltensplanung zusammenführt.

In der Industrie arbeiten Menschen und Roboter schon lange erfolgreich Hand in Hand. Wenn es nach unserem heutigen Gast geht, wird dies bald auch in anderen Lebensbereichen der Fall sein: Professor Markus Rickert ist Inhaber des Lehrstuhls für Multimodal Intelligent Interaction an der Universität Bamberg und ein Experte für die multimodale Mensch-Roboter-Interaktion. Wir sprechen mit ihm über den Barkeeper-Roboter JAMES, dessen Nachfolger bald im Robotik-Labor der Uni Bamberg hinter dem Tresen stehen wird. Außerdem erfahren wir, wie kleine und mittlere Unternehmen (KMU) von multimodaler KI profitieren können und warum die Zukunft sozial kompetenten Cobots gehört, die durch Beobachtung lernen.

[00:45] Was ist multimodale KI? Multimodale KI führt Daten aus mindestens zwei Quellen (= Modalitäten) zusammen. Komplexe Szenarien können so umfassender und robuster erfasst werden. Durch die Kombination von Bild (Mimik und Gestik) und Ton (Sprache) mit taktilen Rückmeldungen sorgt multimodale KI etwa dafür, dass Roboter besser auf die vielfältigen Signale menschlicher Interaktionspartner reagieren können.

[02:56] Gestatten, Bot. JAMES Bot. Kann man einem Roboter beibringen, sich als Barkeeper korrekt zu verhalten? Auf diese Frage suchte das Projekt JAMES (Joint Action for Multimodal Embodied Social Systems, 2011-2014) nach Antworten. Das Ergebnis war ein gleichnamiger Barkeeper-Roboter, der individuelle Gesichter, Sprache und Gesten erkennen konnte und die Getränkewünsche seiner Gäste schnell und gewissenhaft erfüllte.

[11:00] Was braucht man, um einen Barkeeper-Roboter zu bauen? Roboter, die mit Menschen interagieren, müssen vor allem sicher sein. Um Kollisionen mit den Bargästen durch schnelle ruckartige Bewegungen zu vermeiden, besaß JAMES einen berührungssensitiven Arm mit Drehmomentsensoren in den Gelenken. Daneben braucht es eine Sensorik zur Personen- und Umgebungserkennung sowie eine Software, welche die unterschiedlichen Sensordaten integriert, Entscheidungen trifft, zielführende Bewegungen plant und auslöst. Hier kommt die multimodale KI ins Spiel. Für JAMES wählte man einen hybriden Ansatz, bei dem maschinelles Lernen zur Zustandserkennung mit symbolischer KI zur Verhaltensplanung kombiniert wurde.

[16:15] Kann eine KI wie JAMES Gelerntes auf neue Situationen übertragen? Von den spezifischen Trainingsbedingungen auf andere Situationen oder gar Tätigkeiten zu generalisieren gelingt Robotern wie JAMES bislang nur mit Einschränkungen. Die Szenarien müssen sich stark ähneln, damit ein Transfer stattfinden kann; ein Wechsel der Tätigkeit ist praktisch ausgeschlossen. JAMES kann Kuchen und Blumen ausgeben, wenn diese zuvor in Flaschen gesteckt werden. Hier unterscheiden sich Mensch und Maschine noch grundlegend: Während das Erkennen von Gesichtern bei JAMES unabhängig vom Kontext funktioniert (anders als bei einem menschlichen Barkeeper!), kann er nicht spontan das Spülen und Trocknen von Gläsern übernehmen. Damit Roboter auch in Bereichen zum Einsatz kommen, die ein hohes Maß an Flexibilität erfordern, sollen sie langfristig in die Lage versetzt werden, neue Verhaltensweisen durch Beobachtung zu lernen.

[21:56] Welche Themen bestimmen die Forschung zur Mensch-Roboter-Interaktion heute? Generative KI, die bei der Entwicklung von JAMES noch nicht zur Verfügung stand, wird inzwischen natürlich auch in der Mensch-Roboter-Interaktion genutzt. Außerdem stehen flexible domänenspezifische Anwendungen weit oben auf der Forschungsagenda: Vor allem für die Kleinserienfertigung in KMUs gilt es Industrieroboter mit vereinfachter Programmierung zu entwickeln. Mit ihren klaren, sich oft wiederholenden Abläufen in einem relativ störungsfreien Umfeld bieten Industrieanlagen generell bessere Bedingungen für die Modellierung von Integrationsszenarien als private Haushalte oder Pflegeeinrichtungen, in denen viel Unvorhergesehenes passiert. Unabhängig von ihrem späteren Einsatzbereich wird an Robotern gearbeitet, die aktives Fehlermanagement betreiben: Roboter also, die selbst Fehlfunktionen oder Probleme erkennen und den Kollegen darauf aufmerksam machen - oder sogar selbst nach einer Lösung suchen.

[27:40] In welchen Bereichen wird multimodale KI in naher Zukunft verstärkt zum Einsatz kommen? Unter dem Eindruck der demografischen Entwicklung in Japan, wird auch hierzulande verstärkt über den Einsatz von Robotern in der Pflege nachgedacht. Wenn es gelingt, die Programmierung entsprechend zu vereinfachen, werden Roboter auch in kleinen und mittleren Unternehmen (KMU) häufiger zum Einsatz kommen. Den Menschen werden sie aber nicht so schnell ersetzen können.

Ein weiteres Interview sowie eine Übersicht der Projekte und Forschungsinteressen von Professor Markus Rickert finden Sie auf den Seiten der Universität Bamberg:

Multimodales rund um James den Barkeeper-Bot finden Sie hier: https://www.pressetext.com/news/roboter-barkeeper-deutet-koerpersprache.html

Und hier:

JAMES: Introduction to the EU project https://www.youtube.com/watch?v=qM_djFnBqoM
First demo of the new JAMES robot bartender https://www.youtube.com/watch?v=i4fL4LcDe7k
Robot Task Planning with Contingencies for Run-time Sensing https://www.youtube.com/watch?v=7l2NP3l9_lY
KVP: A Knowledge of Volumes Approach to Robot Task Planning https://www.youtube.com/watch?v=yMmZkhHr8ss
MOPL: A Multi-Modal Path Planner for Generic Manipulation Tasks https://www.youtube.com/watch?v=1QRvjBw58bU
Extending the Knowledge of Volumes Approach to Robot Task Planning https://www.youtube.com/watch?v=XGSMoI_BRFw

Shownotes

Neuer Kommentar