Eine der großen Stärken der künstlichen Intelligenz ist das Erkennen von Mustern. Egal ob eine Maschine lernen soll, Hunde von Katzen zu unterscheiden oder gesprochene Wörter zu erkennen, das zugrundeliegende Prinzip ist immer das gleiche: Künstliche neuronale Netze optimieren sich anhand unzähliger Trainingsbeispiele so lange selbst, bis sie schließlich zuverlässig das richtige Ergebnis liefern. Kein Wunder, dass die Fähigkeiten der künstlichen neuronalen Netze auch auf uns selbst angewendet werden und uns…
Sie wollen den ganzen Artikel downloaden? Mit der PH+-Flatrate haben Sie unbegrenzten Zugriff auf über 2.000 Artikel. Jetzt bestellen
Wunder, dass die Fähigkeiten der künstlichen neuronalen Netze auch auf uns selbst angewendet werden und uns Hinweise auf unsere Emotionen entlocken sollen.
Affective computing: Wenn die KI Emotionen erkennt
Technologien, die mithilfe künstlicher Intelligenz menschliche Affekte und Emotionen erkennen, werden unter dem Schlagwort affective computing zusammengefasst. Sie könnten in Zukunft etwa Robotern und Computersystemen ermöglichen, die Stimmung ihrer Nutzerinnen und Nutzer einzuschätzen, und so die Interaktionen intuitiver gestalten. Mögliche Anwendungsfelder umfassen aber auch Lügendetektoren oder die Marktforschung. Und schon heute ist es etwa in Callcentern üblich, Kundengespräche automatisch auf ihren emotionalen Gehalt hin zu analysieren, um die Zufriedenheit der Anruferinnen und Anrufer zu erfassen.
Auch in der Psychotherapieforschung hält Affective Computing bereits Einzug, etwa wenn es um die automatisierte Anwendung des Facial Action Coding Systems (FACS) geht. Dieses bereits 1978 vom Psychologen Paul Ekman vorgeschlagene Kodierungsverfahren ist mittlerweile ein etablierter Standard in der Psychologie, um unterschiedlichen Gesichtsausdrücken Basisemotionen wie Freude oder Ekel zuzuordnen. Aktuell müssen noch eigens ausgebildete Fachleute – sogenannte Rater – Videoaufnahmen von Psychotherapiesessions analysieren. Penibel zeichnen sie für jede Minute des Gesprächs bestimmte Muskelbewegungen im Gesicht des Patienten auf, wie etwa Stirnrunzeln oder das Heben einer Augenbraue, und ordnen sie gemäß des FACS Emotionen zu. Die Ergebnisse tragen sie in eine Tabelle ein, um Psychotherapieforschenden einen groben Überblick über den Stimmungsverlauf zu verschaffen. Anhand dieser Daten versuchen Forscherinnen und Forscher zum Beispiel herauszufinden, wie wirksam eine Therapie ist.
Basisemotionen
Der US-amerikanische Psychologe Paul Ekman identifizierte sieben Basisemotionen: Freude, Wut, Ekel, Furcht, Verachtung, Traurigkeit und Überraschung. Er ging davon aus, dass diese angeboren und universell sind und sich in den Gesichtern aller Menschen zeigen und ablesen lassen. Selbst wenn ein Mensch versucht, Emotionen zu verbergen oder zu überspielen – zum Beispiel weil er lügt –, könne man lernen, sie zu erkennen. Neuere Forschung zeigt, dass auch die kulturelle Prägung beeinflusst, wie Emotionen gezeigt werden
„Das Erstellen dieser Listen ist unglaublich aufwendig, weshalb die Forschung in diesem Bereich auch etwas eingeschlafen ist“, sagt Entwicklungs- und Persönlichkeitspsychologe Martin Steppan von der Fakultät für Psychologie der Universität Basel. In einer erst kürzlich veröffentlichten Machbarkeitsstudie haben Martin Steppan und sein Team getestet, ob die mühsame Arbeit der Rater von einem KI-Algorithmus übernommen werden kann. „Die Übereinstimmung zwischen den Ergebnissen unseres Algorithmus und dem von einem Menschen durchgeführten FACS ist enorm hoch“, sagt Steppan, der auch Hauptautor der Studie ist. „Das war allerdings auch zu erwarten, wenn man bedenkt, dass machine learning ja darauf ausgelegt ist, Muster zu erkennen.“
Ihre Studie, die bisher lediglich die Analyse von Gesichtsausdrücken umfasst, sehen die Forschenden als einen ersten Schritt auf dem Weg, die emotionalen Reaktionen in Psychotherapiesitzungen künftig von Maschinen auswerten zu lassen. „Wir haben das Glück gehabt, 23 Patientinnen und Patienten über ihre ganze Psychotherapie hinweg verfolgen zu können“, sagt Steppan. „Leider ist das ein ziemlich kleines Sample, und diese Art von Forschung steckt immer noch in den Kinderschuhen.“
Dennoch zeigte das Ergebnis bereits eine „robuste Übereinstimmung“ mit der Einschätzung der menschlichen Rater. Möglicherweise kann KI die Rater in Zukunft also ersetzen oder zumindest unterstützen. Das würde Zeit und Geld sparen und könnte der Psychotherapieforschung neuen Schwung verleihen.
Auswertung von Biosignalen wie Puls und Hautleitfähigkeit mit KI
Und dabei haben die Forschenden für ihre Studie einige Vorteile der automatischen Erfassung noch gar nicht ausgespielt: So haben sie während der Therapien zusätzlich zu den Videos auch Biosignale wie Puls und Hautleitfähigkeit aufgezeichnet. Sowohl leichte Variationen des Pulses als auch eine durch Schwitzen erhöhte Hautleitfähigkeit deuten auf Stress beziehungsweise Überforderung hin. Zudem erlauben es die Signale, den genauen Zeitpunkt und die Intensität der emotionalen Reaktionen zu bestimmen.
Schließlich erfasst die Kamera auch die erwähnten Mikroexpressionen der Patientinnen. „Die sind äußerst interessant, weil beispielsweise Ekel fast ausschließlich als Mikroexpression dargestellt wird“, sagt Steppan. Dem FACS zufolge bedeutet das: Die Oberlippe wird hochgezogen, die Unterlippe schiebt sich nach vorn, es kommt zu sichtbaren Falten zwischen Nasenflügeln und Mundwinkeln, und auch die Nase geht nach oben – leicht zu erkennen für eine entsprechend trainierte KI.
Um dem flüchtigen Ekel auf die Schliche zu kommen, haben die Forschenden ihre Videos nach kurzen Momenten solcher Darstellungen durchsucht. „Dabei stößt man häufig auf sehr relevante Szenen“, sagt Steppan. „Etwa wenn eine Patientin von sexuellem Missbrauch oder anderen traumatischen Erlebnissen berichtet.“ Genauso können es aber auch harmlos wirkende Themen sein, die dennoch einen starken Ausdruck von Mikroexpressionen hervorrufen. Und wenn sich die Therapeutin oder der Therapeut diese von der KI identifizierten Szenen im Nachhinein noch einmal ansieht, könne das Hinweise auf Konflikte oder unbewusste Probleme liefern, die sonst im Verborgenen geblieben wären.
Probleme bei ambivalenten Gefühlen
Bei allen Vorteilen von automatischer Emotionserkennung sollte man sich dennoch nicht der Illusion hingeben, Maschinen könnten auf Basis oberflächlicher Signale wie der Mimik die tatsächliche innere Gefühlslage eines Menschen ergründen. Dafür sind Emotionen viel zu komplex und gemischt. KI kann einfache Zusammenhänge herstellen, aber wenn eine Patientin lächelt, obwohl sie traurig ist, oder wenn sie ambivalente Gefühle erlebt, könnte es schwierig werden.
Patrick Gebhard ist Computerwissenschaftler und leitet am Deutschen Forschungszentrum für Künstliche Intelligenz die Gruppe für Affective Computing. Er hat bereits 2007 im Rahmen seiner Dissertation damit begonnen, virtuellen Figuren ein plausibles emotionales Verhalten zu verleihen. Dadurch wirken sie realistischer, wenn sie etwa als Avatar in einem Computerspiel eine eigene Persönlichkeit zum Ausdruck bringen sollen. Zu diesem Zweck hat Gebhard das Computermodell ALMA (a layered model of affect) entwickelt, das 24 Emotionen, 8 Stimmungen und 5 verschiedene Persönlichkeitstypen kombiniert, um die „Gemütszustände“ computergenerierter Figuren zu simulieren. Eine extravertierte Frau, die eigentlich optimistisch in die Zukunft blickt, aber gerade wütend ist? Mit ALMA ist sie nur ein paar Klicks entfernt.
„Für Computerwissenschaftler wie mich ist eine kognitive Sicht auf Emotionen natürlich sehr verlockend“, sagt Gebhard. „Wenn man diese allerdings auf die automatische Erkennung menschlicher Emotionen anwenden will, stößt man unweigerlich auf das Problem der Regulierung.“ So kann eine KI zwar oberflächlich betrachtet aus dem Klang der Stimme eine freudige Aufregung von einer eher ruhigen Trauer unterscheiden. „Die zugrundeliegenden internen Emotionen lassen sich aus solchen oberflächlichen Signalen aber nicht zuverlässig ermitteln“, sagt Gebhard. „Emotionen sind ein komplexes Konstrukt, und nicht jedes Mal, wenn ich lächle, bin ich auch glücklich.“ Schließlich würden vor allem die Erwachsenen größten Wert darauf legen, in sozialen Interaktionen ihre wahren Gefühle zu verbergen. Vor allem bei negativ behafteten Emotionen wie etwa Scham würden Menschen dazu neigen, sie beispielsweise mit Freude zu überdecken, um so eine unangenehme Situation zu kontrollieren.
Wenn die Maschine versagt
Das mussten Gebhard und seine Kolleginnen und Kollegen selbst feststellen, als sie im Rahmen eines Projektes einen anekdotischen und doch recht erhellenden Rückschlag erlebten: Der Plan war, mithilfe „einfühlsamer“ virtueller Figuren, die auf ALMA basierten, Bewerbungsgespräche zu simulieren. Damit sollten junge Menschen aus schwierigen sozialen Verhältnissen auf die Jobsuche vorbereitet werden. „Da saß ein junger Mann, der auf der Straße lebte, vor unserem System, und die Figur hat ihn aufgefordert, über seine Schwächen zu sprechen“, erzählt Gebhard. Der Mann erstarrte kurz und nahm dann den Monitor und warf ihn aus dem Fenster. „Das war der Punkt, an dem uns klargeworden ist: So geht das nicht“, sagt Gebhard.
Das System hat in diesem Fall also nicht einfühlsam reagiert und den jungen Mann stattdessen mit der Frage nach seinen Schwächen überfordert. „Eine emotionale Überforderung zu erkennen und die Aufgabe entsprechend anzupassen ist aber die zentrale Herausforderung solcher sozial-interaktiver Trainingssysteme“, sagt Gebhard.
Anstatt also weiterhin zu versuchen, aus Mustern in Stimme und Gesicht unmittelbar auf die aktuelle Gefühlslage eines Menschen zu schließen, wählten er und seine Kolleginnen daraufhin einen viel umfassenderen Zugang: In einem weiteren Computermodell, das auf ALMA aufbaut, versuchen sie zwar nach wie vor, die nach außen kommunizierten Emotionen auf der Musterebene zu erkennen. „Dann simuliert das System aber erst die möglichen internen Erlebniswelten der Person und wählt die wahrscheinlichste davon aus“, erklärt Gebhard. Um die tatsächlich gerade vorherrschende, interne Emotion herauszufinden, müsste ein sozial interaktiver, virtueller Agent aber schließlich noch in einen Dialog eintreten. „Wir Menschen machen das ja auch so“, sagt der Forscher. „Auch wir wissen nicht auf Anhieb, wie es unserem Gegenüber geht, sondern wir beobachten, fragen nach und passen uns dynamisch an die Situation an.“
Auswertung der menschlichen Stimme
Eine weitere Spielart von Affective Computing ist die statistische Auswertung der menschlichen Stimme. Diese Analysen könnten interessant sein, wenn es darum geht, Prognosen über die wirtschaftliche Entwicklung von Unternehmen abzugeben.
So setzten Forschende der Ruhr-Universität Bochum etwa eine KI auf die Stimmen von Geschäftsführerinnen und Geschäftsführern an, um ihnen Informationen über die zukünftige Entwicklung ihrer Unternehmen zu entlocken. Als Grundlage dafür dienten ihnen 8000 öffentlich zugängliche Audioaufnahmen von Bilanzpressekonferenzen sowie Informationen darüber, wie sich die jeweiligen Unternehmen im Folgejahr entwickelten.
Ohne der KI auch nur die geringsten zusätzlichen Informationen zur menschlichen Psyche mitzugeben, ließen sie sie nach der Antwort auf eine einzige Frage suchen: Deutet das vorliegende Klangmuster eher auf eine positive oder eine negative finanzielle Zukunft des entsprechenden Unternehmens hin? Die Grundannahme des Teams war, dass ein Geschäftsführer, eine Geschäftsführerin bei einer solchen Konferenz wohl dazu neigt, negative Informationen zurückzuhalten, und sich dieses Verhalten auf den Klang der Stimme niederschlägt.
Gewinn- oder Verlustvorhersage anhand der Stimme
Und tatsächlich lernte der Algorithmus so, vorherzusagen, ob ein Unternehmen im Folgejahr Gewinn oder Verlust machen würde. Die Ergebnisse der KI waren um bis zu neun Prozentpunkte besser als herkömmliche Modelle, die lediglich auf einer Auswertung der veröffentlichten Geschäftszahlen beruhten.Solche sehr einfach gestrickten Versuche liefern allerdings nur dann brauchbare Ergebnisse, wenn die KI die gesamte Vielfalt aller zur Verfügung stehenden Daten auswertet und daraus allgemeine Trends ermittelt. Um einem einzelnen Audiomitschnitt eines CEOs verlässliche Informationen zur Entwicklung seines Unternehmens zu entlocken, sind die künstlichen Intelligenzen noch zu schwach.
Wie entscheiden Menschen, was sie kaufen oder nicht? Für diese emotionalen Prozesse interessiert sich die Marktforschung schon seit Jahrzehnten – und könnte jetzt ebenfalls von KI profitieren, die neben Mimik und Stimme auch körperliche Reaktionen von Menschen auswertet. Am Fraunhofer-Institut für Integrierte Schaltungen (IIS) verfügen die Forschenden etwa über eine sogenannte Emotion AI Box. In diesem kleinen, abgeschlossenen Raum können sie Testpersonen verkabeln, um für Marktforschungszwecke eine Vielzahl physiologischer Signale zu messen. „Für uns ist Affective Computing eine Kombination aus den Fachgebieten Physiologie, Medizintechnik, Psychologie und Informatik“, sagt Nina Holzer, die bis vor kurzem am IIS die Forschungsgruppe Multimodal Human Sensing geleitet hat. „Wir versuchen, ganzheitlich körperliche und physiologische Reaktionen zu erfassen und zu interpretieren, um auf emotionale Zustände zu schließen.“
KI erkennt selbst Unbewusstes
Ist eine Testperson erst einmal verkabelt, können Holzer und ihr Team Signale von Atmung über Puls und Sauerstoffsättigung des Blutes bis hin zur Darmaktivität dokumentieren. „Die Aktivität im Verdauungstrakt messen wir zum Beispiel über einen Bauchgurt“, erklärt Holzer. „Das kann Aufschluss über emotionale Reaktionen geben, weil vom Gehirn eine gute Verbindung dorthin existiert.“ Hauben mit integrierten Elektroden wiederum vermessen die Aktivität des Gehirns und erstellen Elektroenzephalogramme, die den Forschenden Aufschlüsse über das aktuelle Maß der Aufmerksamkeit eines Menschen liefern.
Für die Auswertung der Informationen kommt anschließend wieder künstliche Intelligenz zum Einsatz, die in den gewonnenen Daten die charakteristischen Muster aufspürt. „Die Leute sind oft verblüfft, wenn wir sie darauf ansprechen, ob sie etwa gerade aufgehört haben, sich zu konzentrieren“, sagt Holzer.
In der Emotion AI Box präsentieren die Forscherinnen und Forscher ihren Testpersonen Produkte oder Werbespots, die sie bewerten sollen. „Oft kommen Unternehmen auf uns zu, die wissen wollen, welches Produkt bei ihren Kunden am besten ankommt“, sagt Nina Holzer.Doch wozu der ganze Aufwand mit Sensorik und künstlicher Intelligenz, wenn man Menschen einfach nach ihrer Meinung fragen könnte? „Fragebögen bringen meist keine objektiven Bewertungen“, antwortet Holzer.
Wenn es etwa darum geht, wie gut jemand mit einem technischen Gerät zurechtgekommen ist, würden Menschen oft gar nicht objektiv antworten wollen. „Oft stehen gesellschaftliche Erwartungen im Raum, und eine Testperson will vielleicht einfach nicht zugeben, dass sie überfordert war“, sagt Holzer. Beim Betrachten von Werbespots wiederum würden viele Reaktionen unbewusst ablaufen, und der Proband wisse oft selbst nicht, wann genau er eine Kaufentscheidung getroffen oder das Interesse verloren hat. „Die Technologien, die wir anwenden, machen diese Analyse wesentlich genauer und objektiver“, sagt Holzer.
Objektive Auswertung dank Affective Computing
Mehr Objektivität durch den Einsatz von Affective Computing ist auch für Psychotherapieforscher Steppan einer der wichtigsten Gründe für den Einsatz von KI. „Die Analyse von Psychotherapien für Forschungszwecke sollte möglichst unabhängig vom Forschenden sein“, sagt er. „Und diese Machine-Learning-Algorithmen führen in aller Regel zum selben Ergebnis – unabhängig davon, wer sie verwendet.“ Auf diese Art könne man einen vom Menschen befreiten Standard erlangen, was auch die Motivation hinter der Messung zusätzlicher Biomarker wie Puls und Hautleitfähigkeit sei. „Für die Forschung sind objektive Zahlen von zentraler Bedeutung“, sagt Steppan. „Und die Methoden des Affective Computing sind nun einmal sehr gut dafür geeignet, solche Zahlen zu produzieren.“
Wenn es also darum geht, die rein oberflächlichen Signale, mit denen wir unsere Emotionen ausdrücken, effizient und zuverlässig zu erfassen, ist künstliche Intelligenz bereits drauf und dran, uns Menschen den Rang abzulaufen. Menschliches Einfühlungsvermögen hat der kalten Präzision der Maschinen in diesem Analysebereich nur wenig entgegenzusetzen. Doch unsere inneren Gefühlswelten sind weit mehr als das, was die Algorithmen als Muster in Mimik und Sprache erkennen können. Maschinen wissen nicht, was Freude, Wut oder Trauer eigentlich bedeuten und wie die von ihnen erfassten Gesichtsausdrücke damit in Zusammenhang stehen. Und auch menschliche Spielarten der Kommunikation wie Ironie oder das Überspielen von Scham überfordern die Algorithmen noch.
Um zu ergründen, wie sich jemand wirklich fühlt, bedarf es nach wie vor anderer Menschen, die die Welt und das Leben kennen. Und die selbst erfahren haben, wie sich das anfühlen kann. Den Maschinen fehlt ein Verständnis für die Erlebniswelt einer Person.Ob sich das ändern wird? Wird es irgendwann eine „starke“ oder „allgemeine KI“ mit Weltverständnis und Bewusstsein geben? Vermutlich. Allerdings gehen die Schätzungen, wann das passieren soll, weit auseinander: Sie reichen von einigen Jahren bis hin zu einigen Jahrzehnten.
Thomas Brandstetter ist promovierter Physiker und schreibt als freier Wissenschaftsjounalist für viele verschiedene Medien. Die rasante Entwicklung der künstlichen Intelligenz verfolgt er seit Jahren voller Staunen. In seinen Artikeln beleuchtet er die faszinierenden neuen Beziehungen zwischen Menschen und Maschinen und die gesellschaftlichen Auswirkungen der neuen Technologien
Hat Ihnen dieser Artikel gefallen? Wir freuen uns über Ihr Feedback!
Haben Sie inhaltliche Anmerkungen zu diesem Beitrag oder möchten Sie uns eine allgemeine Rückmeldung zu unserem Magazin geben? Dann schreiben Sie uns gerne eine Mail (an: redaktion@psychologie-heute.de).
Wir lesen jede Nachricht, bitten aber um Verständnis, dass wir nicht alle Zuschriften beantworten können.
Quellen
Jonas Ewertz, Charlotte Knickrehm u.a.: Listen Closely: Measuring Vocal Tone in Corporate Disclosures.TRR 266 Accounting for Transparency Working Paper Series, 180, 2024
Patrick Gebhard: ALMA: a layered model of affectIn: Association for Computing Machinery (HG.): AAMAS '05: Proceedings of the fourth international joint conference on Autonomous agents and multiagent Systems, 2005, 29–36
Martin Steppan u.a.: Machine Learning Facial Emotion Classifiers in Psychotherapy Research: A Proof-of-Concept Study. Psychopathology, 57/3, 2024, 159–168