Die Stimme am anderen Ende der Leitung wirkt freundlich, aber distanziert – die Fragen sind dafür umso persönlicher. „Wie haben Sie sich in der letzten Zeit gefühlt?“, erkundigt sich die Stimme vom Band bei mir. „Wie gehen Sie mit Herausforderungen um?“ „Was haben Sie in der letzten Zeit Schönes erlebt?“
Fünfzehn Minuten an Sprachdaten benötigt das Analyseprogramm, um sich eine Meinung über mich zu bilden. Die Software des Aachener Unternehmens Precire soll auf der Grundlage meiner Sprache und Stimme einen…
Sie wollen den ganzen Artikel downloaden? Mit der PH+-Flatrate haben Sie unbegrenzten Zugriff auf über 2.000 Artikel. Jetzt bestellen
in mein Innenleben, meine Emotionen und meine Persönlichkeit liefern. Precire setzt seine Technologie bei großen Konzernen ein. Das Softwareunternehmen gibt den Firmen ein Feedback, welchen kommunikativen Eindruck die Führungskräfte vermitteln.
Außerdem setzt es die Software im Auftrag von Unternehmen bei Bewerbern ein, um deren Eigenschaften und Fertigkeiten einzuschätzen. Zwar geben die Interviewten vorher ihr Einverständnis. Aber datenschutzrechtlich könnte es unter Umständen dennoch einen tiefen Eingriff ins Persönlichkeitsrecht bedeuten. Schließlich stehen gerade Bewerber unter einem großen Druck, den Wünschen der Firmen zu entsprechen.
Stimmerkennung im Vorstellungsgespräch
Geht es nach Unternehmen wie Precire, sollen ausgerechnet emotionslose Maschinen unser Gemütsleben belauschen. Nicht nur in den Personalabteilungen, auch in der Marktforschung weckt unsere Stimme Begehrlichkeiten. Firmen wollen mit ihrer Hilfe erkennen, wie gut ein Produkt bei Befragten ankommt. Oder sie möchten den emotionalen Aufruhr eines Kunden während eines Callcenteranrufs identifizieren.
Ich selbst habe nicht das Gefühl, dass ich mich bei meinem „Jobinterview“ mit dem maschinellen Befrager besonders gut schlage. Vielmehr fühle ich mich ziemlich gestresst und zerstreut. Das Interview wird mir ganz kurzfristig angeboten, eigentlich wollte ich gerade in die Mittagspause gehen. Außerdem sorgt es bei mir für ein mulmiges Gefühl, dass eine Software zuhört und dabei buchstäblich berechnend ist. Denn wo wir Menschen intuitiv und unbewusst auf die Stimme eines anderen achten, zerlegt die Software von Precire meine Stimmdaten in Myriaden von Einzelteilen und nimmt diese akribisch unter die Lupe.
„Unsere Technologie haben wir darauf trainiert, Wörter zu analysieren, die Häufigkeit der Wörter zu zählen und dabei auch den Kontext der Wörter zu berücksichtigen.“ Das erklärt mir Christian Greb, Mitbegründer von Precire. „Letztlich zieht unsere Software mehrere tausend Faktoren heran, dazu gehört etwa die Sprechgeschwindigkeit oder die Sprachstruktur.“ Auch Aspekte der Stimme selbst wie die Tonhöhe werden ausgewertet.
Sprache und Persönlichkeit
Die Software könnte also möglicherweise bemerken, dass ich gestresst bin, weil ich häufig Wörter wie „stressig“ verwende – zusätzlich zu den vielen tausend Infos, die ich unbewusst mit meiner Sprache transportiere. „Aber sie weiß nicht, warum Sie gestresst sind oder was in Ihrem Urlaub passiert ist“, betont Christian Greb. „Sie könnte keine inhaltliche Zusammenfassung des Interviews geben.“ Stattdessen gleicht die Software die Auswertung meiner Stimme mit den Ergebnissen von rund fünfeinhalbtausend Probanden ab, die Precire im Rahmen einer Studie psychologisch vermessen hat.
Dazu hat das Unternehmen unter anderem das in der Psychologie allgemein anerkannte Modell der Big Five herangezogen. Die Big Five beschreiben die fünf großen Hauptdimensionen, aus denen sich unsere Persönlichkeit zusammensetzt: die Offenheit für Neues, die Gewissenhaftigkeit und die emotionale Stabilität eines Menschen. Außerdem den Grad an Extraversion: Bin ich eher gesellig oder introvertiert und in mich gekehrt? Und die Verträglichkeit: Wie umgänglich bin ich, komme ich gut mit anderen zurecht?
Ich dachte, ich sei einfühlsam
Zwei Tage später ist es so weit: Ich bekomme meine Auswertung. Obwohl ich mich als sehr gestresst wahrgenommen hatte, attestiert mir die Software immerhin eine durchschnittliche Gelassenheit in der Kommunikation. Ich wirke nicht sonderlich selbstbewusst in meiner Rede, verwende zu viele relativierende Formulierungen wie „ich versuche“, „eigentlich“ oder „glaube ich“. Dafür bekomme ich aber ganz gute Werte bei der Zuverlässigkeit.
Zum Teil kann ich mich in der Einschätzung wiederfinden. In anderen Punkten gar nicht: Unter anderem sei ich in meiner Kommunikation nicht sonderlich unterstützend. So sei ich eher selten bestrebt, die Situation meines Gesprächspartners zu verstehen. Dabei halte ich mich eigentlich für ziemlich sozial und empathisch. Hat die Maschine also wirklich treffend mein Wesen erkannt?
„Es gibt keine Studien in anerkannten internationalen Fachzeitschriften, wie gut sich die Software von Precire schlägt“, sagt Jarek Krajewski vom Institut für experimentelle Psychophysiologie in Düsseldorf. Krajewski selbst organisiert wissenschaftliche Wettbewerbe, in denen er Forscherteams gegeneinander antreten lässt. Die Experten versuchen dabei mittels maschineller Intelligenz, aus Stimmen Emotionen oder die Persönlichkeit auszulesen. Doch die Mitarbeiter von Precire nehmen an diesen Wettbewerben nicht teil. „Das muss nichts heißen“, so Krajewski, „stimmt mich aber schon ein wenig skeptisch.“
Muskelspannung und Mikrozittern
Doch zumindest das Grundprinzip, durch das Precire aus der Stimme Informationen wie Emotionen und Persönlichkeitseigenschaften auslesen will, sei aus der Forschung bekannt und plausibel. Bevor Maschinen auf unsere Stimmen losgelassen werden, muss man die Algorithmen zunächst mit großen Mengen an Sprachdaten füttern und trainieren. Genau wie bei Precire ziehen auch andere Stimmanalyseprogramme tausende von Kennzahlen heran.
Ein Teil dieser Kennzahlen bezieht sich etwa auf die Frequenzen, wie sie von dem Sprechtrakt, der als Resonanzkörper dient, verstärkt oder abgedämpft werden. „Ist man gestresst und angespannt, sind die Wände des Trakts aufgrund höherer muskulärer Spannung fester“, erklärt Jarek Krajewski. „Die Dämpfung des Sprachsignals fällt dann geringer aus.“ Das kann man sich ein bisschen wie beim Tennis vorstellen. Gegen eine harte Wand gespielt, kommt der Ball härter und weniger abgedämpft zurück als bei einer weichen Matte.
Aber es gibt auch Merkmale, unter denen man sich ohne Analogie etwas vorstellen kann: Bin ich etwa unsicher, drückt sich das in einem Mikrozittern meiner Stimme aus. „Und die Tonhöhe ist dann weniger variabel, man ist weniger mutig im Rauf und Runter der Stimme“, so Jarek Krajewski.
Die Stimme als Lügendetektor
Nicht nur auf die Stimme, sondern auch auf andere Informationsquellen wie etwa den Gesichtsausdruck setzen Forscher und Unternehmen derzeit Algorithmen an. Doch die Stimme hat einen unleugbaren Vorteil gegenüber dem Gesichtsausdruck: Mit ihr können wir viel schlechter lügen. Es fällt uns vergleichsweise leicht, etwa einen unsympathischen Kollegen nett anzulächeln und uns unseren Teil nur zu denken.
„Das ist mit der Stimme viel schwieriger“, sagt der Psychologe Klaus Scherer, emeritierter Professor der Universität Genf und Gründungsdirektor des Swiss Center for Affective Sciences. Die Stimme liefert auch sonst teilweise verlässlichere Informationen über unseren seelischen Zustand. „In der Stimme lässt sich starker Ärger oder extreme Erregung viel besser auslesen als über den Gesichtsausdruck“, so Scherer.
Immer diese Mischgefühle
Wie gut Maschinen dabei abschneiden, unser Innerstes auszuhorchen, hängt aber auch von den Umständen ab. „Wenn die Emotion recht grob, sehr ausgeprägt und relativ gut abgegrenzt ist von anderen, dann liegen die Erkennungsraten bei rund 80 Prozent“, sagt Jarek Krajewski. Eine sehr ausgeprägte Wut im Straßenverkehr etwa können Maschinen gut erkennen. Eine leichte Wut sei schon schwerer zu identifizieren.
Außerdem treten unsere Emotionen im Alltag in der Regel nicht als Einzelgänger auf, sondern als Gruppe, beispielsweise als freudige oder traurige Überraschung, und sie sind voller Nuancen. „In solchen Fällen sind die Ergebnisse nicht gut oder man bekommt sogar gar keine Ergebnisse“, sagt Krajewski.
Auch der immense Datenbedarf der Maschinen macht den Forschern zu schaffen. Sie brauchen einen riesigen Berg von Vergleichsinformationen, um zu einem halbwegs zuverlässigen Urteil zu kommen. „Für gute Ergebnisse sind idealerweise Daten von mehreren tausend Sprechern nötig“, so Jarek Krajewski. Doch „meist hat man bestenfalls nur hundert Sprecher für das Training und daher auch schlechtere Ergebnisse.“
Die automatisierte Emotionserkennung hat Grenzen
Allerdings tun sich nicht nur kühl rechnende Maschinen bisweilen mit Emotionen schwer. Auch wir Menschen sind keine absoluten Gefühlsexperten, was die Stimme angeht. „Die Übereinstimmung unterschiedlicher Experten, die die Emotionen von Menschen anhand gesprochener Sprache unabhängig voneinander beurteilen sollen, ist nicht besonders hoch“, sagt der Informatiker Florian Gallwitz von der Technischen Hochschule Nürnberg.
Dies setzt der automatisierten Emotionserkennung ebenfalls Grenzen: „Denn das Training solcher Systeme basiert ja auf Labels, die zuvor von Menschen vergeben wurden.“ Menschen beurteilen also zunächst, welche Emotion in der Stimme mitschwingt. Sie vergeben bei Stimmbeispielen dann Labels wie „Wut“ oder „Freude“, mit denen wiederum die Algorithmen trainiert werden.
Das bedeutet aber auch: Maschinen werden wohl prinzipiell keine Emotionen aus der Stimme auslesen können, die wir als Menschen selbst nicht erkennen. Irgendwie ist das beruhigend zu hören angesichts von Befürchtungen, Unternehmen könnten mithilfe von künstlicher Intelligenz (KI) eines Tages zu rein kommerziellen Zwecken in unserer Seele lesen wie in einem Buch.
Überzeugende Ergebnisse nur unter Laborbedingungen
Wie steht es aber nun mit den Persönlichkeitseigenschaften? Die konnte ja die Software von Precire aus meinem fiktiven „Jobinterview“ angeblich auch auslesen. Hierzu gibt es solide Forschung. Studien stießen im Laufe der Zeit immer wieder auf interessante Merkmale in der Stimme, die Rückschlüsse auf unsere Persönlichkeitseigenschaften zulassen. Bin ich etwa ein extravertierter Mensch, spreche ich tendenziell mit lauterer Stimme und gehe mit der Tonhöhe mehr rauf und runter, als wenn ich ein in mich gekehrter Typ bin. Bin ich von emotional labilem Naturell, ist mein Sprechtempo sprunghafter.
Doch auch beim automatisierten Auslesen von Persönlichkeitseigenschaften plagen sich Forscher und Unternehmen mit Problemen herum. Denn es ist eine Sache, im Labor die Algorithmen unter ganz bestimmten Umständen zu trainieren. Man lässt etwa eine einzelne Person etwas vorlesen. Unter eben diesen Bedingungen schlagen sich die Maschinen in anschließenden Testsituationen ganz gut. Aber etwas ganz anderes ist es, wenn sie sich außerhalb des Labors unter veränderten Bedingungen unter Beweis stellen müssen. Wenn sich dann etwa mehrere Menschen in einem Raum gemeinsam unterhalten, dann schneidet die Software bei der Stimmanalyse nicht so toll ab.
Studien zufolge liegen die Raten, zu denen Maschinen die Persönlichkeitsdimensionen Offenheit, Gewissenhaftigkeit, Extraversion, Sozialverträglichkeit und emotionale Stabilität erkennen, bei maximal 60 bis 80 Prozent. Sprechen wir also mit einer App oder telefonieren mit einem Kundenservice, werden die Unternehmen wohl auch in absehbarer Zeit nicht wirklich mit Sicherheit wissen, ob wir etwa gewissenhaft oder emotional instabil sind.
Hitzige Paare, kühle Maschinen
Allerdings wäre es bei einem anderen Thema vielleicht sogar wünschenswert, wenn Maschinen gut über unser Innenleben Bescheid wüssten: bei der seelischen Gesundheit. So kann etwa eine dauerhaft anstrengende Beziehung mit unserem Partner nicht nur auf unsere Stimmung, sondern auch auf unsere Gesundheit schlagen. Forscher wissen dabei schon lange, dass die Art, wie Partner miteinander reden, Aufschluss darüber gibt, wie es um ihre Beziehung bestellt ist. Wenn zwei Menschen einen Paartherapeuten aufsuchen, sehen sie das oft als letzte Gelegenheit, die kriselnde Beziehung noch zu retten.
Der Ingenieur Shrikanth Narayanan von der University of Southern California setzt nun genau auf solche oft hochemotionalen Paargespräche die kalte Analytik von Maschinen an. Klinische Psychologen mühen sich schließlich schon lange, anhand veränderter Kommunikationsmuster zu bestimmen, wie effektiv eine Paartherapie war.
Narayanan macht sich dabei die Erkenntnis zunutze, dass zwar Wörter trügerisch sein können, aber nicht der Tonfall der Stimme. Mit Kollegen griff er auf Audioaufnahmen von mehr als 100 Ehepaaren zurück. Die Mitschnitte hatte man während Therapiesitzungen im Laufe von zwei Jahren angefertigt. Ein Algorithmus zerlegte die Aufnahmen in eine Vielzahl akustischer Merkmale wie die Lautstärke, die Tonhöhe, aber auch in Indikatoren, die anzeigten, ob eine Stimme im Zuge starker Emotionen zitterte oder brach. Die Software studierte ferner, wie sich die Bemerkungen des einen Partners auf die Emotionen des anderen auswirkten.
Der Ton macht die Musik
Die Forscher fanden heraus, dass tatsächlich der Ton die Musik machte: Es kam nicht nur darauf an, was man sagte, sondern auch darauf, wie, also mit welcher Stimme man das tat. Und das gab dem Team um Narayanan Aufschluss über den emotionalen Zustand der Eheleute. Mit einer Trefferquote von 79 Prozent konnte der Algorithmus vorhersagen, ob sich das Verhältnis der Eheleute im Zuge der Paarberatung verbessert oder verschlechtert hatte.
Damit schlug er sogar menschliche Experten, die sich das kommunikative Verhalten der Eheleute angehört und es bewertet hatten. Es handelt sich zwar nur um erste Ergebnisse. Aber wer weiß: Vielleicht ist der Eheberater der Zukunft ein Algorithmus, der uns sagt, ob unsere Beziehung noch eine Chance hat.
So klingt eine Depression
Auch was psychische Krankheiten angeht, ist unsere Stimme verräterisch. Schon im Jahr 1921 notierte der deutsche Psychiater Emil Kraepelin über Menschen mit Depressionen: „Die Patienten sprechen leise, langsam, zögernd, monoton, manchmal stotternd, flüsternd, nehmen mehrere Anläufe, um ein Wort herauszubringen, oder brechen mitten in einem Satz ab.“
Emil Kraepelin hätte sich wohl kaum träumen lassen, dass ein Jahrhundert später Maschinen auf die Stimme von psychisch erkrankten Menschen angesetzt werden würden.
Bei psychischen Störungen wie Depressionen beruhen die Diagnosen bislang auf subjektiven klinischen Einschätzungen, indem Kliniker ihren Patienten möglichst genau zuhören und sie genau beobachten. Mit der automatisierten Stimmanalyse streben Forscher nach langersehnten objektiven Markern für die Diagnose. Wie gut macht sich künstliche Intelligenz als Diagnostiker?
Die Depression spricht langsamer
Experten stufen die Schwere einer Depression typischerweise auf Skalen ein, die von null (nicht depressiv) bis rund 50 oder 60 (stark depressiv) reichen. „Die Abweichung in der Erkennung durch die automatisierte Stimmanalyse liegt bei 5 bis 8 Punkten“, sagt Jarek Krajewski. Spuckt eine Maschine also bei einem Menschen als Ergebnis 20 aus, liegt der wahre Wert irgendwo zwischen 15 und 25. Innerhalb sehr grober Depressionsklassen klappt die Erkennung damit ziemlich gut. Eine KI verwechselt also eine milde Depression selten mit einer schweren. „Ganz punktgenaue Diagnosen bekommt man damit aber nicht“, schränkt Krajewski ein.
Fallen Menschen mit Depressionen durch ihre langsamere Sprechweise auf, findet man bei Kindern mit ADHS das Gegenteil, wie deren Eltern nur zu gut wissen. Im Vergleich zu anderen Kindern überschlagen sie sich geradezu beim Sprechen. Zudem reden sie lauter, schreien mehr und fallen durch Kurzatmigkeit beim Sprechen auf. Die Betroffenen sind auch nicht gerade bekannt dafür, einen kühlen Kopf zu bewahren.
Den stimmlichen Überschwang zu erkennen, den dies mit sich bringt, damit haben Maschinen wenig Probleme. Und geht es etwa nach PeakProfiling, einer Ausgründung der Berliner Humboldt-Universität, sollen automatisierte Stimmanalysen tatsächlich bei einer diagnostischen Abklärung auf ADHS Zubringerdienste leisten.
Musik in der Stimme
Das Programm arbeitet mit musikalischen Merkmalen der Stimme. Das ist auch kein Wunder, denn die Forscher kommen ursprünglich aus der quantitativen Musikwissenschaft. „Wir untersuchen hunderte oder sogar tausende Merkmale innerhalb der Bereiche der Stimme, die man auch aus der Musik kennt: Lautstärke, Timbre, Tempo, Rhythmus und Melodie“, erläutert Claudio Hasler, Mitgründer und Geschäftsführer des Berliner Unternehmens.
Die Software zerlegt die Stimme in winzigste Einzelteile und analysiert die Zusammensetzung. Dabei sorgte sie immer wieder für Überraschungen. So klingen Kinder mit ADHS zwar oftmals sehr lebendig. Im Bereich von Millisekunden wies ihre Stimme aber deutlich weniger Variationen auf als die von anderen Kindern – im Grunde genommen ist die Stimme also eher monoton.
Zwischenergebnisse der Forschung hat PeakProfiling 2017 auf einem Kongress der World Psychiatric Association in Berlin vorgestellt: Mit Trefferquoten von rund 70 bis über 90 Prozent war es möglich, Patienten mit ADHS von anderen Probanden zu unterscheiden. Doch bis solche diagnostischen Hilfsmittel die klinische Praxis erreichen, werden noch Jahre ins Land ziehen. Bis dahin heißt es für die menschlichen Behandler auch weiterhin: Gut zuhören ist das A und O.
Zum Weiterlesen
The Oxford Handbook of Voice Perception. Edited by Sascha Frühholz and Pascal Belin. Oxford University Press, Oxford 2019
M. Nasir: Predicting couple therapy outcomes based on speech acoustic features. Plos One, 12/9, 2017, e0185123