Eine aktuelle Studie des Max-Planck-Instituts für empirische Ästhetik (MPIEA) hat untersucht, wie Menschen den Unterschied zwischen echten und synthetischen Stimmen wahrnehmen. Dazu formulierten die Forscherinnen 16 kurze Sätze auf Deutsch, wie z. B.: „Der Junge schenkte seinem Vater einen Hut.“ Anschließend manipulierten sie die Sätze, indem sie einmal die Wortreihenfolge änderten, ein anderes Mal die Worte durch Synonyme ersetzten und ein drittes Mal beides miteinander kombinierten. So entstanden insgesamt vier Varianten jedes Satzes. Alle Satzvarianten wurden von acht menschlichen Sprechern aufgenommen sowie von acht computergenerierten Text-to-Speech-Stimmen (TTS) eingesprochen. Anschließend bewerteten 40 deutschsprachige Studienteilnehmer, wie menschlich die Stimmen ihrer Meinung nach klangen. Die Forscher stellten fest, dass die computergenerierten Stimmen als weniger menschlich empfunden wurden als die menschlichen Stimmen. Eine Analyse der akustischen Stimmmerkmale ergab, dass es tatsächlich objektiv messbare klangliche Unterschiede zwischen menschlichen und TTS-generierten Stimmen gibt. Dazu gehörten z. B. die Klangfarbe und Intonation. Auch der Inhalt des Gesagten hat Einfluss darauf, wie menschlich eine Stimme klingt. So fanden die Forscher heraus, dass die manipulierten Sätze für die Teilnehmer weniger menschlich klangen als die Originalsätze – unabhängig davon, ob ein echter Mensch oder eine TTS-generierte Stimme sie eingesprochen hatte. Auffallend war, dass ältere Menschen computergenerierte Stimmen tendenziell als menschlicher empfanden als jüngere Menschen. Die Ergebnisse der Studie wurden 2026 im Fachmagazin „Speech Communication“ veröffentlicht.
