Digitale Assistenten sind für uns schon lange keine Neuheit mehr, egal ob Siri, Cortana & Co, wir nutzen sie bereits in Smartphones, Fernsehern oder im Auto. Auch wenn wir uns heute teils noch über die Antworten von digitalen Assistenten lustig machen, stellt Spracherkennung eine Revolution dar, die unseren Umgang mit Computern radikal verändert. Zwar sind wir über die Befehlseingabe längst hinaus und Siri & Co beantworten uns schon heute Fragen oder führen Aktionen aus, auch wenn wir einfach frei mit ihnen sprechen, dennoch klappt das nicht immer auf Anhieb. Wer kennt das nicht: Man redet, aber wird einfach nicht verstanden. Wir können nicht immer davon ausgehen, dass Menschen, die uns zuhören, uns auch verstehen. Das kann daran liegen, dass man schlicht nicht die gleiche Sprache spricht oder es in der Umgebung einfach zu laut ist. Möglicherweise wurde einem auch schon öfter gesagt, dass man undeutlich spricht… Das Diktieren übers Telefon oder buchstabieren des Familiennamens klappt oftmals nicht. Auch ob man „sie“ oder „Sie“ schreibt, ist für manchen Menschen unerreichbare Kunst.

Als Menschen machen wir uns diese Probleme bewusst und fragen nach: Was hast du gesagt? Ich habe es nicht verstanden, weil es zu laut ist. Aber einem Computer bleibt nur eine einzige automatische Antwort: „Ich habe Sie nicht verstanden. Bitte wiederholen Sie, was Sie gesagt haben.“ Tatsächlich hat der Computer in diesem Moment noch nicht einmal verstanden, was er nicht verstanden hat!

Und nun wollen wir mit Computern reden? In Filmen sieht es schon so einfach aus: der Protagonist redet und der Computer macht –was eigentlich? Damit die Verwendung von Spracherkennung und virtuellen Assistenten auch für den alltäglichen Gebrauch sinnvoll wird, müssen wir uns klarmachen, was der Computer für uns erledigen soll, wie er Worte und Ansagen aufnimmt und wo die Grenzen eines technischen Geräts liegen. Computer arbeiten nach dem Prinzip Eingabe, Verarbeitung, Ausgabe. Die Eingabe ist unsere Sprache, die in Form eines Audiosignals den Computer erreicht. Der Computer hört in diesem Moment: ein Audiosignal. Wenn das Audiosignal von einem Presslufthammer kommt, wird der Computer auch hier zunächst versuchen, Sprache zu erkennen. Er hört zu, versteht es aber nicht. Zur Verarbeitung des Audiosignals stehen zwei grundsätzliche Wege offen. Ein Audiosignal kann auf eine CD gebrannt und zum Beispiel als Hörbuch im Auto gehört werden. Doch wir wollen mehr: Das Audiosignal soll weiter verarbeitet werden, damit nach der Verarbeitung der Text beispielsweise auf dem Bildschirm erscheint. Das Wort „Desoxyribonukleinsäure“ erscheint auf dem Screen nur dann richtig, wenn es bereits einmal in den Computer programmiert wurde. Ansonsten erscheint etwas wie „Deso xy bonu klein Säure“. Der Computer hört zwar zu und schreibt Wörter, versteht das Gesagte aber nicht.

Der Schlüssel für die Nutzung von digitalen Assistenten, die das Gesagte nicht nur aufnehmen, sondern sogar richtig erfassen und in nützliche Aktionen umwandeln können, liegt darin, den Computer am menschlichen Wissen teilhaben zu lassen. Das geschieht, indem man Worte geschrieben und gesprochen in das System eingibt und so das System mitlernen lässt. Die persönliche Erkennung wird dann in einem Sprachprofil gespeichert. Sobald ein vernetztes Gerät Zugriff auf dieses Sprachprofil hat, hören Sie: „Ich habe Sie nicht verstanden“ nur noch selten von Ihrem Computer.

Wenn wir künftig so mit unseren Geräten zusammenarbeiten, dann ändert Spracherkennung verbunden mit künstlicher Intelligenz die Verarbeitung von Daten und Informationen, wie es bisher nicht möglich war. Durch Nutzung von Sprache wird die komplexe Steuerung technischer Geräte im Internet der Dinge (Klimaanlagen, Fernseher, Haushaltsgeräte) radikal vereinfacht und die technischen Helfer von noch größerem Nutzen für uns. Genau mit diesem Schwerpunkt haben wir uns in der diesjährigen Kommunikation für unseren Kunden Nuance Communications beschäftigt. Wir haben Redakteuren die neuen Lösungen präsentiert und gezeigt, dass die anfänglichen Schwierigkeiten technisch überwunden sind. Jetzt geht es darum, auch die menschlichen Hürden und Bedenken zu beseitigen. Dazu haben wir einen Blick hinter die Kulissen geboten und die Journalisten in die Sprachlabore und das europaweit größte Forschungszentrum von Nuance nach Aachen eingeladen. Hier war sehen, hören, testen die Devise. Wir sind gespannt auf die kommenden Entwicklungen und Innovationen auf diesen Gebieten – wer weiß, vielleicht überrascht man uns bereits zur CES 2016!?

Weitere aktuelle News rund um das Thema Technik, Innovationen und deren Trends

Technik/Innovation/Trends

Zurück zum Blog

Arbeiten Sie mit uns

Überzeugt? Dann kontaktieren Sie uns und wir melden uns schnellstmöglich bei Ihnen!

Kontakt

Immer auf dem Laufenden bleiben mit dem HBI Newsletter