Dana Saager
Design
Share this article on
User Experience

Sag mir VUI du heisst, und ich sag dir was du willst

Die digitale Welt ist schnelllebig. Und die neuen Herausforderungen des schnellen Lebens erfordern ein neues Denken. Um Brands nachhaltig modern und erfolgreich auf dem Markt zu platzieren, müssen wir ständig »outside the box« denken.

Wir leben in einem Zeitalter der digitalen Transformation und wir bei CELLULAR versuchen von und mit ihr zu lernen — und vor allem — sie mitzugestalten. Seit rund sechs Jahren arbeite ich bei CELLULAR in Hamburg und betreue als Lead Designerin unter anderem Kunden wie ZDF, TV Spielfilm und den Schweizer Internetanbieter Sunrise.

Deswegen möchte ich einige Projekte vorstellen, für die wir in den letzten Monaten interessante Applikationen im Bereich Voice User Interface (VUI) entwickelt haben. Dabei soll es vor allem um die Anwendungsbereiche von VUI gehen, und darum, warum wir dafür auch immer Graphical User Interfaces (GUI) Design brauchen.

Weil sie’s versteht

Voice User Interfaces sind Benutzeroberflächen, die über Audiobefehle verschiedene Skills abrufen können und in gesprochener Sprache wiedergeben. Sprachbenutzeroberflächen wie beispielsweise die von Grosskonzernen wie Apple, Google und Amazon finden wir mittlerweile überall: ob in Telefonen, Fernsehern, Autos oder Smart Homes; Alleine in 2017 verkaufte Amazon Alexa im zweistelligen Millionenbereich. Mit den Fortschritten in der Spracherkennung und der Smart-Home-Technologie kann man erwarten, dass immer mehr Skills, also auch Anbieter, auf den Markt kommen.

Zwar sind wir derzeit noch auf dem Niveau, dass Alexa, Siri und Co. hauptsächlich das Wetter vorlesen oder die aktuelle Playlist wiedergeben, doch ist zu erwarten, dass die Skills immer mehr auf intelligente Intentions- und Sprechererkennung ausgelegt werden. Mit Intention ist in diesem Fall gemeint, dass Fragen oder Befehle weniger konkret formuliert werden müssen, damit der Voice Skill weiss, wovon die Rede ist.

So sollte beispielsweise ein Taxi zum Flughafen bestellt werden können, während man mit gehetzt und genervter Stimme vor sich hinmurmelt, dass man eigentlich viel zu spät dran ist. Der Voice Skill erkennt die Intention (Taxi bestellen und zwar dringend) und versucht über alle möglichen Kanäle schnellstmöglich die beste Lösung zu erzielen. Wenn der Nutzer hingegen nicht in einer stressigen Situation ist, wählt der Skill eine bequeme und preisgünstige Variante der Beförderung.

Warum wir für VUI auch GUI Design brauchen

Ein Punkt, der recht trivial wirkt, ist, dass eine Voice Applikationen aktuell auch immer noch grafische Unterstützung brauchen, wenn es darum geht, ihre Vorteile zu kommunizieren und Funktionen zu erklären. Sie sind nicht selbsterklärend und derzeit nicht schlau genug, um jeglichen Input verarbeiten zu können.

Eines ist dabei mal wieder ganz klar: Das gute Aussehen ist die halbe Miete. Wenn Siri (Apple), Alexa und der Echo Spot (Amazon), Google Home, Bixby und Viv (Samsung) oder andere Voice Skills online präsentiert werden, dann tritt immer das gleiche Problem auf: Offensichtlich fällt es den Anbietern schwer, das Produkt, dessen Fokus auf den Voice Skills liegt, auch visuell ansprechend darzustellen.

Meistens erhalten die interessierten User keine klaren Hinweise darauf, was die Benutzeroberfläche genau kann und welche Verwendungszwecke es gibt. Die Anbieter schreiben umständliche Funktionsanweisungen und Beispielfragen an den Skill. Eine eindeutige Problemstellung scheint hier also zu sein, den Medienwechsel von einem rein audiobasierten Device auf die Text- bzw. Bildebene zu transferieren. Ein Beispiel dafür ist die Produktpräsentation des Skills auf Amazon: Zu sehen ist eine Textwüste mit mehr oder weniger zusammenhangslosen Beispiel-Voice-Befehlen.

Um die Voice Skills optimal zu präsentieren, haben wir uns bei der Umsetzung der folgenden Projekte die Kundenbrille aufgesetzt: Welche Fähigkeiten sollte ein VUI haben, damit es meine Marke modern und nutzerbezogen präsentiert? Eine Möglichkeit dabei wäre es, sich von der standardmässigen Produktvorstellung in Online-Shops zu lösen (schliesslich wird hier vorrangig eine Dienstleistung verkauft und nicht das materielle Gerät). Ein Werbevideo oder eine Bild-Collage, aus dem erkenntlich wird, auf welche Art und für welche Zwecke die Bedienung von den Voice Skills möglich und hilfreich sind, würde an dieser Stelle das Produkt audiovisuell darstellen und damit zum idealen Botschaftsträger.

Für’s ZDF haben wir daher eine Plattform geschaffen, die visuell darstellt, was verschiedene Voice Skills leisten können. Durch eine spannende Komposition der Geräte und Informationen, sowie die anschauliche Darstellung der Skills, wird der Nutzen für die User schnell greifbar.

Ay, ay Alexa und bereit zum Anpfiff, Google

Für TUI Cruises haben wir im vergangenen Jahr Alexa auf eine Kreuzfahrtreise geschickt. Hierbei war die Idee, dass der Voice Skill in öffentlichen Bereichen des Schiffs unter anderem Auskunft über Reisedauer, die nächste Hafenstadt oder das Abendprogramm an Bord geben konnte.

Interessant dabei war vor allem die Festlegung der Zielgruppe. Während primär natürlich Erwachsene aller Altersklassen angesprochen werden sollten, waren es vorwiegend Kinder, die wenig Berührungs.ngste mit Alexa zeigten. Die neuste Generation der Digital Natives weist ein deutlich ausgeprägteres Interesse an den Voice Skills auf, als vorhergehende Generationen.

Ein weiteres Beispiel ist der Einsatz von Google Home als Multidevice-Applikation für’s ZDF. So können mithilfe von Voice Actions bei einem Fussballspiel zusätzlich beispielsweise noch Informationen über den Spielstand, Hintergrundinformationen über Spieler oder den Austragungsort erfragt werden.

Nicht reden, nur nett lächeln

Um zu verstehen, welches Zukunftspotential in den Voice User Interfaces steckt, sehen wir uns Watzlawicks berühmten Satz » Man kann nicht nicht kommunizieren « genauer an. Neben Sprechen, Zuhören und Denken spielt vor allem auch die nonverbale Kommunikation eine wesentliche Rolle in der zwischenmenschlichen Verständigung. Durch das nonverbale Feedback (Mimik und Gestik), kann dem Sprecher signalisiert werden, dass der Zuhörer aufmerksam ist oder dass er durch Vermeidung des Blickkontakts auf ein Gespräch verzichten möchte. Wenn man auf das, was man sagt, kein auditives Feedback erhält, kann das frustrierend sein. Bei der zwischenmenschlichen Kommunikation wird diese Situation allerdings häufig durch die Situation, gesellschaftliche Konventionen oder, so wie meistens anhand von nonverbaler Kommunikation aufgeklärt.

Lautstärke, Tonlage, Sprechpausen — das, und vieles mehr, sind die Parameter, die wir für den sozialen Umgang miteinander gelernt haben. Wann ist es angebracht zu flüstern? Wie lange dürfen Pausen beim Sprechen sein, bis man erneut nachfragen kann und sollte? Dieser formellen Faktoren der Sprache und die Rolle des nonverbalen Feedbacks in Bezug auf Voice User Interfaces sind Themenbereiche, in denen noch viel Entwicklungspotential steckt.

Wir sind die Profis der Kommunikation, denn Kommunikation lernen wir seit Geburt an, entsprechend sind auch unsere Erwartungen an Alexa, Siri und Co. Wir haben an das technische Device die gleichen Ansprüche wie in der zwischenmenschlichen Kommunikation. Auf das Gesagte wird eine Antwort erwartet. Diese sollte im Idealfall die erfragte Information beinhalten.

Ähnlich verhält es sich auch damit, wenn das Gegenüber (menschlich oder technisch) nicht sofort eine Antwort parat hat: Es wird zumindest ein nonverbales Feedback erwartet, um sicherzustellen, dass zugehört oder nachgedacht wird. Alexa beispielsweise wird durch das Aktivieren ihres blauen Lichtkranzes ins Bewusstsein gerufen. Sobald man ihren Namen nennt, leuchtet das Licht und sie hört zu. Wenn sie einen Moment zum Nachdenken (Informationen abrufen) braucht, flackert es für einige Sekunden. So weiß der Nutzer, dass sie den Befehl verstanden hat und nun nach einer Antwort oder Lösung sucht. Google Home hingegen zeigt mit einem einfachen weissen Licht, dass das System bereit ist, Sprachbefehle anzunehmen. Sobald die Frage erklingt, erscheinen die bekannten Google Farben auf dem Display und leuchten rhythmisch im Takt des Gesagtem. Bei einer aufwendigeren Aktion, wirbeln die Farben im Kreis und zeigen — ähnlich wie bei Alexa — den Denkprozess des Devices.

Für die oben genannten vier Aspekte der Kommunikation (Sprechen, Zuhören, Denken und nonverbale Kommunikation) wird es in Zukunft also spannend sein, weitere und neue Lösungen für das nonverbale Feedback zu entwickeln und das Zusammenspiel der einzelnen Kommunikationkomponenten zu perfektionieren. Weiter in die Zukunft geschaut wird es spannend komplexere Strukturen verständlich zu machen. Ich muss das Gefühl bekommen, dass ich mich nicht mit einem technischen Gerät unterhalte. Hier wird es spannend was die künstliche Intelligenz bereitstellt und ob wir früher oder später die intelligente Voice-Begleiterin von Joaquin Phoenix in dem oscarprämierten Film HER in unserer Tasche tragen werden.

Connected Multi-Devices sind die Zukunft

Als Fazit möchte ich meine drei Kernthesen noch einmal kurz zusammenfassen: Wenn audiobasierte Devices präsentiert werden sollen, braucht es eine gute Gestaltung. Auch bei den Voice Skills bedarf es noch Entwicklung bezüglich des multimedialen Feedbacks, gerade hinsichtlich der nonverbalen Kommunikation. Die Verschmelzung der verschiedenen Devices und Nutzungsszenarien werden in Zukunft der Schlüssel sein und die Devices bereichern sich gegenseitig. In der richtigen Situation bekomme ich das richtige Device: Diese User-Device-Interaktion wird nachhaltig die User Experience verbessern.

Kontakt

Wir sind gespannt – auf neue Ideen und neue Leute.

HAM
Cellular GmbH
Große Elbstraße 39
22767 Hamburg
Germany
BER
Cellular GmbH
Karl-Marx-Allee 90A
10243 Berlin
Germany
VIE
Cellular GmbH
Lange Gasse 65/14
1080 Wien
Austria
Cellular GmbH
Große Elbstraße 39
22767 Hamburg
Germany
Cellular GmbH
Karl-Marx-Allee 90A
10243 Berlin
Germany
Cellular GmbH
Lange Gasse 65/14
1080 Wien
Austria