Karolina Kania, Project Manager w Axendi, rozmawia z Piotrem Kempą, Dyrektorem R&D i twórcą Primebota, o tym, czym właściwie jest voicebot, z czego się składa i jakie technologie stoją za jego skutecznością.
Czym właściwie jest voicebot i z czego się składa?
Piotr Kempa:
Voicebot to program komputerowy, który zastępuje człowieka w wybranych zadaniach. Technicznie rzecz biorąc, bot to przede wszystkim elektroniczny „mózg” – nazywany często silnikiem – który, odpowiednio nauczony przez człowieka, potrafi prowadzić rozmowę, rozumieć wypowiedzi rozmówcy, interpretować je i właściwie kierować dialogiem.
Żeby taki silnik mógł komunikować się ze światem zewnętrznym, musi mieć zestaw interfejsów. W przypadku voicebota telefonicznego mówimy m.in. o:
-
interfejsie do systemu telefonicznego,
-
module rozpoznawania mowy (ASR – Automatic Speech Recognition),
-
module syntezy mowy (TTS – Text-to-Speech).
Bardzo ważny jest też interfejs do systemu klienta – umożliwiający pobieranie i zapisywanie danych, udzielanie informacji i realizację procesów biznesowych.
Czy każdy bot wygląda inaczej w zależności od procesu?
Karolina Kania:
Czyli bot – w zależności od procesu, który ma obsługiwać – za każdym razem będzie miał nieco inną „formę”, opartą na tym samym silniku. W przypadku Primebota jest to silnik własnej produkcji. Czy są na rynku różne typy takich silników?
PK:
Tak, silniki voicebotów można podzielić według sposobu uczenia:
-
Silniki regułowe (rule-based) – klasyczne rozwiązanie, w którym projektujemy zestaw reguł i dopasowujemy je do wypowiedzi użytkownika. Na tej podstawie bot wyciąga wnioski.
-
Silniki neuronowe – oparte na uczeniu maszynowym i sieciach neuronowych, samodzielnie uczące się na bazie danych.
Z naszego doświadczenia wynika, że najlepiej sprawdzają się modele hybrydowe, łączące zalety obu podejść. Takie właśnie rozwiązania stosujemy w botach Axendi.
Jakie syntezatory mowy są dostępne w Polsce i które warto stosować w voicebotach?
PK:
Na polskim rynku korzystamy głównie z trzech dostawców. Dwóch z nich to liderzy usług chmurowych, a trzeci oferuje rozwiązania on-premise – instalowane lokalnie, co bywa niezbędne przy ograniczeniach dotyczących przetwarzania danych.
Primebot jest zintegrowany ze wszystkimi trzema. Co więcej, może w dowolnym momencie przełączyć się na inny głos lub usługę syntezy – wystarczy drobna konfiguracja.
Obecnie rozróżnia się klasyczne i neuronowe modele syntezy mowy. Głosy neuronowe, takie jak WaveNet, brzmią bardziej naturalnie i są oparte na najnowszych technologiach. Są też zazwyczaj nieco droższe – ale jakość wynagradza koszt.
Czy warto korzystać z nagrań lektorskich zamiast syntezy?
KK:
Wspomniałeś też o możliwości użycia nagrań lektorskich. Czy to się opłaca?
PK:
Tak – w niektórych przypadkach nagrania lektorskie są świetnym rozwiązaniem, np. gdy treści są stałe i się nie zmieniają. Jednak jeśli pojawiają się zmienne dane – jak numery referencyjne, imiona, adresy e-mail – wtedy lepiej sprawdza się synteza mowy. Jest płynniejsza i bardziej elastyczna.
Jakie inne elementy składają się na pełną platformę voicebota?
PK:
Oprócz wspomnianego silnika i interfejsów, kompletna platforma voicebotowa powinna zawierać:
-
Panel raportowy – z historią rozmów, billingiem, analizą statystyczną,
-
Dialer – do realizacji kampanii wychodzących,
-
Integracje z systemami klienta – obsługujące różne formaty danych i standardy,
-
Graficzny edytor bota – umożliwiający klientom tworzenie lub modyfikację bota bez potrzeby kodowania.
Podsumowanie: voicebot, który naprawdę działa
Dobry voicebot to nie tylko automatyzacja – to także jakość, bezpieczeństwo i elastyczność. Jak podkreśla Piotr Kempa, skuteczny bot potrzebuje odpowiednio zaprojektowanego silnika, naturalnego głosu i integracji z procesami klienta. Właśnie takie podejście rozwijamy w Axendi.