in

LoveLove

Česká firma dobyla svět hlasových technologií. Na jejím počátku stál nápad dvou vysokoškoláků…

Nejpřirozenějším komunikačním prostředkem člověka je hlas. U každého z nás má navíc unikátní podobu. Nelze se tedy divit, že technologie pro jeho identifikaci jsou žádaným artiklem. Používají je nejen bezpečnostní složky, ale také nejrůznější firmy. S jejich pomocí totiž lze nejen rozpoznat konkrétního člověka, ale získat také mnoho dalších informací. Tohoto potenciálu využila brněnská firma Phonexia, která se v současnosti řadí k absolutní světové špičce ve svém oboru.

„Ve Phonexii vyvíjíme software pro řečovou analytiku a hlasovou biometrii. Naše technologie hlasové biometrie Deep Embeddings jako první na světě využívá k identifikaci řečníka výhradně neuronové sítě,“ vysvětluje Michal Hrabí, výkonný ředitel Phonexie.

Tyto sítě analyzují krátké úseky hovoru a samy se učí rozpoznávat unikátní prvky hlasu každé osoby. Stejně jako třeba otisk prstu nebo scan oční rohovky i hlasový otisk obsahuje nezaměnitelnou biometrickou informaci, kterou neuronové sítě dokážou rozpoznat a přiřadit je ke konkrétnímu mluvčímu. „Aplikace na této bázi zvyšuje přesnost a rychlost při identifikaci řečníka a výrazně snižuje nároky na hardware, na kterém je náš software provozován,“ dodává M. Hrabí.

Phonexia Speech Engine navíc dokáže určit nejen mluvčího a jazyk, ale pohlaví řečníka, přepsat řeč do textu nebo vyhledat konkrétní slova

Co všechno skrývá hlas

U zrodu mezinárodně úspěšné firmy stáli Petr Schwarz a Pavel Matějka, kteří ještě během svých doktorandských studií představili fonémový rozpoznávač, čímž na sebe strhli pozornost. Když se na ně obrátila firma s poptávkou po komerční licenci, uvědomili si, jak velký tržní potenciál tato technologie má.

Phonexia byla založena v roce 2006 jako spin-off Fakulty informačních technologií na Vysokém učení technickém v Brně. V začátcích pomohla firmě v rozjezdu mimo jiné také česká státní správa, když za objednanou zakázku zaplatila předem a díky této platbě mohli zakladatelé najmout prvního vývojáře.

Tehdy se Phonexia ještě soustředila hlavně na zakázkový vývoj, zatímco dnes se zaměřuje na škálovatelné produkty a pracuje v ní 55 lidí. Stále je pro ni klíčovou spolupráce s Vysokým učením technickým v Brně.

„Vyvíjíme dva produkty, z nichž každý se skládá z několika technologií. Prvním je hlasová biometrie, tedy rozeznání řečníka podle hlasu. Dokážeme rozpoznat, zda se jedná o určitou osobu, identifikovat pohlaví a jazyk, a dokážeme rovněž odhadnout věk dané osoby. Hlasovou biometrii lze využít k prevenci proti podvodníkům, kteří používají více identit, u tzv. mikropůjček sjednávaných po telefonu nebo pro autentifikace volajícího v bankách, které tak můžou rychleji identifikovat volajícího,“ přibližuje práci podniku M. Hrabí.

Druhým je řečová analytika, kde je důležitý obsah sdělení. „Z audionahrávky, ať už se jedná například o telefonický hovor, nebo záznam z mikrofonu, vytvoříme přepis do textu. Tento druh analytiky se často využívá v call centrech finančních institucí, mobilních operátorů nebo cestovních kanceláří a mezi naše klienty patří i poskytovatelé energií. V hlasové biometrii jde tedy o to, kdo mluví, v řečové analytice se soustředíme na obsah řečeného. Oba produkty se dají libovolně kombinovat,“ dodává M. Hrabí.

Petr Schwarz (vpravo) patří k zakladatelům úspěšné české firmy Phonexia. Na snímku
s výkonným ředitelem Michalem Hrabím.

Mezi klienty i německá „FBI“

Ve veřejném sektoru pomáhají tyto softwarové technologie forenzním expertům a kriminalistům při vyšetřování trestných činů porovnáváním hlasových nahrávek obžalovaných s pachateli trestných činů.

Protože se jedná o citlivé technologie, Phonexia se snaží, aby se nedostaly do nepovolaných rukou. Řídí se restrikcemi Evropské unie a v případě podezřelé poptávky se zjišťuje účel užití jejich technologie. Firma spolupracuje jen s partnery ze zemí, které nejsou v konfliktu se zeměmi NATO a jejich partnery.

Mezi její klienty patří i taková prestižní bezpečnostní organizace, jakou je německá spolková kriminální policie BKA (Bundeskriminalamt), obdoba americké FBI. Sami forenzní experti v BKA nedávno testovali tři špičkové technologie na hlasovou biometrii v rámci nezávislé evaluace, která simulovala reálné podmínky. Technologie Phonexia z jejich testu vyšla s nejlepšími výsledky, protože měla nejmenší chybovost, respektive nejvyšší přesnost.

K prestižním klientům se řadí také společnost innogy, která si přála především zkvalitnit služby zákazníkům a zefektivnit práci v call centru.

„Do kontaktního centra innogy jsme implementovali řešení hlasové analytiky. Právě tato technologie zásadně pomohla zpřesnit informace, které dostává vedení kontaktního centra,“ podotýká M. Hrabí. 

Kategorizace témat hovorů přitom probíhá díky hlasové analytice automaticky, a to až s 97% přesností. Dokáže analyzovat témata, které kontaktní centrum právě řeší, a reagovat tak na aktuální problémy, hlídat používání nevhodných termínů, sledovat vytíženost call centra i výkon jednotlivých agentů. Veškeré hovory jsou navíc automaticky přepisovány a umožňují manažerům i supervisorům snadnější orientaci při jejich vyhledávání. Díky automatické detekci témat v hovorech dokázali v innogy zvýšit úspěšnost nabízených služeb a zkrátit čas potřebný pro náslech hovoru o dvě třetiny.

Technologie budoucnosti

Jak bylo uvedeno již na začátku, hlas je nejpoužívanější a hlavně nejpřirozenější komunikační prostředek. I proto čeká hlasové technologie v budoucnu další rozvoj.

Velkou příležitost vidíme  v nastupujících osobních virtuálních asistentech, konkrétně v hlasovém zadávání příkazů, ovládání chytré domácnosti (například nastavení teploty v místnosti) nebo u vstupu do budov. S postupující miniaturizací nejrůznějších zařízení, ke kterým nepůjde ani připojit klávesnice, najde hlas právě zde své široké uplatnění,“ je přesvědčena Michal Hrabí.

Hlasová analytika v kombinaci s hlasovou biometrií bude nejspíš stále častější v call centrech. V hovorech se zákazníky se totiž skrývá velké množství cenných dat, která ovšem většina call center zatím systematicky neanalyzuje.

Velký potenciál pro budoucnost v sobě skrývají určitě i osobní asistenti ovládaní hlasem. Ti najdou svoje využití v kancelářích, domácnostech, ale třeba i v Průmyslu 4.0. Také se dá očekávat, že dojde k rozšíření tzv. voicebotů, tedy mluvicích chatbotů. Když jako zákazník zavoláte do call centra banky a budete potřebovat něco urgentně vyřídit, ale všechny linky budou obsazené, již nebude nutné čekat na lince, ale telefonát může odbavit právě takový voicebot,“ uzavírá Michal Hrabí.

Romana Slaninová

What do you think?

2 points
Upvote Downvote

Comments

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Loading…

0

Comments

0 comments

Klavír v observatoři a ukradené články. Nenápadný astronom žil v nemilosti, přesto dobyl hvězdářský svět

Plzeňský Prazdroj zkouší kolaborativní roboty. Důležitá je i spolupráce s technickými SŠ