Numărul de aplicații și importanța interfețelor de voce crește rapid

Conținut

patru mari
Americanii vor să cumpere
Spălați, coaceți, curățați!
Concept vechi. A sosit timpul ei în sfârșit?
întrebare dificilă din punct de vedere tehnic
Voce? Arte grafice? Sau poate ambele?
Atenție la siguranță!

O familie americană din Portland, Oregon a aflat recent că asistentul vocal al lui Alex le-a înregistrat conversațiile private și le-a trimis unui prieten. Proprietarul casei, numită Danielle de presă, a declarat reporterilor că „nu va mai conecta niciodată acel dispozitiv pentru că nu se poate avea încredere în ea”.

Alexa, furnizate de difuzoarele Echo (1) și alte gadgeturi în zeci de milioane de case din SUA, începe înregistrarea atunci când aude numele sau „cuvântul de apel” rostit de utilizator. Aceasta înseamnă că, chiar dacă cuvântul „Alexa” este menționat într-un anunț TV, dispozitivul poate începe înregistrarea. Exact asta s-a întâmplat în acest caz, spune Amazon, distribuitorul de hardware.

„Restul conversației a fost interpretat de asistentul vocal ca o comandă de a trimite un mesaj”, a spus compania într-un comunicat. „La un moment dat, Alexa a întrebat cu voce tare: „La cine?” Continuarea conversației de familie despre podelele din lemn de esență tare ar fi trebuit să fie percepută de mașină ca un articol pe lista de contacte a clientului.” Cel puțin așa crede Amazon. Astfel, traducerea se reduce la o serie de accidente.

Anxietatea, însă, rămâne. Pentru că dintr-un motiv oarecare, într-o casă în care ne simțeam încă în largul nostru, trebuie să intrăm într-un fel de „mod voce”, să urmărim ce spunem, ce transmite televizorul și, bineînțeles, ce difuzorul acesta nou pe piept. sertare spune . ne.

In orice caz, În ciuda imperfecțiunilor tehnologice și a preocupărilor legate de confidențialitate, odată cu creșterea popularității dispozitivelor precum Amazon Echo, oamenii încep să se obișnuiască cu ideea de a interacționa cu computerele folosind vocea lor..

După cum a remarcat Werner Vogels, CTO al Amazon, în timpul sesiunii sale AWS re:Invent de la sfârșitul anului 2017, tehnologia a limitat până acum capacitatea noastră de a interacționa cu computerele. Introducem cuvinte cheie în Google folosind tastatura, deoarece aceasta este încă cea mai comună și mai ușoară modalitate de a introduce informații într-o mașină.

spuse Vogels. -

patru mari

Când folosim motorul de căutare Google pe telefon, probabil că am observat un semn de microfon cu un apel pentru a vorbi cu mult timp în urmă. Acest Google acum (2), care poate dicta o interogare de căutare, introduce un mesaj prin voce etc. În ultimii ani, Google, Apple și Amazon s-au îmbunătățit considerabil tehnologie de recunoaștere a vocii. Asistenții vocali precum Alexa, Siri și Google Assistant nu numai că îți înregistrează vocea, dar înțeleg și ce le spui și răspund la întrebări.

Google Now este disponibil gratuit pentru toți utilizatorii de Android. Aplicația poate, de exemplu, să seteze o alarmă, să verifice prognoza meteo și să verifice traseul pe Google Maps. Extensia conversațională a statelor Google Now Asistent Google () – asistență virtuală pentru utilizatorul echipamentului. Este disponibil în principal pe dispozitive mobile și smart home. Spre deosebire de Google Now, poate participa la un schimb bidirecțional. Asistentul a debutat în mai 2016 ca parte a aplicației de mesagerie Google Allo, precum și în difuzorul vocal Google Home (3).

3. Google Home

Sistemul IOS are și propriul asistent virtual, Siri, care este un program inclus cu sistemele de operare Apple iOS, watchOS, tvOS homepod și macOS. Siri a debutat cu iOS 5 și iPhone 4s în octombrie 2011 la conferința Let's Talk iPhone.

Software-ul se bazează pe o interfață conversațională: recunoaște vorbirea naturală a utilizatorului (cu iOS 11 este posibilă și introducerea manuală a comenzilor), răspunde la întrebări și finalizează sarcini. Datorită introducerii învățării automate, un asistent în timp analizează preferințele personale utilizatorului să ofere rezultate și recomandări mai relevante. Siri necesită o conexiune constantă la Internet - principalele surse de informații aici sunt Bing și Wolfram Alpha. iOS 10 a introdus suport pentru extensii terțe.

Încă unul dintre cei patru mari Cortana. Este un asistent personal inteligent creat de Microsoft. Este acceptat pe platformele Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android și iOS. Cortana a fost prezentată pentru prima dată la Microsoft Build Developer Conference în aprilie 2014, la San Francisco. Numele programului provine de la numele unui personaj din seria de jocuri Halo. Cortana este disponibil în engleză, italiană, spaniolă, franceză, germană, chineză și japoneză.

Utilizatorii programului deja menționat Alexa trebuie să ia în considerare și restricțiile lingvistice - asistentul digital vorbește doar engleză, germană, franceză și japoneză.

Asistentul virtual Amazon a fost folosit pentru prima dată în difuzoarele inteligente Amazon Echo și Amazon Echo Dot dezvoltate de Amazon Lab126. Permite interacțiunea vocală, redarea muzicii, crearea listelor de activități, setarea alarmei, streaming podcast, redarea cărților audio și informații despre vreme, trafic, sport și alte știri în timp real, cum ar fi știrile (4). Alexa poate controla mai multe dispozitive inteligente pentru a crea un sistem de automatizare a locuinței. Poate fi folosit și pentru a face cumpărături convenabile în magazinul Amazon.

4. Pentru ce folosesc utilizatorii Echo (conform cercetărilor)

Utilizatorii pot îmbunătăți experiența Alexa prin instalarea „aptitudinilor” Alexa (), funcții suplimentare dezvoltate de terți, denumite mai frecvent aplicații cum ar fi vremea și programele audio în alte setări. Majoritatea dispozitivelor Alexa vă permit să vă activați asistentul virtual cu o parolă de trezire, numită .

Amazon domină cu siguranță astăzi piața difuzoarelor inteligente (5). IBM, care a introdus un nou serviciu în martie 2018, încearcă să intre în primele patru Asistentul lui Watson, conceput pentru companiile care doresc să-și creeze propriile sisteme de asistenți virtuali cu control vocal. Care este avantajul soluției IBM? Potrivit reprezentanților companiei, în primul rând, pe oportunități mult mai mari de personalizare și protecție a vieții private.

În primul rând, Watson Assistant nu are marcă. Companiile își pot crea propriile soluții pe această platformă și le pot eticheta cu propriul brand.

În al doilea rând, își pot antrena sistemele de asistență folosind propriile seturi de date, despre care IBM spune că este mai ușor să adăugați caracteristici și comenzi la acel sistem decât alte tehnologii VUI (interfață vocală cu utilizatorul).

În al treilea rând, Watson Assistant nu oferă IBM informații despre activitatea utilizatorului - dezvoltatorii de soluții de pe platformă pot păstra doar pentru ei înșiși date valoroase. Între timp, oricine construiește dispozitive, de exemplu cu Alexa, ar trebui să fie conștient de faptul că datele lor valoroase vor ajunge pe Amazon.

Watson Assistant are deja mai multe implementări. Sistemul a fost folosit, de exemplu, de Harman, care a creat un asistent vocal pentru concept car Maserati (6). Pe aeroportul din München, un asistent IBM conduce un robot Pepper pentru a ajuta pasagerii să se deplaseze. Al treilea exemplu este Chameleon Technologies, unde tehnologia vocală este utilizată într-un contor inteligent pentru casă.

6. Asistent Watson într-un concept car Maserati

Merită adăugat că tehnologia de bază aici nu este, de asemenea, nouă. Watson Assistant include capabilități de criptare pentru produsele IBM existente, Watson Conversation și Watson Virtual Agent, precum și API-uri pentru analiza limbii și chat.

Amazon nu este doar un lider în tehnologia de voce inteligentă, dar o transformă într-o afacere directă. Cu toate acestea, unele companii au experimentat cu mult mai devreme integrarea Echo. Sisense, o companie din industria BI și de analiză, a introdus integrarea Echo în iulie 2016. La rândul său, startup-ul Roxy a decis să-și creeze propriul software și hardware cu control vocal pentru industria ospitalității. La începutul acestui an, Synqq a introdus o aplicație de luare de note care folosește procesarea vocală și a limbajului natural pentru a adăuga note și intrări din calendar fără a fi nevoie să le tastați pe tastatură.

Toate aceste mici afaceri au ambiții mari. Cel mai mult, însă, au aflat că nu fiecare utilizator dorește să-și transfere datele către Amazon, Google, Apple sau Microsoft, care sunt cei mai importanți jucători în construirea platformelor de comunicare vocală.

Americanii vor să cumpere

În 2016, căutarea vocală a reprezentat 20% din toate căutările Google pe mobil. Oamenii care folosesc această tehnologie zilnic citează confortul și multitasking-ul printre cele mai mari beneficii. (de exemplu, capacitatea de a utiliza un motor de căutare în timp ce conduceți o mașină).

Analiștii Visiongain estimează valoarea actuală de piață a asistenților digitali inteligenți la 1,138 miliarde USD Există din ce în ce mai multe astfel de mecanisme. Potrivit Gartner, până la sfârșitul anului 2018 deja 30% din interacțiunile noastre cu tehnologia va fi prin conversații cu sistemele de voce.

Firma britanică de cercetare IHS Markit estimează că piața asistenților digitali alimentați cu inteligență artificială va ajunge la 4 miliarde de dispozitive până la sfârșitul acestui an, iar acest număr ar putea crește la 2020 miliarde până în 7.

Potrivit rapoartelor de la eMarketer și VoiceLabs, 2017 milioane de americani au folosit controlul vocal cel puțin o dată pe lună în 35,6. Aceasta înseamnă o creștere de aproape 130% față de anul precedent. Numai piața asistenților digitali este de așteptat să crească până în 2018% în 23. Aceasta înseamnă că le vei folosi deja. 60,5 milioane de americani, ceea ce va avea ca rezultat bani concreti pentru producătorii lor. RBC Capital Markets estimează că interfața Alexa va genera venituri de până la 2020 miliarde USD pentru Amazon până în 10.

Spălați, coaceți, curățați!

Interfețele vocale intră din ce în ce mai cu îndrăzneală pe piețele de electrocasnice și electronice de larg consum. Acest lucru a putut fi văzut deja în cadrul expoziției IFA 2017 de anul trecut. Compania americană Neato Robotics a introdus, de exemplu, un robot aspirator care se conectează la una dintre mai multe platforme de casă inteligentă, inclusiv sistemul Amazon Echo. Vorbind cu difuzorul inteligent Echo, puteți instrui aparatul să vă curețe întreaga casă la anumite ore din zi sau din noapte.

În cadrul spectacolului au fost prezentate și alte produse activate prin voce, de la televizoare inteligente vândute sub marca Toshiba de compania turcă Vestel până la pături încălzite de compania germană Beurer. Multe dintre aceste dispozitive electronice pot fi activate și de la distanță folosind smartphone-uri.

Totuși, potrivit reprezentanților Bosch, este prea devreme să spunem care dintre opțiunile de asistent acasă va deveni dominantă. La IFA 2017, un grup tehnic german a prezentat mașini de spălat (7), cuptoare și aparate de cafea care se conectează la Echo. De asemenea, Bosch vrea ca dispozitivele sale să fie compatibile cu platformele de voce Google și Apple în viitor.

7. Mașină de spălat Bosch care se conectează la Amazon Echo

Companii precum Fujitsu, Sony și Panasonic își dezvoltă propriile soluții de asistenți vocali bazate pe inteligență artificială. Sharp adaugă această tehnologie cuptoarelor și roboților mici care intră pe piață. Nippon Telegraph & Telephone angajează producători de hardware și jucării pentru a adapta un sistem de inteligență artificială controlat prin voce.

Concept vechi. A sosit timpul ei în sfârșit?

De fapt, conceptul de Voice User Interface (VUI) există de zeci de ani. Oricine a urmărit Star Trek sau 2001: O odiseea spațiului în urmă cu ani în urmă probabil se aștepta ca în jurul anului 2000 să controlăm computerele cu vocile noastre. De asemenea, nu doar scriitorii de science fiction au văzut potențialul acestui tip de interfață. În 1986, cercetătorii Nielsen au întrebat profesioniștilor IT care credeau că va fi cea mai mare schimbare a interfețelor cu utilizatorul până în anul 2000. Ei au indicat cel mai adesea dezvoltarea interfețelor de voce.

Există motive să sperăm la o astfel de soluție. Comunicarea verbală este, până la urmă, cea mai naturală modalitate prin care oamenii pot schimba în mod conștient gânduri, așa că folosirea ei pentru interacțiunea om-mașină pare cea mai bună soluție de până acum.

Unul dintre primele VUI, numit cutie de pantofi, a fost creat la începutul anilor '60 de IBM. A fost precursorul sistemelor de recunoaștere a vocii de astăzi. Cu toate acestea, dezvoltarea dispozitivelor VUI a fost limitată de limitele puterii de calcul. Analizarea și interpretarea vorbirii umane în timp real necesită mult efort și a fost nevoie de mai mult de cincizeci de ani pentru a ajunge la punctul în care a devenit de fapt posibil.

Dispozitivele cu interfață vocală au început să apară în producția de masă la mijlocul anilor 90, dar nu au câștigat popularitate. Primul telefon cu control vocal (apelare) a fost Philips Sparklansat în 1996. Cu toate acestea, acest dispozitiv inovator și ușor de utilizat nu a fost lipsit de limitări tehnologice.

Alte telefoane echipate cu forme de interfață vocală (create de companii precum RIM, Samsung sau Motorola) ajung în mod regulat pe piață, permițând utilizatorilor să formeze prin voce sau să trimită mesaje text. Toate, însă, au necesitat memorarea unor comenzi specifice și pronunțarea lor într-o formă forțată, artificială, adaptată capacităților dispozitivelor de atunci. Acest lucru a generat un număr mare de erori, care, la rândul lor, au condus la nemulțumirea utilizatorilor.

Cu toate acestea, intrăm acum într-o nouă eră a computerului, în care progresele în învățarea automată și dezvoltarea inteligenței artificiale deblochează potențialul conversației ca o nouă modalitate de a interacționa cu tehnologia (8). Numărul de dispozitive care acceptă interacțiunea vocală a devenit un factor important care a avut un impact mare asupra dezvoltării VUI. Astăzi, aproape 1/3 din populația lumii deține deja smartphone-uri care pot fi folosite pentru acest tip de comportament. Se pare că majoritatea utilizatorilor sunt în sfârșit gata să-și adapteze interfețele vocale.

8. Istoria modernă a dezvoltării interfeței vocale

Cu toate acestea, înainte de a putea vorbi liber cu un computer, așa cum au făcut personajele din A Space Odyssey, trebuie să depășim o serie de probleme. Mașinile nu sunt încă foarte bune la manipularea nuanțelor lingvistice. în afară de mulți oameni încă se simt inconfortabil să ofere comenzi vocale unui motor de căutare.

Statisticile arată că asistenții vocali sunt folosiți în principal acasă sau printre prietenii apropiați. Niciunul dintre cei intervievați nu a recunoscut că folosește căutarea vocală în locuri publice. Cu toate acestea, este posibil ca această blocaj să dispară odată cu răspândirea acestei tehnologii.

întrebare dificilă din punct de vedere tehnic

Problema cu care se confruntă sistemele (ASR) este extragerea datelor utile dintr-un semnal de vorbire și asocierea acestuia cu un anumit cuvânt care are o anumită semnificație pentru o persoană. Sunetele produse sunt diferite de fiecare dată.

Variabilitatea semnalului de vorbire este proprietatea sa naturală, datorită căreia noi, de exemplu, recunoaștem un accent sau o intonație. Fiecare element al sistemului de recunoaștere a vorbirii are o sarcină specifică. Pe baza semnalului procesat și a parametrilor acestuia, se creează un model acustic, care este asociat cu modelul de limbaj. Sistemul de recunoaștere poate funcționa pe baza unui număr mic sau mare de modele, ceea ce determină dimensiunea vocabularului cu care lucrează. Ei pot fi dicționare mici în cazul sistemelor care recunosc cuvinte sau comenzi individuale, precum și baze de date mari conţinând echivalentul setului de limbi şi ţinând cont de modelul de limbaj (gramatica).

Probleme cu care se confruntă interfețele vocale, în primul rând înțelege corect vorbirea, în care, de exemplu, sunt deseori omise secvențe gramaticale întregi, apar erori lingvistice și fonetice, erori, omisiuni, defecte de vorbire, omonime, repetări nejustificate etc.. Toate aceste sisteme ACP trebuie să funcționeze rapid și fiabil. Cel puțin astea sunt așteptările.

Sursa dificultăților o constituie și semnalele acustice, altele decât vorbirea recunoscută, care intră în intrarea sistemului de recunoaștere, adică. toate felurile interferențe și zgomot. În cel mai simplu caz, ai nevoie de ele filtra. Această sarcină pare rutină și ușoară - la urma urmei, diferite semnale sunt filtrate și fiecare inginer electronic știe ce să facă într-o astfel de situație. Totuși, acest lucru trebuie făcut cu mare atenție și cu atenție dacă rezultatul recunoașterii vorbirii este să satisfacă așteptările noastre.

Filtrarea utilizată în prezent face posibilă eliminarea, alături de semnalul de vorbire, a zgomotului extern captat de microfon și a proprietăților interne ale semnalului de vorbire în sine, care îngreunează recunoașterea acestuia. Cu toate acestea, o problemă tehnică mult mai complexă apare atunci când interferența la semnalul de vorbire analizat este ... un alt semnal de vorbire, adică, de exemplu, discuții puternice în jur. Această întrebare este cunoscută în literatură ca așa-numita . Acest lucru necesită deja utilizarea unor metode complexe, așa-numitele. deconvolutie (descurcarea) semnalul.

Problemele cu recunoașterea vorbirii nu se opresc aici. Merită să ne dăm seama că vorbirea poartă multe tipuri diferite de informații. Vocea umană sugerează sexul, vârsta, diferitele caractere ale proprietarului sau starea de sănătate a acestuia. Există un departament extins de inginerie biomedicală care se ocupă cu diagnosticarea diferitelor boli pe baza fenomenelor acustice caracteristice întâlnite în semnalul de vorbire.

Există și aplicații în care scopul principal al analizei acustice a unui semnal de vorbire este identificarea vorbitorului sau verificarea faptului că este cine pretinde a fi (voce în loc de cheie, parolă sau cod PUK). Acest lucru poate fi important, în special pentru tehnologiile de clădire inteligentă.

Prima componentă a unui sistem de recunoaștere a vorbirii este microfon. Cu toate acestea, semnalul captat de microfon rămâne de obicei de puțin folos. Studiile arată că forma și cursul undei sonore variază foarte mult în funcție de persoană, de viteza vorbirii și, parțial, de starea de spirit a interlocutorului - în timp ce într-o mică măsură reflectă însuși conținutul comenzilor rostite.

Prin urmare, semnalul trebuie procesat corect. Acustica modernă, fonetica și informatica oferă împreună un set bogat de instrumente care pot fi utilizate pentru a procesa, analiza, recunoaște și înțelege un semnal de vorbire. Spectrul dinamic al semnalului, așa-numitul spectrograme dinamice. Sunt destul de ușor de obținut, iar vorbirea prezentată sub forma unei spectrograme dinamice este relativ ușor de recunoscut folosind tehnici similare cu cele utilizate în recunoașterea imaginilor.

Elementele simple ale vorbirii (de exemplu, comenzi) pot fi recunoscute prin simpla asemănare a spectrogramelor întregi. De exemplu, un dicționar de telefon mobil activat vocal conține doar câteva zeci până la câteva sute de cuvinte și fraze, de obicei pre-stivuite, astfel încât să poată fi identificate ușor și eficient. Acest lucru este suficient pentru sarcini simple de control, dar limitează sever aplicația generală. Sistemele construite conform schemei, de regulă, acceptă doar difuzoare specifice pentru care vocile sunt special antrenate. Deci, dacă există cineva nou care dorește să-și folosească vocea pentru a controla sistemul, cel mai probabil nu va fi acceptat.

Rezultatul acestei operații este numit spectrograma 2-W, adică un spectru bidimensional. Există o altă activitate în acest bloc căreia merită să acordați atenție - segmentare. În general, vorbim despre împărțirea unui semnal de vorbire continuă în părți care pot fi recunoscute separat. Numai din aceste diagnostice individuale se face recunoașterea întregului. Această procedură este necesară deoarece nu este posibilă identificarea unui discurs lung și complex dintr-o singură mișcare. Au fost deja scrise volume întregi despre ce segmente să distingem într-un semnal de vorbire, așa că nu vom decide acum dacă segmentele distinse ar trebui să fie foneme (echivalente de sunet), silabe sau poate alofone.

Procesul de recunoaștere automată se referă întotdeauna la unele caracteristici ale obiectelor. Sute de seturi de parametri diferiți au fost testați pentru semnalul de vorbire. Semnalul de vorbire a împărțit în cadre recunoscute si avand caracteristici selectateprin care aceste cadre sunt prezentate în procesul de recunoaștere, putem efectua (pentru fiecare cadru separat) clasificare, adică atribuirea unui identificator cadrului, care îl va reprezenta în viitor.

Stadiul următor asamblarea cadrelor în cuvinte separate - cel mai adesea bazat pe așa-numitul. modelul modelelor implicite Markov (HMM-). Apoi urmează montajul cuvintelor completează propozițiile.

Acum putem reveni la sistemul Alexa pentru un moment. Exemplul său arată un proces în mai multe etape de „înțelegere” automată a unei persoane – mai precis: o comandă dată de acesta sau o întrebare adresată.

Înțelegerea cuvintelor, înțelegerea sensului și înțelegerea intenției utilizatorului sunt lucruri complet diferite.

Prin urmare, următorul pas este munca modulului NLP (), a cărui sarcină este recunoașterea intenției utilizatorului, adică sensul comenzii/intrebării în contextul în care a fost rostită. Dacă intenția este identificată, atunci atribuirea așa-numitelor abilități și abilități, adică caracteristica specifică acceptată de asistentul inteligent. În cazul unei întrebări despre vreme, sunt apelate sursele de date meteorologice, care rămân de prelucrat în vorbire (TTS - mecanism). Ca urmare, utilizatorul aude răspunsul la întrebarea adresată.

Voce? Arte grafice? Sau poate ambele?

Cele mai cunoscute sisteme de interacțiune moderne se bazează pe un intermediar numit interfata grafica cu utilizatorul (interfață grafică). Din păcate, GUI nu este cel mai evident mod de a interacționa cu un produs digital. Acest lucru necesită ca utilizatorii să învețe mai întâi cum să folosească interfața și să își amintească aceste informații cu fiecare interacțiune ulterioară. În multe situații, vocea este mult mai convenabilă, deoarece puteți interacționa cu VUI pur și simplu vorbind cu dispozitivul. O interfață care nu obligă utilizatorii să memoreze și să memoreze anumite comenzi sau metode de interacțiune provoacă mai puține probleme.

Desigur, extinderea VUI nu înseamnă abandonarea mai multor interfețe tradiționale - mai degrabă vor fi disponibile interfețe hibride care combină mai multe moduri de interacțiune.

Interfața vocală nu este potrivită pentru toate sarcinile într-un context mobil. Cu acesta, vom suna un prieten care conduce o mașină și chiar îi vom trimite un SMS, dar verificarea celor mai recente transferuri poate fi prea dificilă - din cauza cantității de informații transmise în sistem () și generate de sistem (sistem). După cum sugerează Rachel Hinman în cartea ei Mobile Frontier, utilizarea VUI devine cea mai eficientă atunci când efectuați sarcini în care cantitatea de informații de intrare și de ieșire este mică.

Un smartphone conectat la Internet este convenabil, dar și incomod (9). De fiecare dată când un utilizator dorește să cumpere ceva sau să folosească un nou serviciu, trebuie să descarce o altă aplicație și să creeze un cont nou. Aici a fost creat un domeniu pentru utilizarea și dezvoltarea interfețelor de voce. În loc să forțeze utilizatorii să instaleze multe aplicații diferite sau să creeze conturi separate pentru fiecare serviciu, experții spun că VUI va transfera sarcina acestor sarcini greoaie către un asistent vocal alimentat de AI. Îi va fi convenabil să desfășoare activități solicitante. Îi vom da doar ordine.

9. Interfață vocală prin telefon inteligent

Astăzi, mai mult decât un telefon și un computer sunt conectate la internet. Termostatele inteligente, luminile, ibricurile și multe alte dispozitive integrate IoT sunt, de asemenea, conectate la rețea (10). Astfel, în jurul nostru există dispozitive fără fir care ne umplu viața, dar nu toate se încadrează în mod natural în interfața grafică cu utilizatorul. Utilizarea VUI vă va ajuta să le integrați cu ușurință în mediul nostru.

10. Interfață vocală cu Internetul lucrurilor

Crearea unei interfețe vocale cu utilizatorul va deveni în curând o abilitate cheie a designerului. Aceasta este o problemă reală – nevoia de a implementa sisteme de voce te va încuraja să te concentrezi mai mult pe design proactiv, adică să încerci să înțelegi intențiile inițiale ale utilizatorului, anticipând nevoile și așteptările acestuia în fiecare etapă a conversației.

Vocea este o modalitate eficientă de introducere a datelor — permite utilizatorilor să emită rapid comenzi către sistem în propriile condiții. Pe de altă parte, ecranul oferă o modalitate eficientă de afișare a informațiilor: permite sistemelor să afișeze o cantitate mare de informații în același timp, reducând sarcina asupra memoriei utilizatorilor. Este logic că combinarea lor într-un singur sistem sună încurajator.

Difuzoarele inteligente precum Amazon Echo și Google Home nu oferă deloc un afișaj vizual. Îmbunătățind semnificativ acuratețea recunoașterii vocii la distanțe moderate, acestea permit operarea hands-free, ceea ce, la rândul său, le crește flexibilitatea și eficiența - sunt de dorit chiar și pentru utilizatorii care au deja smartphone-uri cu control vocal. Cu toate acestea, lipsa unui ecran este o limitare uriașă.

Numai bipurile pot fi folosite pentru a informa utilizatorii despre posibilele comenzi, iar citirea cu voce tare a rezultatului devine plictisitoare, cu excepția celor mai de bază sarcini. Setarea unui temporizator cu o comandă vocală în timp ce gătiți este grozavă, dar nu este necesar să vă întrebați cât timp a mai rămas. Obținerea unei prognoze meteo regulate devine un test de memorie pentru utilizator, care trebuie să asculte și să absoarbă o serie de fapte pe tot parcursul săptămânii, mai degrabă decât să le preia de pe ecran dintr-o privire.

Designerii au făcut deja soluție hibridă, Echo Show (11), care a adăugat un ecran de afișare la difuzorul inteligent Echo de bază. Acest lucru extinde foarte mult funcționalitatea echipamentului. Cu toate acestea, Echo Show este încă mult mai puțin capabil să îndeplinească funcțiile de bază care au fost de mult timp disponibile pe smartphone-uri și tablete. Nu poate (încă) să navigheze pe web, să afișeze recenzii sau să afișeze conținutul unui coș de cumpărături Amazon, de exemplu.

O afișare vizuală este în mod inerent o modalitate mai eficientă de a oferi oamenilor o mulțime de informații decât doar sunet. Proiectarea cu prioritate vocală poate îmbunătăți foarte mult interacțiunea vocală, dar pe termen lung, a nu folosi în mod arbitrar meniul vizual de dragul interacțiunii va fi ca și cum ai lupta cu o mână legată la spate. Datorită complexității care se profilează a interfețelor inteligente de voce și afișare end-to-end, dezvoltatorii ar trebui să ia în considerare cu seriozitate o abordare hibridă a interfețelor.

Creșterea eficienței și vitezei sistemelor de generare și recunoaștere a vorbirii a făcut posibilă utilizarea acestora în astfel de aplicații și domenii precum, de exemplu:

• militare (comenzi vocale în avioane sau elicoptere, de exemplu, F16 VISTA),

• transcriere automată a textului (vorbire în text),

• sisteme informatice interactive (Prime Speech, portaluri vocale),

• dispozitive mobile (telefoane, smartphone-uri, tablete),

• robotică (Cleverbot - sisteme ASR combinate cu inteligență artificială),

• auto (controlul hands-free al componentelor auto, cum ar fi Blue & Me),

• aplicații pentru casă (sisteme de casă inteligentă).

Atenție la siguranță!

Automobilele, aparatele electrocasnice, sistemele de încălzire/răcire și securitatea casei și o serie de aparate electrocasnice încep să folosească interfețe vocale, adesea bazate pe inteligență artificială. În această etapă, datele obținute din milioane de conversații cu mașini sunt trimise către nori de calcul. Este clar că marketerii sunt interesați de ele. Și nu numai ei.

Un raport recent al experților în securitate Symantec recomandă ca utilizatorii de comandă vocală să nu controleze funcțiile de securitate, cum ar fi încuietorile ușilor, cu atât mai puțin sistemele de securitate pentru casă. Același lucru este valabil și pentru stocarea parolelor sau a informațiilor confidențiale. Securitatea inteligenței artificiale și a produselor inteligente nu a fost încă suficient studiată.

Atunci când dispozitivele din toată casa ascultă fiecare cuvânt, riscul de hacking și utilizare greșită a sistemului devine o problemă extrem de importantă. Dacă un atacator obține acces la rețeaua locală sau la adresele de e-mail asociate acesteia, setările dispozitivului inteligent pot fi modificate sau resetate la setările din fabrică, ceea ce va duce la pierderea informațiilor valoroase și la ștergerea istoricului utilizatorului.

Cu alte cuvinte, profesioniștii în securitate se tem că AI și VUI bazate pe voce nu sunt încă suficient de inteligente pentru a ne proteja de potențiale amenințări și a ne ține gura când un străin cere ceva.