Mobile-review.com Як це працює? Голосові помічники для дому та квартири на прикладі Google, Amazon і інших

Голосові помічники для будинку - ринок Amazon Alexa і Google Home
Як працює домашній голосовий помічник - команда і розпізнавання голосу
Обробка запиту, сценарії і їх виконання
З тексту в голос - зворотне перетворення
короткий висновок

Привіт.

Ідея для цієї рубрики назріла давно, але все не потрапляло теми, яку варто було прискіпливо розібрати. Дозвольте спочатку визначити формат колонки «Як це працює?», Щоб між нами не було пересудів і ми не грали в зіпсований телефон. По-перше, і це випливає з назви, матеріали рубрики відповідатимуть на одне-єдине питання. По-друге, мені основним завданням бачиться неперерахування технічних характеристик і можливостей тієї чи іншої технології, а опис того, як вона працює, з яких цеглинок складається і як вони між собою взаємопов'язані. Хочеться, щоб звичайна людина, прочитавши матеріал з цієї рубрики, зміг зрозуміти, як все влаштовано, а при бажанні вивчити питання більш детально.

Чому потрібно нову назву для колонки, чи не вийде так, що сутності множаться без всякого сенсу? На жаль, формат «бирюлек» - це те, що привернуло мою увагу за минулий тиждень, і то, що мене хвилювало, якщо хочете, це авторське бачення ринку і подій на ньому. Іноді в «Бирюльки» я розповідаю про те, як влаштований ринок і технології, але роблю це з потреби, причому сильно скорочуючи свою розповідь, обмежуючи себе. В рамках «Диван аналітики» такі матеріали також недоречні, тому що в них скоріше не розповідається про маркетинг або комерційну складову продукту, а робиться акцент на технологіях і тому, як вони працюють. Звідси і необхідність в такій рубриці. Поки будемо вважати її експериментальної, не можу сказати, буде вона з'являтися час від часу або стане більш-менш постійною, це залежить від вас і тих тем, що цікаві вам. Тому сміливо висловлюйте свої пропозиції в коментарях, а заодно пропонуйте теми для майбутніх випусків «Як це працює?». Поїхали!

Голосові помічники для будинку - ринок Amazon Alexa і Google Home

Першим голосовим помічником можна сміливо вважати Amazon Alexa, це пристрій з'явився в листопаді 2014 року і стало для ринку свого роду відкриттям. Прототипи подібних пристроїв з'являлися задовго до дебюту Alexa, але вони не доходили до комерційної реалізації і виглядали дуже аскетично.

Прототипи подібних пристроїв з'являлися задовго до дебюту Alexa, але вони не доходили до комерційної реалізації і виглядали дуже аскетично

Ідея Alexa була простою і зрозумілою, це голосовий помічник, якого можна розбудити, звернувшись до нього по імені. Вибір імені Alexa не випадковий, в англійській мові чітко розпізнається звук X, це виверт, щоб пристрій забороняв помилявся і реагувало на одне слово, а не на два, як це зроблено у Google з його фразою «OK, Google». Помічник після звернення до нього вміє повідомляти потрібну інформацію, наприклад, розповідати про погоду, пробках, зачитувати новини або навіть відправляти листи іншим людям, які ви тут же диктуєте. Пізніше Alexa навчилася керувати елементами розумного будинку, наприклад, термостатами від Nest, лампочками Hue від Philips і іншими. Ви просто говорите, що потрібно змінити температуру, і Alexa відправляє цю команду на потрібні пристрої.

Також як в Siri, в Alexa можна вести діалоги і задавати питання, багато відповідей жартівливі, на багато питань система шукає відповіді в інтернеті. Появою Alexa та інших подібних систем ми зобов'язані прогресу в двох областях - розпізнаванні мови і поширенні дешевого інтернету, коли кожна квартира постійно підключена до мережі. Перш ніж розглянути пристрій Alexa і їй подібних, зроблю ремарку щодо Siri, Bixby, Google Assistant і інших голосових помічників на смартфонах і планшетах. Технологія, яка лежить в основі цих сервісів, повністю ідентична і ніяк не відрізняється, тому коли я розповідаю про Alexa або Google Home, можете сміливо вважати, що це відноситься і до голосових помічникам на смартфонах.

Ринок США є першим і ключовим для голосових помічників, причому у всіх видах пристроїв. Одне з найсвіжіших досліджень eMarketer стверджує, що чверть всіх власників смартфонів хоча б раз на місяць використовують голосового помічника, це близько 60 мільйонів чоловік. У тому ж дослідженні говориться, що продажі домашніх голосових помічників в 2016 році подвоїлися і склали в США 35.6 млн штук, з них 70,6% припадають на продукти від Amazon (умовно назвемо їх Alexa), а 23.8% - на Google Home. Категорія «Інші» майже не присутній на ринку, і нижче ми спробуємо розібратися, чому це так. Почнемо.

Почнемо

Як працює домашній голосовий помічник - команда і розпізнавання голосу

Кожен голосовий помічник має як мінімум мікрофон і гучномовець: перший потрібен, щоб чути ваші команди, другий - щоб відповідати вам. Залежно від моделі можуть відрізнятися число мікрофонів, їх спрямованість (як правило, це 360 градусів), чутливість і інші параметри. Але на принципі роботи це ніяк не позначається.

Голосовий помічник підключається до інтернету, він не вміє працювати без постійного доступу до мережі. Ви налаштовуєте свій голосовий помічник на фразу, яка його «будить», це команда, яка змушує його «слухати» все, що ви скажете. Наприклад, сказавши Alexa, ви пробудити помічник від Amazon, і він почне слухати все, що ви говорите. Команди виключення як такої немає, пристрій просто засинає, коли розуміє, що діалог завершився. Пробудити його можна повторної командою Alexa.

Багато жартів в США було на тему того, що не пощастило жінкам, яких звуть так само, як пристрій від Amazon, у них воно буде працювати постійно. Насправді в Alexa, також як і в інших голосових помічників, ви можете змінити слово-команду на будь-яке інше. Порада від розробників простий: щоб це слово не було коротким і його можна було добре розпізнати навіть в галасливих умовах.

Порада від розробників простий: щоб це слово не було коротким і його можна було добре розпізнати навіть в галасливих умовах

Пристрій в локальній пам'яті зберігає всі настройки, там же розташовуються буфер і система розпізнавання голосу. Домашній голосовий помічник можна сприймати як спрощений варіант смартфона, в якому може бути дисплей, або його може і не бути. Важливо, що система розпізнавання голосу в більшості випадків локальна, саме пристрій обробляє звук і розпізнає його. У ряді випадків, коли пристрій не може самостійно розпізнати і розшифрувати голос, воно відправляє запис в хмару, де відбувається розпізнавання, так як сервери мають велику продуктивність і великі бази даних для перевірки і підбору слів.

Як правило, більшість виробників використовують комбіновані системи, розпізнавання голосу відбувається локально, на сервер, який повинен його обробити, він відправляється в вигляді умовного тексту або вже команди. Для ряду запитів, які передбачають місцеве дію, воно тут же здійснюється. Наприклад, коли користувач говорить «встановити будильник на 8 годину ранку», система локально виконує команду, не звертаючись в хмару. Те ж саме стосується і налаштування інших пристроїв розумного будинку, наприклад, зміни температури в термостаті.

Багато хто помилково вважає, що якщо голосовий помічник розпізнає локально команди і голос, то ці дані назавжди залишаються в ньому, це не так. Все залежить від виробника, марки пристрою, але завжди всі дані, записані після слова-команди, передаються на сервери виробника, де вони і зберігаються. Ці дані можуть бути використані для більш точного налаштування системи розпізнавання і в інших цілях, наприклад, їх може запросити поліція в рамках розслідування кримінальної справи, і компанія-виробник їх надасть. Але треба розуміти, що голосовий помічник не записує все, що відбувається навколо нього 24/7, він записує тільки голосові уривки після слова-команди.

Наступний важливий момент - це мови, на яких вміють говорити голосові помічники. Наприклад, для Amazon це англійська та німецька. У разі Amazon сервіс Alexa - це зручний спосіб щось купити на сайті Amazon, тому ареал поширення обмежений тими країнами, де сервіс має найбільшу аудиторію. Для того ж Google Home в планах, навпаки, бути всюди де тільки можливо. Ми побачимо експансію Google Home на всіх світових ринках, він почне з'являтися на всіх мовах. Хоча поки він представлений рівно в тій же кількості країн, що його прямий конкурент. Тут Google виступає в ролі наздоганяючого і тому не поспішає бути всюди, так як інші конкуренти малоймовірні, нижче ми обговоримо, чому це так.

Отже, ви сказали слово-команду, і ваш пристрій «прокинулося», записує ваш голос, щоб його розпізнати. Перший і найважливіший елемент - це розпізнавання голосу і його перетворення в текст. Як правило, поточні голосові помічники налаштовуються на один основний мову. Наприклад, якщо пристрій підтримує як англійський, так і російська, одночасно розмовляти з ним на двох мовах вийде, воно буде плутатися і просити повторити фрази. У майбутніх пристроях цей момент буде з легкістю дозволений, так як голосові помічники навчаться самі визначати мову, на якому ви говорите. Але поки вони можуть тільки аналізувати контекст, в якому ви вимовляєте фразу (все це відбувається в хмарі), щоб замінити деякі слова на англійські. Наприклад, раніше, коли ви промовляли фразу «в якому році вийшов альбом зворотна сторона місяця у пинк флойд», вона распознавалась саме так, як я написав. В Google Speech API сьогодні вона розпізнається інакше: «У якому році вийшов альбом" Зворотний бік Місяця "у Pink Floyd». Причина полягає в тому, що Google задіює нейронні мережі для аналізу не тільки самої фрази, а й сказаного контексту. Тобто, система намагається вгадати, що саме ви хочете, який сенс у вашого питання.

Якщо ви з якоїсь причини пропустили революцію в системах розпізнавання і розшифровки голосу, ніколи не користувалися голосової диктуванням на Android-смартфонах, то просто спробуйте це зробити в браузері за цим посиланням .

У Google вже підтримується більше 80 мов, для кожного можливо перетворення голосу в текст і назад. Конкуренти поки від Google відстають, але з часом ситуація на цьому ринку вирівняється, так як з плином часу, обробляючи семпли мови, кожна компанія доб'ється дуже високої точності розпізнавання голосу. Також додамо сюди алгоритми аналізу контексту в хмарі.

Зрозуміло, що в Google будуть першими в цьому забігу, так як вже роблять це для інших сервісів, в тому числі і смартфонів, але перевага не буде тривати вічність, в кінцевому підсумку на ринку з'явиться масова і дешева технологія, вона повторюваність будь-якою компанією. Умовно можна вважати, що перевага Google вимірюється 3-5 роками, поки конкуренти не наблизять свої технології до тих, що існують у цього гіганта.

Перший етап роботи будь-якого голосового помічника, як ми з'ясували, це розпізнавання голосу і переклад його в текст. Сьогодні на ринку не так багато компаній, які володіють подібними можливостями, це Amazon для пари мов, Google Speech API, Microsoft Speech API, Nuance, IBM Watson (хмара від IBM, в яке намагаються впровадити все що тільки можливо, в тому числі голосові функції ) і багато інших. Немає жодної проблеми в тому, щоб повторити Amazon Alexa або будь-який інший голосовий помічник, в Китаї вартість виробництва такої коробки складе 15-20 доларів від сили, а ціна Google Home - 109 доларів без урахування податків.

Немає жодної проблеми в тому, щоб повторити Amazon Alexa або будь-який інший голосовий помічник, в Китаї вартість виробництва такої коробки складе 15-20 доларів від сили, а ціна Google Home - 109 доларів без урахування податків

Як і за що великі виробники беруть такі гроші і отримують надприбуток, у всякому разі, на перший погляд? Відповідь криється в тому, що у них, з одного боку, немає конкурентів, що володіють подібними технологіями, ті ж китайці не можуть завалити ринок голосовими помічниками, так як відсутні загальнодоступні технології для цього, про що докладно нижче. З іншого боку, на відміну від продажу звичайного бездротового колонки, де термін життя впливає тільки на собівартість ремонту і гарантійні зобов'язання для виробника, в домашньому голосовому помічнику є запити до хмари компанії, кожен запит коштує для компанії певних грошей.

Недорого коштують запити в платформі від Google, вони тарифікуються відрізками по 15 секунд, вартість такого запиту становить 0.006 долара. Наприклад, якщо ви розпізнали уривок в 16 секунд, то з вас візьмуть 0.012 долара. Такі ціни наводяться для будь-якої програми на смартфоні і мають обмеження до одного мільйона хвилин. Для голосових помічників будинку, машин, телевізорів та іншого вам потрібно звернутися в Google, ціни будуть виставлені індивідуально.

Спеціально щоб підрахувати, скільки може коштувати сторонньої компанії обслуговування домашнього голосового помічника, встановив диктофон і порахував, скільки запитів в середньому в день у мене до Google Home. До цього моменту я щиро вважав, що практично не користуюся цією системою, коли перебуваю в США, після свого експерименту переконався, що це не так. В середньому в день у мене близько 20 звернень до Google Home (причому я робив це один, інші люди не працювали з системою), запити стандартні, як правило, це голосовий пошук чогось в мережі, коли ліниво вставати з дивана, а смартфона або планшета під рукою немає. Всі запити вписуються в 30 секунд, тобто вони стоять 0.012 долара кожен. В місяць таких запитів набереться 600, в рік їх вже буде 7200 штук, що складе 86,4 долара. З огляду на, що середній життєвий термін домашнього голосового помічника вже перевищує два роки (ринок з'явився два роки тому, і порахувати реальний термін неможливо, але він буде 4-5 років як мінімум), виходить, що будь-який виробник, який не має безкоштовної системи перетворення голосу в текст, приречений на економічний крах.

Однак не все так погано, той же Nuance пропонує модель ліцензування на певний число пристроїв, з певним середнім числом звернень протягом року або разовим ліцензійним платежем. Це більш гнучка модель, яка дозволяє стороннім компаніям будувати свої голосові помічники. Те ж саме можна сказати про підхід Amazon, коли виникла конкуренція з боку Google, в компанії почали безкоштовно роздавати Alexa Voice Services (AVS), причому у версії з розпізнаванням мови тільки в хмарі (ASR), а також додали модуль розпізнавання природної мови (NLU ). Таке рішення в якійсь мірі вимушене, так як в Amazon хочуть швидко покращити якість розпізнавання мови, додати нові мови, щоб на рівних конкурувати з Google. У січні 2017 року на CES в Лас-Вегасі було показано два десятка пристроїв, що використовують голосові можливості від Amazon, це бездротові колонки, персональні помічники, термометри та багато інші предмети «розумного» будинку.

Серед корпорацій, що мають можливість домінувати на ринку голосових помічників і розробляти власні системи, відзначимо такі компанії, як Amazon, Apple, Google, Facebook, Microsoft, Samsung. Інші виробники будуть вторинні, так як не зможуть створити власні системи розпізнавання голосу і конвертації його в текст, вони будуть користуватися тими рішеннями, що нададуть їм перераховані компанії. Швидше за все, можна очікувати, що Google буде безкоштовно роздавати такі рішення для партнерів, що створюють голосові помічники, у всякому разі, спочатку підхід буде такий. Це підхід, який ми бачимо в Android, на першому етапі систему роздають безкоштовно і всіляко підсаджують на неї виробників, а потім поступово починають закручувати гайки, щоб домогтися додаткових плюсів для себе. У 2017-2019 роках можна очікувати розквіту голосових помічників, щорічно з'являтиметься кілька десятків моделей, але ключових гравців на цьому ринку буде два-три, решта складуть ту саму категорію «Інші», яка в 2016 році не перевищила 6% ринку.

Обробка запиту, сценарії і їх виконання

Після того, як голосовий помічник розпізнав голос і перетворив його в текст, він віддає його в хмару (або виконує просту локальну команду, як це було в прикладі з будильником). Гідність голосового помічника безпосередньо випливає з того числа операцій (команд), які він здатний розпізнати і правильно їх обробити. Саме сценарії використання стають другою проблемою для широкого і швидкого поширення голосових помічників по всьому світу. В Amazon залучили сторонніх розробників, щоб вони створювали свої сценарії використання і команди, до кінця лютого 2017 року таких команд стало 10.000. В Amazon їх називають «вміннями» (skills). Простота створення нових умінь підкуповує розробників, так само як і те, що продукти від Amazon популярні в Америці, тому дуже швидко голосові помічники навчилися замовляти піцу з будь-якого магазинчика поруч, викликати Uber і робити множина не таких очевидних речей.

Простота створення нових умінь підкуповує розробників, так само як і те, що продукти від Amazon популярні в Америці, тому дуже швидко голосові помічники навчилися замовляти піцу з будь-якого магазинчика поруч, викликати Uber і робити множина не таких очевидних речей

Чим більше людей користується голосовими помічниками, тим більше число сценаріїв виникає, а система швидше вчиться їх правильно обробляти. Наприклад, на самому початку шляху Alexa майже не знала німецькі рок-групи, хоча сама мова підтримувався. Сьогодні пошук по музичним групам Німеччини і жанрами музики нехай і не ідеальний, але цілком зносити, ви можете отримати необхідні відомості, запитавши інформацію. Система навчається, і прогрес є.

Для сторонніх розробніків вінікає питання, хто буде створюваті и підтрімуваті таку систему. Наприклад, в Китаї зараз спостерігається бум стартапів, що інвестують десятки мільйонів доларів у цей напрямок, вони створюють компанії, які намагаються в одному продукті надати якраз обробку сценаріїв і їх автоматизацію. Це не тільки і не стільки ринок голосових помічників, для такої автоматизації знайдеться більш широке застосування, наприклад, це обробка замовлень на сайтах, створення чат-ботів для підтримки клієнтів будь-якого бізнесу, в Росії ви вже зустрічаєтеся з цим, звертаючись до служби підтримки Білайну, бесіду з вами веде програма. Бум розвитку сценаріїв, які потрібні споживачам, безпосередньо пов'язаний з помічниками, вони виграють від того, що в алгоритми заганяють стандартні дії. На жаль, формалізувати природну мову не так-то просто, тому будь-які діалоги з голосовим помічником або програмою в мережі не є дуже глибокими. Так, будь-яку розмову можна описати в парадигмі питання-відповідь, коли кожна пара утворює один рівень, більшість програм обробки діалогів сьогодні ведуть більш-менш осмислений розмова для 2-3 рівнів, потім вони починають пасувати, і тоді з'являється продумана програмістами заглушка, наприклад, у Siri це жарти, які повинні приховати незнання програмою того, як діяти далі.

Призначені для користувача сценарії умовно можна розділити на найпростіші, ті, що ні залежать від країни і мови, і складні. У простих сценаріях ми стикаємося з типовими діями, це можуть бути установка будильника, читання останніх новин або якоїсь певної газети / сайту, відправка пошти тощо. Тобто, це зумовлені дії, реалізація яких в пристрої або програмі не викликає ніяких труднощів. У простих сценаріях важливо, щоб система розпізнавання мови правильно розпізнала контекст і то, є запит твердженням або питанням. Наприклад, одна і та ж фраза може сприйматися системою по-різному: «Будильник на 8 годин варто чи ні?». Багато системи спочатку просто ставили будильник на цей час, не перевіряючи, є він вже чи ні. Тепер вони «навчилися» перевіряти стан будильника і правильно відповідати на це питання.

Складні сценарії безпосередньо прив'язані до контексту мови і країни. Наприклад, запитуючи, що сьогодні йде в кіно, ви не чекаєте, що голосовий помічник зачитає вам список фільмів в Нью-Йорку, напевно, ви хочете почути його для свого міста і бажано для свого району або улюбленого кінотеатру. Локальний контекст стає архіважливим, і глобальні компанії часто не можуть зробити нічого в цій галузі. Винятком є Google, у якого системи Google Now і Google Maps побудовані навколо збору точок інтересу, або POI, тобто «вивчають» світ, відгуки про ті чи інші закладах. В Amazon цієї інформації немає, тому сценарії мають на увазі не тільки алгоритм дій, але їм потрібна і первинна інформація.

У Росії дочірня компанія i-Free під назвою Just AI з 2011 року створює таку платформу, тобто вони намагаються створювати сценарії, застосовні для російського ринку. Першим продуктом, в якому на масовому ринку застосовуються сценарії, створені компанією, став робот Pudding (в нашому варіанті «Ємеля»), він уміє розмовляти російською мовою, шукати певний контент і захищати дітей від небажаних слів і запитів.

Першим продуктом, в якому на масовому ринку застосовуються сценарії, створені компанією, став робот Pudding (в нашому варіанті «Ємеля»), він уміє розмовляти російською мовою, шукати певний контент і захищати дітей від небажаних слів і запитів

Назвати «Емелю» роботом складно, це справжнісінький голосовий помічник, орієнтований на дітей віком від 5 до 11 років, при цьому він не є іграшкою. З боку компанії Just AI в цьому голосовому помічнику сценарії і розпізнавання російської мови (движок від Nuance). У теорії, якщо дитина почне цікавитися самогубством або подібними темами, такий «робот» може відмовити його і надіслати екстрене повідомлення батькам - це ті самі сценарії, які потрібно розробити і додати їх у пристрій. Інший приклад, діти часто хочуть, щоб їм розповіли казку, вибір казок величезний, і виникає питання, на якій зупинитися. У таких голосових помічників буде вибір пріоритетних творів, відомих як дітям, так і батькам. Тобто, якщо ви не знаєте, що саме хочете почути, то говорите: «Хочу казку». А вже сам помічник вибирає, яку саме казку ви почуєте.

А вже сам помічник вибирає, яку саме казку ви почуєте

Наскільки розумним буде ваш голосовий помічник, безпосередньо залежить від того, наскільки він розуміє контекст бесіди, знає ваш спосіб життя (наприклад, де ви працюєте і адреса офісу, ваш розпорядок дня). Зрозуміло, що в цій гонці перевага за Google, так як в рамках Асистента компанія знає про вас так багато, що може побудувати розумні сценарії і підказки, які будуть доречні і важливі. Інші компанії в цьому напрямку поки є відстаючими, але намагаються швидко розвиватися.

Уміння обробити запит, правильно виділити його контекст і знайти релевантний відповідь для голосових помічників стає найважливішим властивістю. Ті компанії, що навчилися випускати голосових помічників в Китаї (а таких уже десятки), не можуть швидко і легко локалізувати продукт для Росії або інших країн, їм потрібні сценарії, яких у них немає. Їм потрібно розуміння локального контексту, а воно не може з'явитися з нізвідки. І на цьому шляху виграють компанії, які вже починають збирати такі дані всіма можливими способами. Мені це чимось нагадує золоту лихоманку в картографії, коли в перші роки розвитку карт на мобільних пристроях все билися за максимальне і точне наповнення по POI, так як карта без розшифровки назв компаній та магазинів, часу їх роботи і тому подібного - це майже марний малюнок.

Зверніть увагу, що є ще один важливий момент для домашніх голосових помічників, це наявність контенту, наприклад, музики. Одна справа, коли у вас вже є підписка на якийсь музичний сервіс і ви слухаєте і шукаєте музику в ньому. Інша справа, якщо ви шукаєте щось, чого там немає, тут на перший план виходить легальність відтворення і те, наскільки велика бібліотека доступна вашому помічникові, чи може він отримати цей контент безкоштовно або він повинен його купити. Це цікаве питання, але на ньому ми зупинятися не будемо.

З тексту в голос - зворотне перетворення

Найскладніші операції позаду, голос розпізнали, запит обробили, помічник отримав відповідь у вигляді тексту, і тут саме час його озвучити. На жаль, системи перетворення тексту в мову не так вже ідеальні, і в них з легкістю можна дізнатися робота. Зрозуміло, що в найближчі 5-6 років цей момент кардинально зміниться, але сьогодні багато перетворювачі нагадують робота Вертера з радянського фантастичного фільму, кажуть вони нечисто, трохи заїкаються. На жаль, цей момент просто вимагає часу і зміни технологій, великі виробники отримають перетворювачі тексту в голос зі стерпними характеристиками швидше, ніж невеликі компанії. Подивіться в ролику, як спілкується «Ємеля», щоб приховати недоліки TTS-движка, тут навіть придумали історію, що це робот з іншої планети і тому він говорить саме так.

Зрозуміло, що цей «робот» не звучить чисто, у Google Home або Amazon мову краще, але немає підтримки російської (у Google Home вона з'явиться в 2018 році, восени, якщо судити по поточним планам компанії). Відсутність в Росії голосових помічників пояснюється просто - щоб адаптувати китайські пристрої, потрібно володіти як модулями конвертації мови в текст і назад, так і якоюсь подобою AI, який обробляє сценарії і має якийсь контент на борту. В цьому аспекті той же «Ємеля», або Roobo Pudding - перший пробна куля, який цікавий з точки зору технологій, як продукт для кінцевого споживача він цікавий в меншій мірі. Втім, про це ми поговоримо в огляді, де влаштуємо для нього докладні випробування всіх можливостей.

короткий висновок

Ринок домашніх голосових помічників буде рости, і поступово такі пристрої стануть поширені у всіх куточках світу. Якщо ще двадцять років тому центром розумного будинку ми представляли якийсь комп'ютер, який стоїть в куточку або, навпаки, розміщений на видному місці, то тепер на цю роль претендують голосові помічники, тим більше що в нових поколіннях їх стали оснащувати екранами.

Якщо ще двадцять років тому центром розумного будинку ми представляли якийсь комп'ютер, який стоїть в куточку або, навпаки, розміщений на видному місці, то тепер на цю роль претендують голосові помічники, тим більше що в нових поколіннях їх стали оснащувати екранами

У будь-якому випадку такі голосові помічники дешевше, ніж окремий комп'ютер, а вміють рівно стільки ж і навіть більше, так як це спеціалізовані пристрої. Незважаючи на гадану простоту, в таких помічників зосереджені по-справжньому високі технології. Крім уже згаданого «Емелі», російський користувач може побачити домашній голосовий помічник від Яндекса, в додатку Яндекс.Бета це голосовий чат з Алісою (чи не нагадує Alexa? Мені нагадує). Поки це глибока стадія бети, і чат виглядає дуже і дуже простим, нехитрим.

Але саме Яндекс в Росії здатний створити не тільки чат для смартфонів, але і домашнього голосового помічника. Будьте впевнені, що як тільки Аліса вийде зі стадії бети, через 8-9 місяців народиться домашній голосовий помічник, так як технологія буде готова, а два інших цеглинки у вигляді перетворення мови з тексту і назад у компанії вже є, і це власна розробка. Знаючи, як в Яндексі завжди намагаються встигнути швидше Google, можна очікувати, що домашній голосовий помічник покажуть на конференції Яндекс навесні 2018 року і постараються почати продавати до вересня 2018 року, коли в Росії повинен з'явитися Google Home.

У цьому матеріалі я намагався максимально простою мовою описати ті цеглинки, з яких складаються сьогоднішні голосові помічники, щоб у вас виникло розуміння, з якими проблемами стикаються їх розробники. Сподіваюся, що з цим завданням мені вдалося впоратися і ви зрозуміли, як все це працює на практиці, які проблеми і завдання стоять в цій області.

PS Так як це перший матеріал в рубриці, то традиційно прошу висловити свої думки, наскільки такий формат цікавий. Також пропонуйте теми, які ви хотіли б, щоб ми розібрали разом в наступних випусках. Заздалегідь дякую.

Поділитися:

Ми в соціальних мережах:

Є, что Додати?! Пишіть ... [email protected]