Есть такая поговорка: если бы пес умел говорить, человек потерял бы последнего друга. Можно ли эту шутку применить к компьютерам, которые медленно осваивают речь?
Голосовое управление электроникой, преобразование речи в текст и наоборот уже сегодня трансформирует пользовательские привычки, пишет The Economist. Вместо нажатия кнопок или управления сенсорным экраном мы только произносим кодовое слово, а техника выполняет команду. Что означает распространение этой технологии на глобальном уровне, какие угрозы ожидают нас в мире компьютеров с голосом» — предлагаем ознакомиться с исследованием от редакции The Economist.
Перспективы голосовых технологий
Любая достаточно продвинутая технология воспринимается, как магия, — так утверждал английский писатель-фантаст Артур Чарльз Кларк (Sir Arthur Charles Clarke). Распознавание голосовых команд вполне подтверждает тезис выдающегося британца. Кто из нас не чувствует себя волшебником, произнося вслух фразы, которые заставляют электронику выполнять заданные операции? Смарт-динамику Amazon Echo подходит роль магического хрустального шара. Устройство активируется, то бишь откликается на имя «Alexa», может проигрывать музыку, радиостанции, рассказывает шутки, отвечает на вопросы и даже управляет другой электроникой, — все это вслух по озвученному запросу. По состоянию на конец прошлого года 4% домохозяйств в США имели Alexa на своем столе. Процент достаточно высокий как для устройства нового формата, которое стало доступно широкой публике только 1,5 года назад. А эти данные даже не учитывают рождественские продажи, которые традиционно очень успешны для гаджетов.
Голосовые помощники в смартфонах также становятся все популярнее: Apple Siri в США обрабатывает более 2 млрд голосовых команд каждую неделю, а около 20% поисковых запросов в Google с Android-устройств, работающих в Америке, вводятся также с голоса. Распознавание речи уже позволяет без существенных препятствий надиктовать мобильному устройству текст письма или сообщения. Зачем печатать, если можно просто рассказать смартфону свою историю? Технология меняет сам принцип взаимодействия человека с техникой. Теперь, когда владелец озвучивает свое желание гаджету, их сотрудничество становится более естественным, к которому мы привыкли еще с древних времен.
Читайте также: Mycroft - новое поколение искусственного интеллекта
Все элементы интерфейса в компьютере разрабатывались с целью облегчения условий труда пользователей. Чтобы не вводить полностью цифровую команду, дизайнеры придумывали меню и окошки, иконки и сенсорные кнопки, в конце — полностью сенсорные экраны. Возможность «разговаривать с компьютером» устраняет необходимость разрабатывать пользовательский интерфейс в принципе. Компьютер без экрана и клавиатуры может стать более полезным, мощным и вездесущим, чем мы даже можем себе представить.
Однако, голосовые команды не смогут полностью заменить другие методы управления электроникой. Иногда все же удобнее ввести текст на экране, чем надиктовать его вслух — даже Amazon разрабатывает устройство с дисплеем для дополнительного управления Echo. Но именно распознавание голоса продолжает активно развиваться и появится в ближайшее время в большинстве бытовых устройств. Например, стиральные машинки смогут отвечать, сколько минут еще будет продолжаться цикл стирки, а нам не придется присматриваться к таймеру на панели управления. В бизнесе технология также понадобится — корпоративные колл-центры и сервисы поддержки пользователей смогут автоматизировать еще больше операций. Но для полноценного использования всего потенциала голосового управления нужно решить несколько насущных вопросов.
Alexa, что такое глубокое обучение?
Технологии голосового ввода текста существуют давно, но во все предыдущие годы они не были достаточно надежными. Чтобы машина распознала вашу команду, нужно научиться произносить слова с определенной интонацией и громкостью. Сегодня тренируемся не мы, а компьютер — алгоритмы обрабатывают миллионы примеров человеческих голосов, акцентов и особенностей произношения, чтобы с первого раза узнавать слова. Материал для обучения система находит в интернете. Это — одно из самых выдающихся достижений разновидности технологии искусственного интеллекта, что имеет название «глубокое обучение». Можно констатировать, что не только преобразование речи в текст, но и обратный процесс (озвучивания электронного текста) уже звучит естественнее, более привычно для слушателя. Постепенно машины учатся адекватно воспроизводить заданную человеком команду в виде языка.
Читайте также: Глубокое обучение искусственного интеллекта. Все, что необходимо знать
Однако, глубокое обучение отвечает только за способность правильно воспроизводить текст, а не понимать его. Самое главное отличие машинного голоса от живого языка, в то же время, является наибольшим препятствием для развития голосового управления. И чтобы эта технология оккупировала наши дома, автомобили и рабочие места — машины должны научиться понимать язык. Без постижения контекста, общей темы разговора алгоритм не сможет выполнять комплексе задачи. Ведь сегодня голосовые ассистенты справляются с односложными командами: «Эй, Сири, поставь таймер на 10 мин», «Alexa, найди рецепт для свиных ребрышек» и тому подобное. В повседневной речи редко употребляются такие простые предложения. Как правило, люди оперируют сложными высказываниями и почти всегда понимают друг друга.
Над решением проблемы работают ученые в исследовательских институтах, разработчики в малых и крупных компаниях. Расцвет чатботов является шагом вперед в этом направлении: они умеют поддерживать более содержательный диалог, уже способны подобрать клиенту оптимальный страховой полис, забронировать билеты на самолет и отель в пункте назначения.
Удобство или безопасность
Пользователи, а также внешние регуляторы должны сыграть свою роль в развитии голосовых компьютерных технологий. Даже в сегодняшней примитивной форме они провоцируют серьезные противоречия. С одной стороны, системы с голосовым управлением будут тем лучше, чем больше будут иметь персональных данных пользователя — календарь, электронные письма, учетные записи на сайтах и онлайн-сервисах. Но это создаст дополнительную угрозу безопасности информации.
Некоторые из устройств постоянно находятся в состоянии пассивного «слушания», пока не услышат команду активации. В интернете активно обсуждают потенциальную опасность от постоянно включенных микрофонов в домах рядовых граждан. Не все аудиосистемы отправляют аудио на облачный сервер до того, как получают команду начать работу. Именно после условного «ОК, Google» все голосовые запросы направляются на сервер, где их обрабатывают специальные алгоритмы. Но трудно установить, кто именно владеет аудиозаписями (как до активации, так и после нее) и где они находятся в тот или иной момент времени.
Читайте также: Пропасть между биологическим и цифровым мозгом сужается
Широкую огласку получил случай, когда полиция штата Арканзас обратилась к Amazon с требованием предоставить доступ ко всем данным динамика Echo, что мог «услышать» убийство в помещении. Компания отказалась, ссылаясь на отсутствие достаточных законных оснований для подобного запроса. Специалисты по безопасности данных сравнивают случай до отказа Тима Кука предоставить ФБР доступ к информации на заблокированном iPhone террориста. Оба случая подтверждают необходимость разработки четкого нормативного регулирования, в интересах общей безопасности и защиты частных данных.
Как показывает история развития технологий, потребители начнут активно пользоваться голосовыми сервисами даже если вопрос защиты информации не будут решены. Привлекает удобство голосовых технологий — этот аспект перевесит соображения безопасности. Управления голосом позволит совмещать работу с устройством во время поездки за рулем, тренировок и прогулок, даже во время домашней уборки. Кроме этого, технология пригодится людям с особыми потребностями, которые смогут полноценно управлять техникой.
Некоторые специалисты прогнозируют изменение отношения к использованию языка вообще. Когда машины научатся распознавать и переводить на ходу, рядовым гражданам не обязательно будет учить иностранные высказывания. Языки меньшинств будут иметь больше шансов на выживание и сохранение, когда на них заговорят компьютеры. В свое время распространение сенсорных экранов существенно повлияло на взаимодействие пользователя с техникой, однако голосовые технологии принесут больше изменений. Они фактически превратят электронное устройство на собеседника.