Голосовые помощники слушают вас, всегда!

№46(796) 18 — 24 ноября 2016 г. 16 Ноября 2016 0

Сегодня практически в каждом смартфоне есть функция голосового помощника. Такие системы, как Siri, Cortana или Google Now, становятся все более популярны, и уже никого не удивляет, когда человек, обращаясь к телефону, спрашивает, какая будет погода или что вечером посмотреть в кино. Технологии распознавания текста вместе с тем занимают и другие ниши, такие как поддержка пользователей, звонящих на горячую линию, и хотя виртуальный помощник не способен полностью заменить общение со специалистом, решение простых вопросов помогает в значительной степени снизить нагрузку на call-центры крупных компаний.

Искусственный интеллект распознает речь, как человек

Сюэдунь Хуань со своей командой

Технологии распознавания речи постоянно совершенствуются. Так, во второй половине октября команда по исследованию искусственного интеллекта Microsoft во главе с Сюэдунь Хуань (Xuedong Huang) отчиталась о невероятном достижении. Согласно данным их исследования, компьютер с ПО для распознавания речи сумел распознать речь с той же точностью, что и человек. Количество ошибок при этом составило 5,9%, что сопоставимо с аналогичным уровнем у человека.

«Мы достигли равенства с человеком... Это историческое достижение» — так заявляет о своем успехе Сюэдунь Хуань.

Исследователи использовали глубокие нейронные сети для хранения значительных объемов данных, т. н. «обучающих наборов», которые помогли системе распознавать паттерны от человеческой речи.

Впрочем, исследователи считают, что «равенство» еще не является совершенством. Двигаясь вперед, они надеются достичь более высокого уровня точности, а также гарантировать, что распознавание речи будет работать лучше в реальных ситуациях, таких как рестораны, шумные многолюдные улицы и при сильном ветре. Команда мечтает о системе, которая будет не только распознавать речь, но и по-настоящему понимать ее.

Не остаются в стороне и конкуренты, разрабатывая новые технологии распознавания. Отставание в этом сегменте может свести на нет лидерство в индустрии в целом.

Отставание на рынке распознавания речи может погубить даже сильные IT-компании

Недавно один из авторитетных IT-журналистов Волт Моссберг (Walt Mossberg) в издании The Verge раскритиковал голосового помощника Siri, применяемого в смартфонах компании Apple. Разгромная статья под названием Why does Siri seem so dumb? («Почему Siri кажется такой глупой?») раскрывает недостатки голосового интерфейса от Apple. Аналитик также предполагает, какими последствиями для компании это может грозить, если ситуация не изменится.

Волт познакомился с голосовым помощником от Apple еще на этапе разработки, когда Siri не принадлежала компании, а была приложением от сторонних разработчиков. Теперь, после того как Apple приобрели разработчика ПО, голосовой помощник проник во все вычислительные устройства компании. Его можно встретить не только в IPhone, но и в IPad и теперь в компьютерах Mac и даже в Apple TV.

Автор отмечает: «Siri стала острием копья для Apple в предстоящих технологических войнах, только началом работы, позволяющей сделать искусственный интеллект естественной разговорной частью вашего мира — дома, на вашем телефоне, в вашем автомобиле, везде. У Apple получилось сделать большой старт с Siri».

Отмечая заслуги голосового помощника, Волт задается вопросами: «Так почему Siri кажется настолько глупой? Почему ее таланты настолько ограничены? Почему она так часто спотыкается?»

Siri может с помощью голосовой команды показать погоду, позвонить кому-нибудь из записной книги или установить будильник и даже удовлетворить другие запросы, например, найти ресторан. Однако это все умел и прототип Siri, могут делать и многие другие более простые телефоны. Долгое время компания не вкладывала в развитие сервиса и начинает терять лидерство.

Конкурирующие голосовые помощники дают ответы на запросы быстрее и точнее, позволяют выполнять значительно больше команд. Например, Siri не смогла ответить на вопрос: «Когда президентские дебаты?». Siri как по-настоящему умный помощник, знающий о мире в целом, часто выходит из строя, несмотря на то что презентации Apple и веб-сайт Siri свидетельствуют об обратном. Так, Siri не смогла назвать имена главных партийных кандидатов на пост президента и вице-президента Соединенных Штатов.

Для сравнения: на запрос Моссберга, кто такой Тим Кук, Siri предлагает только контакт из телефонной книги, а Google Now при прочих равных условиях понимает, что это известный человек и предлагает, кроме вызова контакта, и ссылку на материал о нем в Wikipedia. В конце статьи Волт Моссберг отмечает, что Apple не стала бы собой, просто следуя за рынком. Чтобы стать лидером в этом сегменте нужно совершить революцию, а возможностей Siri для этого недостаточно.

Следует отметить, что по прошествии менее недели после выхода разгромной статьи Моссберга глава Apple Тим Кук заявил в интервью японскому изданию Nikkei, что его компания создает исследовательскую лабораторию в Йокогаме, где будут в том числе вестись разработки в области искусственного интеллекта.

Они уже в нашем доме

Рынок голосовых помощников включает в себя большое разнообразие систем, которые способны работать не только на смартфонах. Какие же системы существуют сегодня и каковы их особенности?

Самым ярким воплощением умных помощников стали устройства для дома.

Первым коммерчески успешным воплощением таких устройств стал Amazon Echo. Помощник использует систему распознавания голоса Alexa, являющуюся собственной разработкой компании. Echo работает не просто как обычная Bluetooth-колонка, но и может самостоятельно обрабатывать запросы пользователей. Система умеет отвечать на вопросы пользователей, рассказывая о погоде, позволяет воспроизводить музыку как со смартфонов, так и с поддерживаемых вещательных сервисов. При помощи голосовых команд можно задавать будильники, создавать списки покупок, совершать покупки в Amazon, получать информацию из Wikipedia. Программная платформа открыта для сторонних разработчиков, что позволяет находить ей новые применения. Так, Echo умеет управлять системами умного дома от таких компаний, как Nest, Samsung, Belkin и других.

Конкурентом для устройства Amazon стал недавно вышедший помощник Google Home. Он имеет схожую с Echo функциональность, однако в качестве поиска используется собственная система, а при дополнении системы устройством Chromecast может воспроизводить видео с YouTube или, например, показывать фотографии на вашем телевизоре. На данный момент количество поддерживаемых сторонних систем невелико, но благодаря платформе для разработчиков планируется быстрое увеличение их числа.

Системы распознавания голоса многие производители автомобилей встроили в свои мультимедиа. Так, уже сейчас, находясь за рулем, можно осуществлять телефонные вызовы или прокладывать маршруты в навигационной системе, не отвлекаясь от дороги.

Активно развивается направление программного обеспечения для синхронного перевода. К примеру, переводчик для Skype позволяет переводить речь с 8 различных языков в режиме реального времени с высокими точностью распознавания речи и качеством.

Спецслужбы используют технологии распознавания речи в своих целях

Учитывая, что большинство голосовых помощников все время «слушают» окружение, вполне естественным кажется интерес спецслужб к теме распознавания голоса и понимания речи. Еще с начала 2000-х DARPA активно спонсирует разработку эффективных методов речевого анализа.

[img:100405, 175, rught]

Издание The Intercept выпустило огромную разоблачающую статью «Компьютеры слушают» о взаимодействии американских спецслужб и бизнеса в области распознавания речи. Что пишет об этом автор, Дэн Фрумкин (Dan Froomkin)?

Большинство людей понимают, что электронная почта и другие цифровые коммуникации, когда-то считавшиеся частными, теперь могут стать частью постоянно ведущейся записи спецслужб. Но люди не понимают, что используемые ими голосовые помощники делают их слова не такими приватными. Секретные документы из архива АНБ, опубликованные Сноуденом, свидетельствуют о том, что большинство телефонных разговоров может быть распознано автоматически для составления стенограмм, которые легко сохранить и отыскать при необходимости. Документ показывает удовлетворенность аналитиков агентства разработкой системы «Google для голоса», созданной около десятилетия назад.

И хотя совершенное распознавание голоса пока остается недостижимым, спецслужбы активно развивают такие технологии и алгоритмы.

Министерство обороны США через департамент оборонных научно-исследовательских проектов (DARPA) начал финансирование научных и коммерческих проектов в области распознавания речи еще с 1970-х. Документ из сноуденовского архива продемонстрировал, что, по данным на 2008 г., система распознавания новостных трансляций успешно работала 7 лет. Программа называлась Enhanced Video Text and Audio Processing EViTAP (улучшеная обработка видеотекста и аудио). Особенность этого инструмента в том, что он анализирует новости на шести языках — арабском, китайском, русском, испанском, английском и фарси/персидском.

Как это работает? В системе есть функция распознавания речи, которая расшифровывает аудиоинформацию. Вторая часть системы включает в себя машинный переводчик на английский. Простая и удивительная технология. Версия этой системы доступна и на свободном рынке.

Эксперты в области распознавания речи говорят, что в последнее десятилетие темпы технического совершенствования носили взрывной характер.

Поскольку хранение информации становится все более дешевым и более эффективным, технологические компании имеют возможность хранить огромное количество голосовых данных на своих серверах, что позволяет им постоянно обновлять и совершенствовать модели. Громадные вычислительные центры, работающие по принципу «глубоких нейронных сетей», обнаруживают паттерны, как человеческий мозг, производя гораздо более чистые транскрипции. И документы Сноудена показывают, что те же прорывные технологии, что используются в коммерческих продуктах для преобразования речи в текст, тайно используются АНБ, которое может оперировать огромнейшими массивами данных, накопленными в их собственном хранилище.

Система, позволяющая анализировать разговор автоматически, выявляя определенные слова, которые могут быть отнесены к терроризму, существует по меньшей мере десятилетие, активно применяясь с 2006-го.

Реальные подтверждения тому, что АНБ реально использовало данные распознавания речи, можно найти в документах, связанных с программами PRISM и Upstream. АНБ перехватывали не только данные пользователей сетей, но и содержание телефонных разговоров крупнейших операторов, таких как ATT и Verizon. Так, известно, что только за 2013 г. были перехвачены и расшифрованы разговоры 89 тыс. потенциальных целей.

Кроме того, известно, что АНБ собирало данные пользователей Google, Skype, Yahoo и многих других. И хотя со времен разоблачений Сноудена политика IT-компаний в области сохранения приватности персональных данных, по их собственным заявлениям, значительно изменилась, нельзя полностью исключать, что спецслужбы до сих пор используют эти данные, пусть и не вполне официально.

Внедрение и активное использование технологий распознавания речи спецслужбами в большей степени беспокоит правозащитников и общественных деятелей.

Ким Тайпэйл убежден, что должны быть четкие государственные нормы и эффективный надзор

Ким Тайпэйл (Kim Taipale), исполнительный директор Stilwell-центра передовых исследований в области научно-технической политики, — один из тех нескольких человек, которые десять лет назад пытались заставить политиков признать, что законы, связанные с наблюдением и слежкой, неактуальны в эпоху глобальных сетей связи и передовых технологий, включающих распознавание речи.

«Эти вопросы более не являются эфемерными — говорит Тайпэйл. — Мы живем в мире, где многие вещи, которые были мимолетны в аналоговом мире, в настоящее время на постоянной записи. В таком случае возникает вопрос: каковы последствия этого и каковы будут правила работы с этими последствиями?»

Далее, добавляет Ким, способность правительства разыскивать необходимое в голосовой связи — это то, с чем нам, возможно, придется жить и с учетом чего идти вперед. Но по крайней мере должны быть четкие государственные нормы и эффективный надзор, чтобы убедиться, что информация используется только в целях национальной безопасности в соответствии с конституционными принципами.

Джей Стэнли, старший политический аналитик Американского союза гражданских свобод, говорит, что различия между обычным прослушиванием и компьютерным не имеют значения с точки зрения конфиденциальности, это может оказать воздействие на свободу слова.

Военные тоже пользуются распознаванием речи

Силовики разрабатывают систему RATS (система надежной автоматической транскрипции речи), которая должна заработать в 2017 г. Она позволит автоматически расшифровывать переговоры военных во время операции для дальнейшей обработки аналитиками.

Система направлена на четкое распознавание речи и точное отделение от нее различного фонового шума, который неизбежно появляется в полевых условиях. Кроме того, она должна автоматически определять, на каком языке происходит разговор, и выделять ключевые фразы для анализа.

Кроме военных, проводящих испытания системы, использовать ее для своих целей готовы в АНБ и ЦРУ.

В общей сложности система обойдется порядка в 15 млн. долл.

Не доверяйте тайны гаджетам — они могут «проболтаться»

Заканчиваются последние испытания системы, включающие тестирования алгоритма обнаружения активности речи, и реальные испытания, позволяющие оценить разницу между лабораторными и полевыми условиями.

По заявлениям представителей DARPA, система работает хорошо, однако заметна деградация в распознавании по сравнению со стерильными лабораторными условиями.

Программа состоит из четырех основных частей:

определение активности речи позволяет разделять, какие сигналы относятся к речевым, а какие являются шумом;

выделение ключевых слов. Аналитикам может потребоваться отличить фразу, содержащую определенное закодированное послание, от обычных переговоров;

идентификация языка. После отделения речи от шума программа должна определить, на каком языке ведутся переговоры. Исследователи DARPA сосредоточены на арабском, фарси, пушту и дари, которые используются на Ближнем Востоке, в Афганистане и Иране;

идентификация говорящего. Система может использовать анализ голосовых паттернов и другие технологии для определения говорящего, что может быть особенно полезно, если аналитики разведки и войска ищут конкретные цели.

Большая часть работы по системе RATS проводилась в лабораториях в тихой и контролируемой среде. Документы DARPA показывают, что проблемы возникают, когда исследователи собирают голосовые сигналы в средах с большим количеством фоновых шумов и конкурирующих радиосигналов. Войска и аналитики разведки, пытающиеся контролировать множественные сигналы, должны отделить один сигнал от другого, а затем сосредоточиться на фактических произнесенных словах без примеси статического или фонового шума. Это сложная задача в контролируемых средах, но особенно это будет заметно в таких местах, как Афганистан или Ирак.

После того как технология сможет отделить речь от шума, ей нужно предельно точно и быстро переводить сказанные слова, которые часто произносятся на региональных диалектах и с акцентом.

Программа RATS включает в себя международную коалицию подрядчиков и ученых во главе с BBN Research, подразделением оборонного гиганта Raytheon, а также технологический университет Брно из Чешской Республики, Университет Джона Хопкинса в Балтиморе, Университет штата Мэриленд и Университет Карнеги-Меллона в Питтсбурге. Кроме того, в проекте участвуют IBM, SRI, Массачусетский технологический институт и университеты в Дании, Англии и Испании, другие компании и университеты.

Технология персональных помощников крайне интересна. Интерфейсы, через которые организуется связь между человеком и компьютером, будут становиться более естественными. С каждым днем все больше людей, говорящих на улице Ок, Google или Hey Siri, нежели чем вводящих запрос на экране телефона. Однако человек, который пользуется технологиями голосовых помощников, должен быть готов к тому, что все, что он говорит, может использоваться недобросовестно как самими владельцами технологий для предоставления целенаправленной рекламы, так и спецслужбами, пытающимися таким способом вычислить потенциальных нарушителей закона, а также хакерами для слежки за пользователями с целью извлечения выгоды.

Уважаемые читатели, PDF-версию статьи можно скачать здесь...

Комментарии 0
Войдите, чтобы оставить комментарий
Пока пусто
Блоги

Авторские колонки

Ошибка