Олег Малеев, Speereo Software: "Голос как феномен"

   Автор статьи:

Не так давно на Sotovik.ru мы опубликовали обзор программы Speereo Voice Translator. Это программа-разговорник для мобильных устройств с рядом полезных функций. Сегодня же мы поближе познакомимся с деятельностью компании и ее планами на будущее. На вопросы отвечает Олег Малеев, директор по научно-исследовательским разработкам Speereo Software. 



-Расскажите о Вашей компании. Когда и почему ее создали, где находятся офисы представительств в мире, какие основные этапы истории развития вашего бизнеса?

-Компания Speereo Software была основана в 1998 году. Это исследовательская компания, которая создавалась нами для развития и коммерциализации технологии распознавания речи. У компании есть офис в Англии и отдел разработок в Санкт-Петербурге. Для ее основателей с самого начала было очевидно – техника развивается, все сложнее становится её управление. Усложнение управления приводит к интересному эффекту – человек перестает пользоваться функциями устройства, потому что не знает как. Для решения этой проблемы требуется полная смена парадигмы построения человеко-машинного интерфейса, необходимо сделать его наиболее естественным и удобным, а что может быть для человека более удобным и естественным, чем общение с помощью речи.

Основные работы по созданию голосового "движка" заняли три года, и в 2000 году мы имели дикторонезависимую систему распознавания речи с большим словарём. Нашей целью тогда были мобильные и встроенные устройства, которые обладают значительно меньшими вычислительными ресурсами, чем обычные компьютеры, поэтому большое внимание при совершенствовании технологии уделялось ее эффективности и оптимизации. В то же время с самого начала мы уделяли большое внимание стабильности и качеству распознавания в различных условиях, так как те же мобильные устройства используются в различных средах (на улице, в автомобиле, в кафе, на дискотеке и т.д.)

В мае 2001 речевой интерфейс был портирован под платформу Windows CE, к концу года программа Speereo Voice Organizer уже работала на устройствах HP Jornada 54X (SH3) и Casio Cassiopeia E-125 (MIPS). Мы были первой компанией, которая выпустила на этот рынок работающую систему распознавания речи. В этом же году началась разработка программы-разговорника Speereo Voice Translator (SVT). Весной 2002 года Speereo Voice Organizer работал на устройствах Pocket PC, а уже в августе 2002 он был номинирован на премию самого авторитетного издания в отрасли — PocketPC Magazine. В октябре Speereo представила новинку на суд широкой общественности на мероприятии Pocket PC Summit в Голливуде. Speereo выступила в роли участника и официального спонсора события. Полностью функционирующая технология распознавания голоса вызвала неподдельный интерес многих производителей мобильных устройств.

В 2003 году Speereo начала сотрудничество с издательским домом Columbus: именно они предоставляли гиды для SVT на первом этапе. В том же году мы подписали соглашение о сотрудничестве с Fujitsu-Siemens.

В июне 2005 вышла первая версия SVT для платформы Symbian. В последующие годы продукты развивались и дорабатывались, последней разработкой является SVT для Java. Вообще в рамках данного интервью охватить все события за 10 лет не представляется возможным. Всех, кто хочет поближе познакомиться с компанией Speereo, приглашаем в архив новостей нашего сайта.


-Что подтолкнуло Вас на разработку программы-разговорника? На рынке представлены похожие продукты, что же является "ноу-хау" Вашей компании?

- Настоящим "ноу-хау" является система распознавания голоса. Никто не верит, что голосовая база и система распознавания голоса могут весить менее 1Мб ("движок" занимает 800 кб, любой язык — до мегабайта). Каждый второй на выставке задает вопрос: "А какой трафик уходит на общение с сервером?" Ответ: никакой, все уже есть в приложении. Исключением является Java версия (функционал SVT не уместить в 300 кб) и дополнительные сервисы (понятно, что для информации о текущей погоде или авиарейсах требуется запрос к серверу). На рынке распознавания речи присутствуют такие монстры как Nuance и Microsoft. Но, при хорошем маркетинге и дружелюбных программах, сама технология далека от совершенства, да и ценник "кусается". Косвенным подтверждением недоработок технологии являются заявления той же Dragon. При выпуске 8-ой версии компания заявляла о точности распознавания "на 25% лучше предыдущей версии, достигающей 99% точности", при этом 9-ая версия на 20% точнее предыдущей. Что-то не так с этими цифрами. Microsoft... Наверно только ленивый не посмотрел презентацию распознавания речи Vista, в которой технология просто не работала. У Microsoft бывают смешные презентации, иначе их не назовёшь. В итоге имеем то, что имеем. На рынке есть ряд достойных компаний, старающихся преуспеть в технологии распознавания речи. Это, как я уже сказал, сложное направление, и Speereo имеет хорошие перспективы на успех.


- Как происходит процесс подготовки путеводителей в Voice Translator? Кто их создатель, как актуализируются данные?

- Путеводители предоставляются сторонними компаниями, а также создаются нашими силами. В любом случае их требуется переводить в понятный для программы формат, схожий с HTML. Данные обновляются по принципу "кто предоставил, тот и обновил". У нас есть ряд договоренностей с компаниями, специализирующихся на этой теме. Кроме того, в качестве эксперимента, мы самостоятельно выпускали специализированные гиды. Из примеров могу назвать "Гид по горнолыжным курортам", "Гид по винам", "Гид по ЕВРО-2008". В ближайших планах — выпуск русскоязычных гидов, пока же их счет идет на единицы. Зато для владеющих английским языком уже сейчас есть большая база подробнейших путеводителей по популярным среди туристов городам и странам.

Также мы собираемся привлекать в партнеры туристические компании. Они уже специалисты на своём рынке и знают, чего желает рядовой путешественник. Так мы достигаем максимума эффективности: получаем готовый материал гида, даем пользователю необходимую информацию, предлагаем туристическому агентству возможность вложить гид со своими контактными данными в востребованный продукт, необходимый путешественнику.


- Как решается проблема с распознаванием произношения в Voice Translator в последней версии? Насколько этот процесс автоматизирован или носители языка перепроверяют качество работы программы?

- Этот процесс автоматизирован. Естественно, носители языка участвуют в создании голосовых баз. В итоге у программы есть модели "идеального" и "плохого" произношения, что позволяет движку понимать даже произношение с сильным акцентом. Сейчас проблема может быть только в плохом микрофоне устройства (такая проблема встречается все реже) и в сильных посторонних шумах. Именно сильных, большую часть шумов программа фильтрует, этот алгоритм реализован на хорошем уровне, в ходе испытаний был даже тест в автомобиле с открытыми окнами. Наша технология обеспечивает распознавание голоса на улице, в автомобиле и в прочих шумах и с более высокой точностью, чем у кого-либо из конкурентов.


- Чем продиктован выпуск JAVA-версии Voice Translator? Чем она отличается от смартфонной и коммуникаторной версии?

-JAVA-версия по определению не может быть большого размера. В случае максимальной совместимости она не может занимать больше 300 кб, а версии для Symbian и WM могут занимать до 10 Мб. Поэтому вполне естественно, что программа запрашивает перевод (текст+озвучка) на сервере, а не хранит в памяти. Запрос осуществляется через канал GPRS. В остальном функционал аналогичен. Почему нам интересна JAVA-версия? Потому что, несмотря на стремительный рост числа смартфонов, количество традиционных телефонов в разы больше, а конкуренция на рынке JAVA-приложений — ниже.


- За счет чего JAVA-клиент стоит в несколько раз дешевле PDA-решения? Какие перспективы его продаж Вы видите?

- JAVA-клиент дешевле по простой причине — ему нужен доступ к сотовой связи. Если с Symbian и WM устройством можно общаться в горах и под землей, то для Java требуется покрытие связи. Еще один момент: с полной версией для смартфонов вы уже не доплачиваете за услугу, то тут вы, хоть и немного, но тратите деньги на трафик. За границей перед вами встает выбор: либо платить за роуминг, либо вставлять местную "симку". Но это ограничения Java, на другом уровне все это никак не реализовать. Вот мы и учитываем эти маленькие неудобства и даем впечатляющую скидку в размере 75% от полной стоимости продукта. Перспективы продаж в этих условиях неплохие: за 250 рублей вы получаете очень функциональный продукт. За эти деньги вы можете скачать пару мелодий или отдать свой голос за кандидата конкурса песни и пляски. С учетом большого рынка мобильных телефонов (в разы больше рынка смартфонов) и малого количества действительно полезного ПО (опять же — ограничения Java) — у нас формируется вполне конкретная аудитория, и немаленькая. Есть версии для Nokia, Samsung, Sony Ericsson, Motorola и совместимых с ними телефонах, поддерживаются разные разрешения экрана. Нетрудно подсчитать, что потенциальная база исчисляется миллионами пользователей.


- Какие языковые направления перевода в Voice Translator являются самыми востребованными у отечественного пользователя и в мире? В каких странах пользуется популярностью Ваш продукт?

- Самые актуальные переводы — на азиатские языки, и у нас, и "у них". Мы часто слышим пожелания по добавлению тайского языка. В планах он есть. Лидерами продаж являются США и Германия, при этом в Штатах особым спросом пользуется англо-испанский разговорник. Причина проста — демография и близость Мексики. Все большая активность на развивающихся рынках — Индия, Сингапур, Турция, Россия. Если говорить о языках, то мы имеем стабильно высокий спрос на русский и немецкий языки.


- Будет ли сделана в будущем клиент-серверная версия Voice translator и для смартфонов и коммуникаторов для облегчения размера самого приложения? Планируется ли выпускать подарочные издания программы? Будет ли выпускаться дистрибутив и его компоненты (например, путеводители) для загрузки через OTA-интерфейс для смартфонов и коммуникаторов?

-Клиент—серверной версии для смартфонов не планируем, у нас одно из конкурентных преимуществ — работа в оффлайне. Да и облегчение уже неактуально. Если 5 лет назад 10 мегабайт был условно большим объемом, то сейчас этой цифрой никого не удивишь. Программа прекрасно работает при установке на карты памяти, а объемы последних постоянно растут. Вообще больше вероятность того, что мы сделаем "тяжелый" дистрибутив "все в одном" весом в 10 Мб в дополнение к существующему механизму: в стандартный дистрибутив многоязычной версии включены 3 языка, остальные подгружаются по выбору пользователя.

Подарочные издания... Сейчас мы не продаемся в боксах и пока не видим в этом необходимости. Другое дело, что к праздникам можно предлагать программу в качестве подарка друзьям и близким. Скажем, если ваш знакомый собирается в Новый Год кататься на лыжах в Финляндии, то такой подарок будет вполне уместен.

OTA-версии у нас уже есть.


-Часто ли ломают Ваши продукты? Как Вы с этим боретесь и будут ли возможна легализация взломанного софта?

-Часто. Как и любой интересный продукт. Боремся, как все: меняем схему генерации ключа. Убрать "кряк", на ресурсах типа iFolder и Rapidshare это вообще дело 10 минут. 20 секунд отправить письмо, а через 10 минут пиратская ссылка уже не работает. В этом плане подобные сервисы очень дружелюбны по отношению к разработчикам. Другие методы борьбы есть, но они очень ресурсоемки, это удел "больших" компаний типа 1С, Adobe и т.п. Кстати, отечественный рынок "белеет" хорошими темпами, людей останавливает перспектива подхватить экзотический вирус через кейген, да и ломает кто как: эта часть программы работает, другая — нет. В общем, люди, которые ценят свой труд и свои данные, не будут экономить 500-1000 рублей и рисковать. "Кряки" остаются уделом, с позволения сказать, энтузиастов, которым доставляет удовольствие делать hard-reset системы и переустанавливать все программы "с нуля". Что касается легализации, то предлагать скидку для перехода с пиратской версии, мы не планируем.


© СОТОВИК

Авторизация


Регистрация
Восстановление пароля

Наверх