Оцифровкой русского языка займутся в ДВФУ

3 июля 2019 - Наука и инновации

Цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта создадут в Школе цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ). Проект реализуется в лаборатории машинного обучения ШЦЭ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Сбор заявок на участие в первом этапе работы будет открыт в сентябре.

Одним из первых продуктов по итогам работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

«Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам», — рассказал директор Школы цифровой экономики ДВФУ Илья Мирин.

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути — создать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

«Это чрезвычайно объёмная работа с перспективой на много лет. Однако первичный этап накопления языкового материала мы в ШЦЭ планируем завершить уже через год, после чего приступим к его оцифровке», — уточнил Илья Мирин.

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

«Для развития алгоритмов искусственного интеллекта обучающие данные не менее важны, чем алгоритмы. Появление в прошлом десятилетии открытого корпуса из 14 миллионов изображений ImageNet оказало потрясающее влияние на развитие компьютерного зрения — исследователи и разработчики смогли создавать новые методы анализа данных и применять компьютерное зрение в реальных задачах. Вместе с ДВФУ мы сможем собрать «голосовой ImageNet», который продвинет исследования в области распознавания и синтеза речи в России и мире. Кроме того, мы постараемся собрать не только русские речевые корпуса, но и корпуса для языков малых народов России», — рассказал генеральный директор «Нейросетей Ашманова» Станислав Ашманов.

В 2019-20 учебном году основным исследовательским направлением на магистерской образовательной программе «Искусственный интеллект и большие данные», открытой в ШЦЭ ДВФУ при поддержке Корпоративного университета «Сбербанка» и «Нейросетей Ашманова», станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как иностранному, азиатским языкам, а также журналисты и инженеры-программисты.

«На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные — практически вымерли. Сегодня мы говорим о новой письменности — формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины — от микроволновок и принтеров до автомобилей и промышленных роботов, — скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети. Эту важную цивилизационную задачу мы будем решать попутно с разработкой прикладных продуктов на основе искусственного интеллекта», — резюмировал Илья Мирин.

Напомним, первая в России Школа цифровой экономики открылась в 2018 году в ДВФУ. Она включает пять магистерских программ: «Искусственный интеллект и большие данные», «Технологии виртуальной и дополненной реальностей VR/AR», «Кибербезопасность», «Управление развитием территорий на основе технологий и данных дистанционного зондирования Земли», «Цифровое искусство».

Пресс-служба ДВФУ,
press@dvfu.ru