Научатся ли компьютеры понимать речь?

Сегодня мобильные телефоны используют голосовой набор, различают фонемы и преобразуют устную речь в печатный текст. Текстовые редакторы подчеркивают орфографические и пунктуационные ошибки. Но смогут ли бездушные машины понять смысл сказанного, как человек?

Этот вопрос имеет отношение к компьютерной лингвистике. На филологическом факультете Гомельского университета имени Франциска Скорины данный предмет изучают в рамках специальности «Русская филология» с 2005 года.

-- Многие современные научные направления появились в результате интеграции нескольких «пересекающихся» дисциплин, - отмечает доктор филологических наук, профессор и заведующий кафедрой русского, общего и славянского языкознания Владимир Коваль. – Психолингвистика, этнолингвистика, когнитивная лингвистика – все эти новые отрасли научных знаний являются междисциплинарными, и компьютерная лингвистика – не исключение. В семидесятые годы прошлого века ученые решили исследовать языковой материал с помощью методов, обычных для естественных наук. Простейший пример: применяя программу, которая подсчитывает частотность употребления слов, можно узнать, какое слово является самым частым в лексиконе того или иного автора. Роман «Идиот» Достоевского насчитывает 629 повторений слова «вдруг». Представьте, как тяжело было бы лингвисту выяснить это «вручную», без помощи программы! Зачем это нужно? Не в последнюю очередь и для того, чтобы понять творческий почерк, манеру письма мастера. Например, авторство романа «Тихий Дон» было установлено с помощью специальной компьютерной программы. Ведь умение создавать художественные тексты очень индивидуально, оно подобно отпечатку пальца. После «прочтения» текста романа программа выделила авторские особенности и соотнесла полученный алгоритм с другими, общепризнанными произведениями Шолохова. Подобная технология широко используется в ходе проведения судебных экспертиз. Допустим, некто написал записку с угрозами, что привело к трагическому случаю, и экспертам нужно найти автора. Лингвист может многое рассказать об авторе записки (если текст, конечно, достаточен): социальный статус, образование, возраст, пол и многое другое. Так что в настоящее время компьютерная лингвистика – одно из самых бурно развивающихся направлений филологии.

Профессор ГГУ им. Ф. Скорины Владимир Иванович Коваль

-- Какое будущее ждет ваших студентов после окончания вуза? -- Для большинства пользователей компьютер – это не более чем игрушка или эффективное средство общения. Мы же учим студентов использовать его как инструмент для обработки текстов и исследования языкового материала. В рамках этой специализации студентов обучают также редактированию, основам веб-дизайна и компьютерной графики. Одно из направлений деятельности компьютерной лингвистики – разработка онлайн-словарей. Все сталкивались с нелепыми результатами в электронных переводчиках. Одно и то же слово в разных контекстах может иметь различный смысл. Человек использует слова, как ему заблагорассудится, и, чтобы понять его правильно, нужно быть таким же творцом речи. А компьютер пока что не способен порождать речь. -- Как ученый, вы можете согласиться с тем, что когда-нибудь компьютеры научатся понимать смысл сказанного? -- Это неизбежно! Многие специалисты размышляют над проблемой искусственного интеллекта (ИИ). В нашей стране – это профессор Минского лингвистического университета Александр Васильевич Зубов, автор книги, которая так и называется: «Искусственный интеллект». Технологии не стоят на месте: уже сегодня компьютеры выигрывают в шахматы у выдающихся гроссмейстеров. Компьютер способен просчитать наперед огромное количество ходов. Перед нами, однако, встает этический вопрос: возьмет ли машина верх над интеллектом человека? Как только ИИ поймет особенности нашей психики, нащупает слабые места, он сможет легко обмануть нас и даже подчинить себе. В чьих руках окажется такая мощь, тот и будет хозяином положения. Хочется верить, ИИ разработают порядочные люди, которые используют свое открытие во благо. Полезное применение компьютерному «железу» нашли разработчики компании ABBYY. О революционной технологии рассказала праправнучка Льва Толстого, телеведущая Фекла Толстая во время мастер-класса для студентов ГГУ им. Ф. Скорины.

Праправнучка Льва Толстого, телеведущая и режиссер Фекла Толстая

-- Компания ABBYY создает программу Compreno, предназначенную для синтаксического и семантического анализа текстов, - сообщила Фекла Никитична. – Compreno – это технология, которая, будет понимать текст. Что это значит в практическом плане? К примеру, крупный мобильный оператор запускает рекламную акцию, по результатам которой пиар-отдел будет заниматься мониторингом общественного мнения и готовить краткий отчет для начальства. Программа Compreno сможет заменить целый отдел: отыщет в интернете отзывы, касающиеся рекламной кампании, прочтет их, выделит нужные интонации и представит краткий реферат с результатами. Я предложила им проверить новую технологию на книгах Льва Толстого. Первая же глава, пропущенная через Compreno, содержала 17 распознанных компьютером интонаций. Компьютер увидел всех персонажей и их круг общения, выделил прямую и косвенную речь, распознал все факты и связи. В итоге мы можем спросить, как одевались персонажи «Войны и мира», какие есть в романе блюда, сословия, национальности. К слову, в Стэндфордском университете запущен проект «Республика писем». На основе переписки деятелей эпохи Просвещения была составлена виртуальная карта. Читая письма великих умов того времени, можно проследить, как зарождались их идеи. Нечто подобное осуществляется и в России.

-- По сути, это социальная сеть прошлого, и она неизбежно станет глобальной, - поясняет Фекла Толстая. - Уже сейчас базы данных, связанные с гуманитарными знаниями, маркируются по общепринятому стандарту TEI (Text Encoding Initiative). Только представьте: переводя любой классический текст в цифровой вид, вы ставите маркеры на заголовках, персонажах, реальных исторических деятелях, фигурантах переписки, географических названиях, одежде и даже еде… Сохранилось меню Льва Толстого на каждый день: можно узнать, что он ел в день, когда умер его младший сын, или в день, когда его отлучили от церкви. Образуется огромная база, которая позволит быстро узнать все обо всем в нужной вам последовательности.

Значит ли все это, что компьютеры уже понимают печатный текст? Не совсем, ведь программа Compreno находится на стадии разработки, а информационная база, пусть даже семантически маркированная, по сути, остается грудой книг с миллионами закладок.

На сайте www.abbyy.ru генеральный директор ABBYY Сергей Андреев поясняет, что центральным ядром технологии Compreno служит универсальная иерархия понятий и модель отношения между ними. Программисты научили компьютер находить в тексте семантические связи, а не просто выполнять сухой перевод, как в недоработанных онлайн-словарях. Технология Compreno ориентирована в первую очередь на бизнес, но ее революционность поражает.

До создания искусственного интеллекта еще далеко, однако человечество еще никогда не было так близко к этой цели. После столь увлекательного рассказа я в шутку спросил Феклу Толстую, не боится ли она трагической развязки из голливудского боевика «Терминатор», ибо, по большому счету, она участвует в создании искусственного интеллекта. Сюжет уже сейчас предполагает появление наших правнуков из будущего, спешащих остановить развитие робототехники. В ответ Фекла по-доброму рассмеялась. Кажется, будущее в хороших руках.

Фото автора

Научатся ли компьютеры понимать речь?

Статьи по теме: