Новая версия компьютерной морфологии русского языка RCO Morphology 2.0

морфологический анализ - RCO Morphology

Компания "Гарант-Парк-Интернет" объявляет о выходе новой версии программного продукта RCO Morphology 2.0, который предназначен для полного морфологического анализа слов русского языка. Значительной переработке подверглись словари и алгоритмы бессловарного анализа. Ключевой особенностью новой версии является высокое качество анализа таких категорий слов, как фамилии, наименования организаций, географические названия и другие, число которых в языке потенциально неисчислимо. Продукт поставляется в виде динамической библиотеки (dll) для Windows и предназначен для разработчиков информационно-поисковых и аналитических систем, требующих высокоточной обработки текста.

Компьютерная морфология необходима в прикладных системах, ведущих поиск и анализ информации на естественном языке. К числу основных функций, обеспечиваемых модулем морфологического анализа, относятся получение всех словоформ слова, постановка слова в заданную форму (например, словарную) и получение грамматических характеристик словоформы (рода, числа, падежа и других). Большая часть слов текста представляет почти неизменный фундамент языка и охватывается словарем объемом около 100 тысяч слов. Другая, более редкая, но не менее важная составляющая лексикона, постоянно пополняется и в принципе не имеет четко очерченных границ, прежде всего в части имен собственных и словообразовательных вариантов известных слов. Тем не менее, общие правила словообразования и словоизменения обладают регулярностью и изменяются относительно медленно, что позволяет в большинстве случаев достаточно точно идентифицировать не только модель словоизменения, но и лексико-семантический разряд неизвестного слова.

Модуль RCO Morphology 2.0 предоставляет три возможности: точный анализ известного слова по словарю объемом в 115 тысяч слов (более 3-х миллионов словоформ), высоко достоверный анализ неизвестного слова на основе комплекса правил, вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов.

Особенности новой версии продукта RCO Morphology 2.0 прокомментировал ведущий разработчик направления RCO, кандидат технических наук Александр Ермаков:

“Мы много лет развиваем анализатор русского языка, постоянно пополняя и уточняя морфологический словарь. Возможность вероятностного морфологического анализа неизвестных слов по аналогии с известными была реализована нами уже давно. Однако задачи тонкого семантического анализа текста, к решению которых мы подошли сегодня, сформировали повышенные требования к качеству компьютерной морфологии, которые превысили стандартную планку, де-факто признанную нормой для рядовых информационно-поисковых систем. Решение задач фактографического поиска, в которых ключевыми объектами являются неизвестные физические и юридические лица, а выявление отношений требует точного синтаксического анализа, потребовало от нас дополнительных усилий. Это привело, во-первых, к введению новых правил словообразования и словоизменения, позволяющих с высокой достоверностью анализировать несколько классов неизвестной лексики, а во-вторых к существенной переработке самого словаря словоизменения, прежде всего в глагольной части.

Дело в том, что грамматический словарь Зализняка семидесятых годов прообраз любой сегодняшней компьютерной морфологии не содержал точной информация о возвратных формах глаголов, вследствие чего во многие (если не во все) морфологические анализаторы вкрались систематические ошибки. Они приводят к отождествлению как совершенно различных слов, например “торговать” и “торговаться”, так и семантически близких, однако имеющих различные модели управления, например “целовать” и “целоваться”. Массово присутствуют и более сложные случаи, когда возвратные формы имеют как самостоятельное значение, так и выступают в значении пассива прямой формы (“исполняется”). При использовании в поисковых системах эти ошибки не очень заметны, так как основу запроса обычно составляют существительные, однако при семантическом анализе текста именно глаголы задают тот смысловой скелет, на котором выращивается все содержание. Нашими лингвистами была проведена систематизация значений возвратных глагольных форм и соответствующая корректировка словаря, а также много других изменений.

Теперь модуль RCO Morphology соответствует самым высоким требованиям и представляет прекрасный инструмент для обработки любого русскоязычного текста.

Тем не менее, при построении прикладных систем не следует забывать, что даже наличие сколь угодно “умного” морфологического анализатора не всегда позволяет точно идентифицировать отдельное слово из-за присутствия в тексте омонимии. Для этого зачастую необходим учет контекста, как в рамках предложения, так и всего текста в целом: учет формальных особенностей написания, синтаксической организации фразы, кореферентных имен и правил их введения в текст. Отдельную проблему представляет выделение многословных единиц, таких как полные наименования организаций, которые должны обрабатываться как единое целое. Для решения этих задач предназначен модуль предобработки текста RCO Pattern Extractor, использующий возможности RCO Morphology. Гибкие настройки новой морфологии позволяют эффективно использовать ее в составе предобработчика текста, порождая множество правдоподобных гипотез о словах при возможности омонимии, часть из которых подтверждается, а часть отвергается на верхних уровнях анализа. Управляемость это третье достоинство нашей морфологии.

Опыт построения морфологического анализатора и его применения к анализу текста мы планируем осветить в ближайших публикациях на эту тему”.

На сайте http://www.rco.ru можно получить подробную информацию о модулях RCO Morphology и RCO Pattern Extractor, а также о прочих разработках компании в рамках направления RCO.

ИНФОРМАЦИЯ О КОМПАНИИ «ГАРАНТ-ПАРК-ИНТЕРНЕТ»

С момента образования в 1995 году компания является одним из лидеров на рынке предоставления профессиональных интернет-услуг.

Одним из направлений в компании является разработка средств полнотекстового поиска и анализа неструктурированной информации RCO. Под этой маркой представлена линейка продуктов для поиска и анализа текстов для Oracle и Microsoft, а также поисковая машина, созданная в научно-исследовательской лаборатории RCO Research Group.

Контакт:

Печников Александр,

руководитель департамента маркетинга и PR компании «Гарант-Парк-Интернет»

тел.: +7 (095) 930-8958, 930-8959, факс: +7 (095) 930-8814

e-mail: marketing@metric.ru

URL: http://www.metric.ru/, http://www.parking.ru/, http://www.optimizer.ru/, http://www.rco.ru/

metric, marketing@metric.ru
опубликовано 10 сентября 2003 года

Смотрите также:

// VMware представляет свой взгляд на развитие IT в ближайшие десять лет  (опубликовано 2010-09-02)
// Первый месяц работы портала OfficeMart все необходимое для офиса.  (опубликовано 2006-03-15)
// Новая версия портала CMSList.Ru  (опубликовано 2006-03-08)
// TAdviser - первый портал для выбора технологий и ИТ-поставщиков  (опубликовано 2006-02-24)
// «АНД Проджект» завершила внедрение Microsoft Axapta  (опубликовано 2006-02-24)