Онтология как модель представления знаний. Компьютер и мыслительные задачи

Вопрос про сервисы-процессы и задачи, а также сервисы-сущности (Are Services Nouns or Verbs, http://www.zapthink.com/report.html?id=ZAPFLASH-20091014) мне напомнил про необходимость онтологического уровня рассуждений, о котором говорил Chris Partrige в своей презентации июля 2007г. "Data and process revisited: ontology driving a paradigm shift in the development of business application systems" (http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2007_07_05), но навело на другие мысли, которые я опишу тут пока несколько сумбурно.

И SOA и онтологическая интеграция данных фактически про одно и то же: как наладить взаимодействие между кучей самых разных "приложений", которые в существенной мере дублируют друг друга, а также вынуждены взаимодействовать друг с другом, хотя были разработаны исходя из самых разных организационных (не хочется писать тут "бизнес", потому как к собственно бизнесу это не имеет отношения) потребностей.

SOA развивается как дисциплина, обеспечивающая гибкость "корпоративных" информационных систем. Подход интеграции данных в САПР на базе онтологических схем -- все то же самое.

В итоге все сводится к появлению универсального моделера, который моделирует окружающий мир в необходимой для менеджеров-финансистов или инженеров полноте и укладывает его в базу данных (практика "абстракция слоя данных" -- и в САПР, и в SOA). Для того, чтобы потом получилась возможность как-то с этими данными работать, добавляется "семантика", сводящаяся к утыкиванию каждого элементарного данного в какое-то место довольно большой схемы данных и обеспечению сервисов, выполняющих над этой сложной структурой какие-то операции.

Эти схемы огромны. В ISO 15926 изначально было порядка 50тыс. сущностей. В Gellish около того. В Dassault Systemes V6 универсальный моделер MatrixOne (на котором базируются все остальные модули V6, и который связывает все эти модули между собой и предоставляет им общую для всех базу данных) предоставляет возможность сделать SOA-архитектуру (чем гордятся) с 20тыс. классов "из коробки". Поясню: вы можете программировать, но вы должны понимать, что в вашем языке программирования есть 20 тыс. зарезервированных слов, каждое из которых что-то значит. Сравните это с изучением иностранного языка плюс вспомните, что компьютер не простит двусмысленностей и неточностей -- и вы получите представление о сложности сегодняшнего программирования. Никакая computer science пока тут рядом не стояла, пока это все вотчина software engineering.

Мне кажется, что application agnostic zone из презентации Chris Partrige уже есть. Вы еще не начали программировать свое "приложение", а вам уже дадено 20тыс. понятий. Вовсе не факт, что все эти понятия из системной архитектуры, а не предметной архитектуры. Вовсе не факт, что эти 20тыс. понятий все относятся к описанию самой V6 и ее модулей. Нет, в современных САПР вы обязательно найдете upper ontology во всей ее красе, вы найдете "полную схему мира", хотя и краткую по необходимости. В каждом современном САПР есть свой CYC, только он маленький и сводится к common sense только для инжиниринга -- там нет сведений о литературе и искусстве, медицине и политике.

Перепроверимся: любое корпоративное программирование сейчас сводится к освоению каких-нибудь фреймворков с десятком тысяч классов. Конечно, в каждой конкретной задаче (как и в естественном языке) вам потребуется знать всего десяток этих классов. Но если вы не хотите все время переписывать то, что уже написано давным-давно, или вам нужно, чтобы ваши действия в системе были корректны, вам придется со всем этим хозяйством познакомиться.

Еще раз перепроверимся: ISO 15926 "из коробки" на верхнем уровне включает порядка 50тыс. классов. Предполагается, что вы работаете именно с ними, и там все основное и необходимое есть. Не предполагается, что вы заново создаете все понятия по мере того, как в них возникает потребность.

Есть и другое измерение этой проблемы: софт состоит сейчас из независимых кусков (можем назвать их сервисами -- даже не связывая это с SOA. Кто-то что-то где-то для нас делает, это сервис. Это совсем необязательно "объект, выполняющий метод", ОО-подход лишь один из способов об этом думать). Программирование сегодня -- это по сути связывание таких независимых кусков-сервисов для того, чтобы создать набор сервисов более высокого уровня (даже не "приложение", как об этом регулярно напоминает Алан Кей -- см., например, тред ).

Тем не менее, забудь о рефакторинге, всяк сюда входящий: внутрь кирпичей не смотрят, это и достоинство и проблема. Я думаю, если внимательно проработать 20тыс. классов MatrixOne, а также поглядеть на все дублирующие друг друга части модулей V6 и "отрефакторить" по-человечески, то можно было бы получить систему другого класса как по масштабируемости, так и по легкости освоения и сопровождения.

Итак, современное программирование -- это работа по написанию "сервисов" над огромными плохо отрефакторенными онтологиями. Уже нет "данных", есть онтологии, но работа с онтологиями по существу отстает от работы с агентской ("выполнителями", "процессорами", "модулями", сервисами, объектами-с-методами и т.д.) частью. Рост же компьютерной мощности дает возможность плюнуть на эту онтологическую грязь, "онтологический долг" (ср. technical debt из agile).

Текущее обсуждение "программирования-в-большом" (programming-in-large, http://en.wikipedia.org/wiki/Programming_in_the_large_and_programming_in_the_small) эти проблемы игнорирует, опять таки сосредотачиваясь на "языках программирования-в-большом" и тем самым сводя все изменение парадигмы к повторению истории "программирования-в-малом" для асинхронных распределенных сервисов. Мне же кажется, что акцент тут нужно делать не на том, что есть множество асинхронных распределенных сервисов, а в том, что это (включая тот факт, что сервисы эти пишутся разными людьми и отражают структуру разных предметных областей) приводит к появлению огромных слабо контролируемых онтологий и тем самым к появленю нового сорта архитектур -- "универсальных моделирующих комплексов", которые сейчас стремительно развиваются под маркой SOA.

Тем самым я рассматриваю SOA просто как способ:
-- указать на то, что подлежащие модели являются не айтишными моделями, а задающимися спецификой деятельности организации. После этого появляется эпистемологическая проблема расхождения модели и реальности, и кроме инженерной части работы возникает мыслительная часть ("полагание" онтологии) и исследовательская часть по выявлению поведения этой онтологии в реальности. Именно отсюда и родился так похожий на agile manifesto манифест SOA.
-- дать хоть какой-то набор практик жизненного цикла (software process) для программирования-в-большом. Ведь на сегодня программная инженерия говорит что-то осмысленное только про программирование-в-малом. А программирование-в-большом (которое, замечу, скрывается и внутри программирования на C++ и Java, а не только BPEL) осталось без специфичных для него практик. Вот SOA и заполняет эту брешь, уж как может.

Сама проблема "программирования в большом" для меня очень близка к тематике проектирования-конструирования. Проектирование -- это для меня полный аналог "программирования-в-большом". Ты должен собрать из (в пределе, например для ядерной подводной лодки, которую любит приводить в пример Dassault Systemes) 4 миллионов комплектующих (данных тебе в виде каталогов стандартных комплектующих главным образом, и лишь совсем чуть-чуть в виде конструируемых специально для твоего проекта особых деталей), и тем самым добиться того, чтобы эти результаты чужого труда каким-то образом заработали вместе, а вся результирующая композиция не развалилась, не взорвалась и служила долго.

Сейчас с проблемой моделирования-в-большом столкнулись модельеры, у которых встала та же самая задача modeling-in-the-large (подробнее см. megamodeling в https://gforge.inria.fr/plugins/scmsvn/viewcvs.php/*checkout*/Publications/2009/SLE-IfMDEisSol.pdf?rev=29&root=atlantic-zoos , но эти ребята из AMMA заявили об этой проблеме на конференциях MDAFA 2003/2004, и опубликовались в 2005г. http://www.springerlink.com/content/dqj98uwqp2gbu3cx/?p=c10f5251afa74af6b134631cf4dae7a1&pi=2 . У них там еще пять лет назад говорилось то, что я твержу сейчас -- "There is probably not going to be a unique monolithic modeling language (like UML 2.0) but instead an important number of small domain specific languages (DSLs) and this will only be possible if these small DSLs are well coordinated. To avoid the risk of fragmentation, we need to offer a global vision, wich can be provided by the activity of modeling in large").

Тем самым, мы наблюдаем много-много разных способов сделать language workbenches: SOA (как это ни странно), собственно language workbenches, работы типа ведущихся в группе AMMA, современные САПР с "универсальной датацентрикой" и кучерявой схемой/моделью данных/онтологией.

Это магистраль, "в большом". Это и есть текущий мейнстрим. Онтологии тут -- enabling technology.

Введение

В последнее время использование онтологий для моделирования предметных областей автоматизированных информационных систем получает все более широкое распространение . Наиболее часто такой подход применяется для интеллектуальных систем , в частности, предназначенных для функционирования в сети Интернет. Это связано с тем, что онтологическая модель позволяет разработать модель метаданных, что значительно улучшает использование системы широким кругом пользователей с точки зрения организации взаимодействия.

Онтология - это структура, описывающая значения элементов некоторой системы, попытка структурировать окружающий мир, описать какую-то конкретную предметную область в виде понятий и правил, утверждений об этих понятиях, с помощью которых можно формировать отношения, классы, функции и пр. Онтологии предметных областей ограничиваются описанием мира в рамках конкретной предметной области.

Задача построения онтологической модели предметной области информационной системы для поддержки коммерциализации результатов инновационных разработок в научных исследованиях является актуальной и сложной научно-практической задачей. Сложность поставленной задачи определяется, в частности, наличием множества межпредметных и междисциплинарных связей и различными целями конечных пользователей системы: ученых, экспертов, бизнесменов, политиков, сотрудников общественных и коммерческих организаций.

Целью настоящей работы является разработка и создание онтологической модели предметной области информационной системы для поддержки коммерциализации результатов научных исследований.

Краткий обзор стандарта CERIF 2008

Во всех странах мира проводится множество различных научных исследований, причем схема проведения научных исследований в разных странах похожа. Как правило, сначала осуществляется стратегическое планирование, потом объявляется программа исследований, проходит поиск предложений, подходящие предложения принимаются к работе, результаты исследований отслеживаются, анализируются и впоследствии используются в тех или иных целях.

Исследования в одной и той же области знаний могут производиться одновременно в нескольких научных организациях, в том числе и в одной стране. Кроме того, в век глобализации исследовательские организации одной страны могут опираться в своей работе на результаты, полученные в других странах. Поэтому важно обеспечить обмен полной и достоверной информацией, наборами данных между различными странами и фондами на всех этапах проведения исследований, начиная с этапа подачи заявки и заканчивая этапом публикации рецензии на инновационную разработку. Проблема стандартизации данных научных исследований возникла ещё в 80-е годы прошлого века, и в качестве решения этой проблемы сначала появлялись варианты обобщения схем баз данных для хранения результатов научных исследований, на основе которых позднее возник стандарт CERIF (Common European Research Information Format - общий европейский формат для исследовательской информации) .

Моделированием предметной области научных исследований на основе этого стандарта в последние 14 лет в Евросоюзе активно занимается организация euroCRIS. Основные свойства этого стандарта:
1) стандарт поддерживает концепцию объектов или сущностей с атрибутами: например, таких как проект, человек, организация;
2) стандарт поддерживает n:m отношения между объектами, используя «связывающие отношения», и таким образом обеспечивает богатую семантику, включающую роли и временные характеристики;
3) стандарт полностью интернационален с точки зрения языкового или знакового набора;
4) стандарт расширяем без повреждения основной модели данных, что предоставляет возможность оперирования на основном уровне, не препятствуя ещё более широкому взаимодействию.

Основные объекты в стандарте CERIF - это Person, OrganisationUnit и Project (Человек, Организация и Проект), каждый из которых рекурсивно связан сам с собой и поддерживает отношения с другими объектами. Стандарт описывает множество дополнительных объектов, с помощью которых полностью описываются исследовательские проекты, их участники, результаты их совместной работы и пр. Семантика данных задается на специальном семантическом уровне, в таблицах, описывающих возможные роли и взаимодействия между отдельными объектами.

Взаимоотношения между проектом, человеком, организацией показываются в стандарте CERIF при помощи специальных связей, и их считают одной из сильных сторон модели CERIF. Связь всегда соединяет два объекта. Все связи строятся по одинаковой схеме: они наследуют названия и идентификаторы от объектов-родителей и дополнительно обладают атрибутами даты начала и конца действия связи, в каждой связи отражается семантика через ссылку на семантический слой CERIF посредством специальных идентификаторов. Таким образом, все возможные взаимоотношения между проектами, людьми и организациями задаются с помощью этих связей, а характер взаимоотношений подчиненности (кто чей автор, кто чей подданный, что часть чего и т.д.) показывается благодаря семантическому слою, в котором все эти роли расписаны.

Для отображения результатов научной деятельности в стандарте CERIF предусмотрены специальные объекты: ResultPublication, ResultPatent, ResultProduct (Публикация, Патент, Продукт). Помимо основных и результирующих объектов в CERIF также используется множество так называемых объектов второго уровня, таких как: FundProg - программа финансирования, Event - событие, Prize - вознаграждение, Facil - средства обслуживания, Equip - оборудование и т.д. Объекты второго уровня позволяют представить контекст исследования посредством связей с основными и результирующими объектами.

Модель CERIF поддерживает возможность многоязычности для имен, названий, описаний, ключевых слов, обобщений и даже для семантики. Используемый язык хранится в атрибуте LangCode с максимум пятизначными значениями (например, en, de, fr, si, en-uk, en-us, fr-fr, fr-be, fr-nl). Атрибут Trans предоставляет информацию о типе перевода: o=original (язык оригинала), h=human (перевод человеком), или m=machine (машинный перевод). Помимо основных, результирующих и объектов второго уровня многоязычность поддерживают также и классификаторы на семантическом уровне CERIF. Таким образом, становится возможным поддерживать классификационные схемы на различных языках.

Стандарт CERIF рекомендован к использованию в системах CRIS (Current Research Information Systems - информационные системы по актуальным научным исследованиям) , которые собирают воедино всю информацию, лежащую в основе научных исследований. Использование подобных систем значительно облегчает взаимодействие инвесторов и исследователей. Исследовательские группы получают лёгкий доступ к информации, необходимой для разработки инновационных идей, руководители и управляющий персонал получают возможность проще отслеживать и оценивать текущую исследовательскую деятельность, инвесторы и исследовательские советы могут оптимизировать процесс финансирования инновационных проектов.

Реальный пример использования стандарта - это портал IST World, построенный на основе стандарта CERIF. Он предоставляет информацию об экспертах, исследовательских группах, центрах и компаниях, задействованных в создании технологий для растущего информационного сообщества. Главный акцент сервиса - экспертиза и опыт основных участников процесса в европейских странах. Репозиторий содержит информацию по проектам пятой, шестой и седьмой рамочных программ Европейской Комиссии, а также информацию, связанную с этими научно-исследовательскими проектами, собранную в Болгарии, Кипре, Чехии, Эстонии, Венгрии, Латвии, Литве, Мальте, Польше, Румынии, России, Сербии, Словении, Словакии и Турции.

В России единой системы по текущим научным исследованиям не существует. Все попытки создания таких систем проходят разобщено в рамках различных программ и проектов. В Черноголовке в рамках Российской академии наук по гранту HAAB реализуется проект, целью которого является создание и разработка информационной системы для поддержки коммерциализации результатов интеллектуальной деятельности для предоставления заинтересованным юридическим и физическим лицам данных об инновационных разработках институтов РАН с возможной их последующей коммерциализацией. В этой системе под инновационными разработками понимаются информационные образы объектов интеллектуальной собственности, технических решений, а также технологические запросы, идеи и иные нематериальные активы, полученные в результате научно-технической деятельности.

Анализируя стандарт CERIF, обнаруживаем, что он не охватывает предметные области, связанные с работой экспертов и подготовкой инновационной разработки к процессу коммерциализации. Поэтому авторами было предложено расширение модели, предлагаемой этим стандартом на указанные выше предметные области.

Инновационный процесс со структурной точки зрения представляет собой комплекс последовательно взаимосвязанных действий по созданию, освоению и распространению инновации. Инновационный процесс предполагает эволюционное изменение состояния инновационного продукта, его превращение из идеи в товар, а также мониторинг его дальнейшей рыночной судьбы.

Модель предметной области для поддержки инновационных разработок

Предметная область информационной системы для поддержки коммерциализации результатов научных исследований является суммой объединения совокупности нескольких предметных областей, а именно предметной области научных исследований, предметной области по возможным областям внедрения и предметной области экспертов по коммерциализации инновационных разработок. При этом последнее слагаемое должно помогать решать следующую задачу: динамически формировать пути взаимодействия в отношении «многие-ко-многим» между первыми двумя слагаемыми.

Онтология области научно-исследовательской деятельности представляет собой структуру системы, отображающей процесс научной деятельности. Научные исследования возможны только при наличии полной и достоверной информации и наборов данных: начиная с этапа подачи заявки и заканчивая этапом публикации рецензии на разработку. Информационные системы по текущим исследованиям должны собирать воедино всю информацию, лежащую в основе научных исследований. Подобные системы могут использоваться широким кругом лиц: от исследователей до инвесторов. Научно-исследовательские организации могут размещать через интернет информацию о своих инновационных разработках и выполнять поиск предложений потенциальных инвесторов и заказчиков, потенциальные инвесторы и заказчики могут размещать заказы на выполнение НИОКР и предложения об инвестициях в сфере высоких технологий и выполнять поиск инновационных разработок.

В предметной области по научным исследованиям можно выделить следующие основные классы (Рис.1):

Рисунок 1. Основные классы предметной области по научным исследованиям

Проект содержит информацию о проектах, исследованиях, результатом которых будут инновационные разработки в том или ином виде, а также об их сроках. Проекты могут быть связаны с другими проектами, связаны с людьми, организациями, патентами, публикациями, продуктами и др. объектами системы.

Организация содержит информацию об организациях, имеющих отношение к проектам. Содержит описание организации: валюту расчётов, численность сотрудников, оборот и т.д. Организации также могут быть взаимосвязаны и связаны с другими объектами системы.

Человек содержит информацию о людях, задействованных в научных проектах. Люди также могут быть взаимосвязаны и связаны с другими объектами.

Дополнительный объект Имена содержит информацию о различных вариантах написания имени одного человека, в том числе и на разных языках.

Публикация содержит информацию о результатах исследований в виде публикаций. Содержит выходные данные о публикации: о дате выхода, издании, серии, страницах, ISBN, ISSN, краткое содержание, комментарии и пр. Публикации могут быть взаимосвязаны и связаны с другими результатами исследований, а также с другими объектами системы: проектом, организациями, людьми и т.д.

Патент содержит информацию о патентах, выданных на результаты исследований. Содержит сведения о стране выдачи патента, дате регистрации и краткое содержание. Патенты могут быть связаны с публикациями, проектами, организациями и людьми.

Продукт содержит информацию о продуктах, полученных в результате исследований, т.е. об инновационных разработках, а также описание продукта. Продукты могут быть связаны с публикациями, проектами, людьми, организациями.

Дополнительные объекты, предусмотренные стандартом CERIF, также оказываются задействованными в подсистеме: Язык служит для отображения информации о языке представления данных в системе, Адрес - для отображения информации о физических адресах людей и организаций, ЭлектронныйАдрес - для отображения информации об электронных адресах людей и организаций, Страна - для отображения информации о странах, Валюта - для информации о валютах, ПрограммаФинансирования - для информации о программе, в рамках которой выполняется проект, и т.д.

При помощи объектов семантического уровня Класс и КлассификационнаяСхема характеризуются типы отношений, формы заявлений, классификация субъектов. Например, для обозначения типов публикаций или видов продуктов и т.д.

В предметной области возможных областей внедрения можно выделить следующие классы (Рис.2):
Организация содержит информацию об организациях, заинтересованных в инвестировании в инновационные разработки, в проведении НИОКР. Содержит описание организации: валюту расчётов, численность сотрудников, оборот и т.д.

Человек содержит информацию о людях, занятых в организациях, или об индивидуальных потенциальных инвесторах. Люди могут быть взаимосвязаны и связаны с другими объектами. Для данной предметной области также применим объект Имена, который содержит информацию о различных вариантах написания имени одного человека. Предложение содержит информацию о предложениях от потенциальных инвесторов на проведение НИОКР, на инвестиции, на разработку определённой темы. Содержит описания предложений, а так же информацию об их сроках. Предложения могут быть взаимосвязаны, а так же связаны с людьми, организациями и др. объектами системы. Патент содержит информацию о патентах на разработки, в которые организация хочет инвестировать. Продукт содержит информацию об интересных инвесторам продуктах.

По аналогии с предметной областью научных исследований в предметной области возможных областей внедрения можно выделить дополнительные объекты: Язык, Адрес, ЭлектронныйАдрес, Страна, Валюта и др. Для характеристики типов отношений между объектов и для классификации самих объектов также можно использовать объекты семантического уровня Класс и КлассификационнаяСхема.

Рисунок 3. Основные классы предметной области экспертов.

В предметной области по экспертной оценке возможности коммерциализации инновационных разработок можно выделить следующие классы (Рис.3):

Человек содержит информацию об экспертах, проводящих оценку и анализ инновационных разработок и выносящих решение о возможности их коммерциализации. Тот же дополнительный объект Имена содержит информацию о различных вариантах написания имени одного человека.

Организация содержит информацию об организациях, в которых заняты эксперты. Продукт содержит информацию о научно-технических разработках, оценкой которых занимаются эксперты. Отдельно можно выделить объект Оценка для хранения заключений экспертов о возможности коммерциализации разработок.

По аналогии с предметными областями научных исследований и возможных областей внедрения в предметной области экспертов можно выделить дополнительные объекты: Язык, Адрес, ЭлектронныйАдрес, Страна, Валюта и др.

Общая структура, объединяющая все три подсистемы, в полной мере отражает процесс проведения научных исследований и оценки возможности их коммерциализации (Рис.4).

Рисунок 4. Предметная область информационной системы для поддержки коммерциализации результатов научных исследований

Основные принципы построения информационной системы и ее пользователи

В информационной системе для поддержки коммерциализации результатов научных исследований РАН можно выделить три подсистемы: подсистема научных исследований, проводимых в институтах РАН (подсистема институтов), подсистема возможных областей внедрения (подсистема потенциальных инвесторов) и подсистема экспертной оценки возможности коммерциализации инновационных разработок (подсистема экспертов). Соответственно, в каждой подсистеме можно выделить три группы пользователей - группа владельцев интеллектуальной собственности (исследователей), группа экспертов и группа инвесторов.

В информационной системе каждый пользователь - владелец объекта интеллектуальной собственности (исследователь) - независимо от степени завершенности своей разработки (патент, решение, идея и т. п.) может представить информацию об ОИС, о своих научно-технических разработках в виде совокупного информационного образа инновационной разработки, в которую могут быть включены резюме, технологическое предложение, информация о владельце и пр. Кроме того, он может добавить сведения о патентной защищенности своих разработок, а также разместить дополнительную информацию о них. Потенциальные инвесторы, заказчики НИОКР или их представители могут разместить в системе свои предложения об инвестициях, информацию о своих потребностях (интересах) и заказы на проведение НИОКР, на экспертную оценку инновационной разработки, проводить поиск инновационных разработок, ознакомиться с уже имеющимися экспертными оценками разработок. В системе может быть предусмотрена отдельная виртуальная площадка для экспертов, которые могут разрабатывать опросный лист (оформить технологический аудит), проводить анализ бизнес-идей и оценивать инвестиционную привлекательность инновационных разработок. Каждый пользователь информационной системы в зависимости от своих интересов имеет возможность проводить поиск информационных объектов и сопутствующей информации, их отбор, анализ, чтобы впоследствии принять решение о целесообразности дальнейших контактов.

Незарегистрированный в системе пользователь, используя возможности гостевого входа, может также принять заочное участие в работе информационной системы. Ознакомившись с открытыми к просмотру резюме инновационных разработок, предложениям инвесторов, оценками экспертов, он может решить, имеются ли в системе интересующие его разработки или предложения для исследований, понять, по каким критериям идет оценка инвестиционной привлекательности экспертами, а затем принять решение о регистрации и дальнейшей работе в информационной системе по поддержке коммерциализации научных исследований.

Заключение

Авторы считают, что в данной работе новыми являются следующие положения и результаты: онтологическая модель предметной области информационной системы поддержки жизненного цикла инновационных разработок институтов РАН.

Разработанная модель позволяет разработать программную архитектуру такой системы, разработать метаданные и построить совокупность взаимосвязанных тезаурусов для поддержки семантики запросов конечных пользователей.

Литература:
1. Лапшин В.А. Онтологии в компьютерных системах. - М.: Научный мир, 2010.- 222 с.
2. Gruber T.R. The role of common ontology in achieving sharable, reusable knowledge bases // Principles of Knowledge Representation and Reasoning. Proceedings of the Second International Conference. J.A. Allen, R. Fikes, E. Sandewell - eds. Morgan Kaufmann, 1991, P.601-602.
3. Константинова Н.С. Онтологии как системы хранения знаний [Электронный ресурс] / Н.С. Константинова, О.А. Митрофанова. - Режим доступа: http://www.sci-innov.ru/icatalog_new/index.php?action=send_att&entry_id=68352&fname=68352e2-st08_(Митрофанова О.А.).pdf
4. CERIF 2008 - 1.2 Full Data Model (FDM). Introduction and Specification [Электронный ресурс] - Режим доступа: http://www.eurocris.org/Uploads/Web%20pages/CERIF2008/Release_1.2/CERIF2008_1.2_FDM.pdf
5. Кулагин М.В., Лопатенко А.С. Научные информационные системы и электронные библиотеки. Потребность в интеграции // Сборник трудов Третьей Всероссийской конференции по электронным библиотекам. RCDL"2001 Петрозаводск, 11-13 сентября 2001 г., с. 14-19.

Эта страница представляет собой главу из нашего методического пособия
"Введение в онтологическое моделирование "
(нажмите для перехода к полной версии пособия в формате PDF).

Писателям-фантастам XX века казалось, что развитие вычислительных машин приведет к появлению интеллектуальных помощников человека, которые будут решать за него многие мыслительные задачи. Возможности сегодняшней техники превышают самые смелые прогнозы многих из этих авторов: компьютер умещается на ладони, всемирная сеть доступна практически везде. При этом для решения аналитических задач мы в большинстве случаев по-прежнему пользуемся в лучшем случае электронными таблицами вроде Excel. Это особенно заметно в бизнес-среде, где цена (не)правильно принятого решения имеет совершенно осязаемый эквивалент в виде многомиллиардных прибылей или убытков. Тем не менее, развитие информационной инфраструктуры бизнеса завязло на пути создания крупных «трехбуквенных систем» (ERP, CRM и т.д.), на которые тратятся огромные средства, но которые не способны дать организации-владельцу ничего особенно «интеллектуального». Современные системы «бизнес-аналитики» (BI) в основном заняты вычислением значений количественных показателей, часто имеющих весьма слабое отношение к описанию реальности, и манипулированию ими.

Отличным примером служит любимый бизнесом показатель EBITDA: он характеризует прибыль, и по этой причине часто используется, например, в качестве базы для начисления бонусов топ-менеджерам. Однако он не характеризует эффективность работы менеджера в том смысле, в каком ее интуитивно оценивает собственник: ведь путем уменьшения расходов можно увеличить значение EBITDA. Это всегда интересно менеджеру, но не всегда верно с точки зрения стратегического развития предприятия. А уж при расчете этого показателя по подразделениям компании возможности манипуляции открываются широчайшие. В большинство статей доходов и расходов вносят вклад сразу несколько подразделений, настройкой алгоритма расчета можно легко «награждать» фаворитов и «наказывать» неугодных. Разумеется, подобные маневры не имеют ничего общего с достижением реальной эффективности работы предприятия.

Еще рельефнее видны методологические проблемы при попытках решать оптимизационные задачи количественными методами. Типичный подход к этому вопросу состоит в формулировании «целевой функции», которая представляет собой описание какого-либо качественного состояния системы, представленного в виде числа – например, «обеспеченность населения такими-то услугами». Далее, также в количественной форме, задаются ограничения, варьируемые параметры, и после вычислений получается некий набор «оптимальных» решений. Однако их практическое воплощение часто приводит к результатам, противоположным поставленным целям, или имеет серьезные побочные последствия. Например, легко может оказаться, что «средняя температура по больнице» – обеспеченность услугами – достигла нужных значений, но определенным группам населения они стали вовсе недоступны. Или же качество этих услуг снизилось настолько, что они практически потеряли смысл для потребителей. Легко понять, что корень проблемы лежит в слишком серьезных модельных допущениях, которые были сделаны при формализации целевого параметра.

Указанные методические проблемы напрямую связаны с вычислительными возможностями – точнее, с ограниченностью той их части, которую освоило бизнес-сообщество. Ведь если более сложный и достоверный алгоритм расчета какого-либо показателя нельзя, по мнению бизнес-заказчика, реализовать в информационной системе – это обосновывает применение неверного, грубого, но технологически понятного способа расчета. Таким образом, в сущности, в сфере бизнеса человек пока по-настоящему доверил компьютеру только одну функцию – складывать и вычитать числа. Все остальное он по-прежнему делает сам, и делает, в большинстве случаев, не слишком качественно.

Разумеется, мы говорим только об общей тенденции; есть немало контрпримеров реализации по-настоящему эффективных систем, помогающих оптимизировать те или иные процессы, но почти все такие системы имеют узкую отраслевую направленность, и содержат жестко запрограммированные алгоритмы решения задач. Таким образом, системного влияния на положение дел они не оказывают.

Что же нужно сделать для того, чтобы компьютер стал по-настоящему помогать нам в решении интеллектуальных бизнес-задач, смог поддерживать принятие решений в любых сферах? Необходимо вдохнуть в него «искру разума», то есть научить его «думать», как мы. Фактически, для этого нужно воспроизвести в цифровом представлении те информационные структуры и процессы, которыми мы сами пользуемся в процессе мышления: понятийный аппарат, логические рассуждения. Тогда мы сможем реализовать и процессы обработки этих структур, то есть имитировать на компьютере отдельные фрагменты наших когнитивных способностей. После этого, получив определенные результаты, мы сможем критически посмотреть на смоделированные структуры и процессы, и улучшить их. В сочетании с недоступной человеку способностью вычислительных машин к быстрой обработке огромных объемов информации, такой подход обещает дать небывало высокий уровень качества поддержки принятия решений со стороны информационных систем.

Мы не случайно привели именно логическое мышление в качестве примера когнитивного процесса, который можно воспроизвести в вычислительной среде. Существуют и другие подходы, наиболее популярным из которых является использование нейросетей – то есть имитация процессов, происходящих при взаимодействии нейронов в головном мозгу. При помощи такого рода средств успешно решаются задачи распознавания образов, речи и т.д. Можно «обучить» нейросети и для применения в качестве средства поддержки принятия решений. Однако с ростом числа факторов, требуемых для оценки ситуации, сложности их структуры, способов влияния на ситуацию, возможности нейросетей становятся все менее убедительными: на обучение требуется больше времени, получаемые результаты носят вероятностный характер, не обеспечивают логической доказуемости. Выход за пределы заранее ограниченного круга ситуаций приводит к невозможности получить от нейросети результат, пригодный для практического использования. Имитация же логического мышления свободна от большинства этих недостатков, а коррекция логической схемы при изменении условий требует куда меньше усилий, чем переобучение нейросети. Зато при составлении логических моделей принципиально важным становится их корректность, непротиворечивость, релевантность, зависящая от человека – автора модели.

Одна из главных особенностей человеческого сознания состоит в том, что оно лениво. Наш мозг отсекает все «лишнее», сводя наше представление о событиях и явлениях к довольно простым определениям. Мы видим только черное и белое, и принимаем решения, исключив из рассмотрения подавляющее большинство объективной информации.

Этим же грехом человек страдает при анализе бизнес-процессов и сред. Вместо того, чтобы воспринимать бизнес как сложную систему, не поддающуюся упрощению дальше определенного предела без критической потери достоверности результатов аналитики, человек старается свести все критерии оценки и управления к нескольким числовым показателям. Таким образом удается упростить получаемую модель, снизить затраты на ее создание. Но поступающим так не следует удивляться, когда их прогнозы не оправдываются, а решения, принятые на основании моделирования оказываются неверными.

Главный принцип качественной аналитики, управления, основанного на знаниях, звучит так: НЕ УПРОЩАТЬ модель без необходимости.

Онтологическое моделирование: цели и средства

К сожалению, распространенные сегодня компьютерные технологии не благоприятствуют реализации этого принципа. Если в качестве инструмента анализа нам доступен только Excel или реляционные базы данных – описание бизнеса неизбежно придется сводить к ограниченному набору числовых показателей. Поэтому одной из наиболее актуальных проблем развития ИТ в настоящий момент является доведение до широкой промышленной эксплуатации таких технологий, которые позволяют строить действительно сложные и комплексные информационные модели, и решать с их помощью те оптимизационные, аналитические, оперативные задачи, перед которыми другие технические средства оказываются бессильны.

Многообещающим, но несколько недооцененным на сегодняшний день направлением решения этой задачи является использование так называемых семантических технологий. Идеи автоматизированной обработки концептуализированного знания неоднократно выдвигались мыслителями начиная с эпохи Возрождения, ограниченно использовались в лучшие годы советской плановой экономики, но до действительно функционального воплощения доросли только сейчас. На сегодняшний день созданы все необходимые компоненты методики и технологий, необходимых для работы с онтологическими моделями, которые являются предметом обработки с помощью семантических технологий. Слово «онтология» означает совокупность знаний; термин «семантические технологии» подчеркивает тот факт, что они обеспечивают работу со смыслом информации. Таким образом, переход с традиционных ИТ на семантические технологии является переходом от работы с данными к работе со знаниями. Разница между этими двумя терминами, которые здесь мы используем исключительно в применении к содержанию информационных систем, подчеркивает отличие в способе использования информации: для восприятия и использования данных необходим человек, субъект, которому приходится выполнять при этом операцию осмысления, выявления смысла данных, и его переноса на интересующую часть реальности. Знания же могут восприниматься непосредственно, так как они уже представлены при помощи того понятийного аппарата, которым пользуется человек. Кроме того, с представленными в электронном виде знаниями (онтологиями) могут выполняться и полностью автоматические операции – получение логических выводов. Результатом этого процесса являются новые знания.

Аналитики Gartner называли семантические технологии одним из наиболее многообещающих ИТ-трендов 2013 года, однако их оптимизм оказался преждевременным. Почему? Все по той же причине – человек ленив, а создание семантических моделей требует серьезных умственных усилий. Тем больше выгод и преимуществ перед конкурентами получат те, кто предпримет эти усилия, и трансформирует их в реальный бизнес-результат.

В статье отражены вопросы, связанные с проектированием экспертной системы «Технология» на основе формируемой базы знаний проблемной области «Технология швейных изделий». Авторами рассмотрен методологический подход к разработке экспертных систем, определена область исследований, выявлены теоретические аспекты разработки онтологии предметной области, проведен сравнительный анализ моделей представления знаний и выявлено, что фреймовая модель в наибольшей степени отвечает предъявленным требованиям к моделям представления знаний для проектирования интеллектуальной системы данного типа. Произведена структуризация и формализация знаний проблемной области «Технология швейных изделий» на основе онтологического подхода на этапе принятия технологических решений. Определены характеристики элементов онтологии и описаны их значения. Сформирована классификация классов, подклассов, выявлены характеристики, описывающие данные понятия, и разработана понятийная структура онтологии области «Технология швейных изделий». Создана онтология предметной области «Технология швейных изделий» с помощью инструментального средства – программы Protégé 4.2 beta.

экспертная (интеллектуальная) система

предметная/проблемная область

база знаний

онтология

технология швейных изделий

технологический узел

срез детали

1. Гаврилова Т.А. Использование онтологий в системах управления знаниями [Электронный ресурс]. – Режим доступа: http://www.big.spb.ru/publications/bigspb/km/use_ontology_in_suz.shtml (дата обращения: 24.08.2013).

2. Ездаков А.Л. Экспертные системы САПР: учебное пособие. – М.: ИД «Форум», 2012. – 162 с.

4. Моделирование и экспертные системы [Электронный ресурс]. – Режим доступа: http://sdo.uspi.ru/mathem&inform/lek5/lek_5.htm (дата обращения: 22.08.2013).

5. Подшивалова А.В. Совершенствование автоматизированного проектирования одежды на основе интеллектуализации процесса конфекционирования материалов: автореф. дис. ... канд. техн. наук. – Владивосток, 2011. – 22 с.

6. Разработка онтологии 101: руководство по созданию Вашей первой онтологии / Наталья Ф. Ной (Natalya F. Noy) и Дэбора Л. МакГиннесс, Стэнфордский Университет, Стэнфорд, Калифорния, 94305.

7. Рыбина Г.В. Основы построения интеллектуальных систем: учебное пособие. – М.: Финансы и статистика; ИНФРА-М, 2010. – 423 с.

8. Цели создания онтологии [Электронный ресурс]. – Режим доступа: http://www.intuit.ru/department/expert/ontoth/1/2.html (дата обращения: 20.08.2013).

9. Protege 4.2 beta [Электронный ресурс]. – Режим доступа: http://translate.yandex.ru/translate?srv = yasearch&url = http %3A %2F %2Fprotege.stanford.edu %2F&lang = en-ru&ui = ru (дата обращения: 26.03.2013).

В настоящее время развитие автоматизации процессов проектирования, в том числе и одежды, не приводит к получению результатов, способных вывести данный процесс на качественно новый уровень . В современных САПР автоматизированы только отдельные проектные процедуры. Задачи, возникающие на ранних стадиях проектирования технических объектов, к которым относятся: формирование технического задания, разработка технического предложения и эскизное проектирование, составление конфекционной и технологической карт решаются в интерактивном режиме инженером-проектировщиком. Реализуемые при этом процедуры связаны с решением слабоструктурированных и трудно формализуемых задач и поэтому сложно поддаются автоматизации в рамках существующей методологии автоматизированного проектирования.

Постоянный прогресс информационных технологий, с одной стороны, и постоянные модификации и рост сложности проектируемых технических систем, с другой, приводят к необходимости рассматривать САПР как архитектуру, обеспечивающую проектировщикам возможность добавления новых свойств и компонент. Структурными компонентами САПР, в том числе одежды, эффективно повышающими качество процесса проектирования, могут стать экспертные системы (ЭС) , которые относятся к системам, основанным на знаниях (СОЗ), и образуют вместе с проектирующими подсистемами интеллектуальные информационные системы (ИИС).

Главное достоинство ЭС - возможность накопления знаний и сохранение их длительное время. В отличие от человека к любой информации ЭС подходит объективно, что улучшает качество проводимой экспертизы. Цель создания экспертных систем ‒ концентрация знаний специалистов в конкретных предметных областях, упрощение процедуры принятия решений пользователями в трудно формализуемых предметных областях, улучшение качества и повышение эффективности принимаемых решений, тиражирование знаний экспертов, автоматизация некоторых рутинных направлений деятельности экспертов .

Ядром экспертных систем являются базы знаний соответствующих проблемных областей (ПО), например, ПО «Технология швейных изделий» (ПО ТШИ). Определенная организация знаний в БЗ позволяет их легко определять, модифицировать и пополнять.

Способ представления знаний в ИИС характеризуется моделью представления знаний. Фреймовая модель универсальна в использовании, имеет многоуровневую структуру представления данных, быстрый и прямолинейный доступ к информации, отображает взаимосвязи между объектами, что отвечает требованиям интегрированной системы автоматизированного проектирования одежды (ИСАПРо), ее подсистем, в том числе экспертной системы «Технология» .

Реализация фреймовой модели возможна посредством онтологического подхода, который заключается в разработке онтологии исследуемой проблемной области. Онтология - это точная спецификация некоторой предметной области, например, «Технология швейных изделий» (ТШИ). Использование онтологий наиболее активно происходит в области систем управления знаниями, а также в области многоагентных интеллектуальных систем .

Цель исследования - разработка онтологии предметной области «Технология швейных изделий» на этапе принятия технологических решений.

Методы исследования: системный подход, методы системного анализа, онтологический подход, методы интеллектуализации, поддержки принятия решений, средства и методы интерфейса пользователя.

Результаты исследования и их обсуждение

Потребность в разработке онтологий возникает по следующим причинам : для совместного использования людьми или программными агентами общего понимания структуры информации; для возможности повторного использования знаний предметной области; для того чтобы сделать допущения предметной области явными; для отделения знаний предметной области от оперативных знаний; для анализа знаний предметной области.

Онтология представляет собой формальное явное описание понятий в рассматриваемой предметной области (классов (иногда их называют понятия)), свойств каждого понятия, описывающих различные свойства и атрибуты понятия (слотов (иногда их называют ролями или свойствами)), и ограничений, наложенных на слоты (фацетов (иногда их называют ограничениями ролей)). Онтология вместе с набором индивидуальных экземпляров классов образует базу знаний, например, экспертной системы «Технология».

Процесс построения онтологии предметной области состоит из следующих основных этапов : определение области и масштаба онтологии; рассмотрение вариантов повторного использования существующих онтологий; перечисление важных терминов в онтологии; определение классов и иерархии классов; определение свойств классов - слотов; определение фацетов слотов; создание экземпляров.

Для преобразования данных предметной области ТШИ о методах технологической обработки (МТО) посредством онтологии, которая позволяет представить информацию в адаптированном для информационных технологий виде, в ходе исследования было принято решение отойти от общепринятой классификации МТО и названий срезов основных деталей, деталей прокладки и приклада. Это позволяет осуществлять поиск МТО по заданным параметрам (цельновыкроенность деталей, способы обработки среза, способы закрепления среза, вид материала, наличие вспомогательных деталей (планки, обтачки, тесьма, косая бейка, лея и т.д.), ориентации основных деталей (левая и правая части), способам установки фурнитуры и выполнения закрепок (специальные п/автоматы, вручную). В данном случае выбор методов обработки производится независимо от ассортимента (пальтово-костюмный, платьево-блузочный), группы (плечевая, поясная), вида изделий (брюки, юбки, платья, пальто, шорты и т.д.) и используемых материалов, что упрощает и ускоряет процесс принятия технологических решений.

В соответствии с правилами разработки онтологий, проведен анализ исследуемой предметной области и выявлены основные ее понятия - классы: срезы деталей и технологические узлы (ТУ); подклассы и экземпляры. Обобщенная структурная схема элементов онтологии предметной области «Технологии швейных изделий» представлена на рис. 1.

Рис. 1 Обобщенная структурная схема элементов онтологии предметной области «Технология швейных изделий»

В качестве примера результатов проведенного исследования рассмотрен класс «Срезы деталей» и подкласс «Обработка низа» класса «Технологические узлы». Построение структуры онтологии происходит по принципу соподчинения. На рис. 2 представлена структура класса «Срезы деталей», который делится на подклассы: «Срез низа» «Внутренний срез дополнительной детали», «Стабилизация», «Закрепление припусков швов». Каждый подкласс описан определенными экземплярами, например, подкласс «Внутренний срез дополнительной детали» включает следующие экземпляры: необработанный, подогнутый, обтачанный, окантованный, обработанный притачными деталями, обработанный накладным швом.

Рис. 2. Структура класса «Срезы деталей»

Класс «Технологический узел» делится на подклассы, один из них - «Обработка низа» (рис. 3). В подкласс «Обработка низа» входят определенные экземпляры, такие как низ (плечевых изделий, низ юбок), низ рукава, низ брюк.

Рис. 3. Структура класса «ТУ», подкласс «Обработка низа»

Каждое из понятий предметной области, то есть каждый из классов, подклассов и экземпляров имеет определенный набор характеристик, описывающих эти понятия. При этом для онтологии характерно выполнение принципа наследования, когда подклассы, следовательно, и их экземпляры, объединенные в иерархии общим классом, автоматически наследуют слоты, установленные для этого класса. Таким образом, классу «Срезы деталей» присваиваются слоты, общие для всех срезов. Затем выявляются и дополняются к общим слоты, характерные для каждого из подклассов класса «Срезы деталей», и далее в зависимости от степени детализации онтологии. Выявление слотов элементов онтологии необходимо для составления формы описания конечных экземпляров онтологии. В данном случае конечными экземплярами классов «Срезы деталей» и «Технологические узлы» являются методы технологической обработки низа.

Характеристики подкласса «Обработка низа» класса «Технологические узлы» представлены срезами деталей, а значение этих характеристик - способами обработки. Структура построена таким образом, чтобы исключить многократные повторения идентичных способов обработки различных технологических узлов (табл. 1). Характеристики класса «Срезы деталей» представлены способами обработки срезов и отображены в табл. 2 (фрагмент).

Таблица 1

Характеристика подкласса «Обработка низа» класса «Технологические узлы»

Наименование характеристики	Значение характеристики	Тип значения характеристики	Мощность характеристики
Срез низа	Цельновыкроенный Обтачанный Окантованный Обработанный с притачными деталями Обработанный накладным швом	Определение
Внутренний срез дополнительной детали	Окантованный Подогнутый Обработка среза ниточными строчками	Определение
Закрепление	В чистый край Отделочная строчка Положение отделочной строчки	Графическое изображение

Таблица 2 (фрагмент)

Характеристика класса «Срезы деталей»

Для проектирования БЗ экспертной системы «Технология» создана онтология предметной области «Технология швейных изделий», с помощью инструментального средства-программы Protégé 4.2 beta . Рис. 4 демонстрирует диалоговое окно программы Protégé 4.2 beta, в котором представлены экземпляры подкласса «Внутренний срез дополнительной детали» класса «Срезы деталей».

Рис. 4. Диалоговое окно программы Protégé 4.2 beta: экземпляры подкласса «Внутренний срез дополнительной детали» класса «Срезы деталей»

Произведена структуризация и формализация знаний предметной области «Технология швейных изделий» на основе онтологического подхода. Определены характеристики элементов онтологии и описаны их значения. Создана онтология предметной области «Технология швейных изделий», составляющая основу базы знаний исследуемой проблемной области. Полученные результаты позволяют перейти к разработке экспертной системы «Технология», объективизировать и на более высоком уровне автоматизировать процесс выбора методов технологической обработки.

Рецензенты:

Шеромова И.А., д.т.н., доцент, профессор кафедры сервисных технологий, ФГБОУ ВПО «Владивостокский государственный университет экономики и сервиса», г. Владивосток;

Бойцова Т.М., д.т.н., профессор, директор Института сервиса, туризма и дизайна, ФГБОУ ВПО «Владивостокский государственный университет экономики и сервиса», г. Владивосток.

Работа поступила в редакцию 18.09.2013.

Библиографическая ссылка

Королева Л.А., Подшивалова А.В., Панюшкина О.В. ОНТОЛОГИЧЕСКАЯ МОДЕЛЬ ПРЕДМЕТНОЙ ОБЛАСТИ «ТЕХНОЛОГИЯ ШВЕЙНЫХ ИЗДЕЛИЙ» // Фундаментальные исследования. – 2013. – № 10-5. – С. 986-990;
URL: http://fundamental-research.ru/ru/article/view?id=32438 (дата обращения: 28.03.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»