Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
* Чисельність всіх працівників облікового складу (без сумісників та жінок, які знаходяться у відпустці з вагітності та пологів і догляду за дітьми) н...полностью>>
'Доклад'
Основной целью деятельности работы МБОУ ДОД «МОТЫГИНСКАЯ ДЮСШ» является создание комплексной системы физического воспитания, основанной на детско-юно...полностью>>
'Документ'
Расчеты и переводы между резидентами и нерезидентами за товары, вывозимые с таможенной территории Российской Федерации, в том числе воздушные, морски...полностью>>
'Программа дисциплины'
Дисциплина читается студентам первого курса по направлению «Международные отношения» факультета мировой экономики и мировой политики. Курс является о...полностью>>

Доклад на тему: "Онтологии в Интернет"

Главная > Доклад
Сохрани ссылку в одной из сетей:

Доклад на тему:

“Онтологии в Интернет”

студента группы МЭВд 52, Шарова О.Г.

Введение

Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети.

Онтологии и Web

Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей.

Существует множество различных подходов к использованию технологий искусственного интеллекта для решения задачи поиска. Одним из возможных путей может стать аннотирование Web страниц дополнительной структурированной информацией об их содержании, которая в дальнейшем может быть использована поисковой машиной для определения релевантности запросу найденного Internet ресурса.

Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language). XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework). Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.

В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных.

Sandewall [1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.

Онтологические системы могут применяться для решения различных задач в сфере искусственного интеллекта, но, пожалуй, наиболее характерной сферой их применения является представление знаний в Интернет. Круг связанных с этим вопросов весьма широк и включает в себя мультиагентные системы, автоматическое извлечение знаний из текстов на естественном языке, поиск информации, интеллектуальное аннотирование, автоматическое составление авторефератов и проч.

Примером общей онтологической системы является CYC, разрабатываемой фирмой СYCorp [1995]. Проект включает в себя создание обширной онтологической системы, описывающей более чем 106 концептов и 105 аксиом. Для представления знаний фирма разработала специальный язык CYCL. Для вывода по онтологической базе знаний разработана специальная машина вывода. Основная цель этого проекта — построение обширной базы знаний обо всех общих понятиях практически во всех областях человеческой деятельности (common knowledge).

Другим примером использования онтологической системы является инициатива (KA)2 [1998] (Knowledge Annotation Initiative of the Knowledge Acquisition Community). Это международный проект, целью которого является организация интеллектуального поиска в Интернет и автоматическое накопление новых знаний. В этой инициативе выделяют следующие направления:

  • Аннотация web страниц интеллектуальной информацией.

  • Онтологический инжиниринг.

  • Организация интерфейса запросов и вывода по распределенной онтологии.

Авторы проекта SHOE [1997] предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию. (кафедра информатики университета в Мериленд (Department of computer Science of Maryland University ))

В проекте Ontobroker [1998] предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.

Общим для всех систем онтологического аннотирования является то, что в качестве аннотации веб-ресурса выступает специальным образом организованная предметная онтология, которая содержит структурированные знания об аннотированном ресурсе относительно некоторой метаонтологии предметной области. Можно предложить различные способы размещения онтологической информации о ресурсе: включить онтологическое описание в HTML код через введение новых HTML тегов, либо хранить онтологическое описание ресурса в отдельном файле в каком-либо специальном представлении.

Основная задача онтологического подхода состоит в том, чтобы облегчить пользователю поиск информации в большом наборе ресурсов за счет систематизации знаний, создания единой иерархии понятий, унификации терминов и правил интерпретации. Для описания онтологий можно использовать различные языки представления знаний, применяемые, например, в экспертных системах. В следующей работе предлагается использовать для составления онтологических описаний фреймово-продукционный способ представления знаний.

Как известно, фреймы — средство описания статических знаний, удобное для описания иерархии абстрактных и конкретных понятий, близкое к объектно-ориентированному подходу. Продукции, определенные над множеством фреймов и их слотов, позволяют описывать динамические знания.

В тоже время, применение фреймово-продукционных языков представления знаний в "чистом" виде недостаточно для организации эффективного онтологического поиска.

В данной работе предлагается модифицировать фреймовое представление знаний, явно разделив фреймы-образцы и фреймы-экземпляры, введя требование запретить изменять структуру или применять наследование к фреймам-экземплярам. В дальнейшем мы будем называть категорией фрейм-образец, а под концептом будем понимать фрейм-экземпляр. Категория во всем эквивалентна обычному фрейму, кроме того, что значения ее слотов воспринимаются концептами как значения по умолчанию, а концепт соответственно является точной копией своей категории с точностью до значений слотов и безусловных правил, явно присваивающих слоту его значение.

Внедрение подобного подхода позволяет существенно обогатить множество возможных поисковых запросов. Открывается возможность разделить поиск информации на два этапа: вначале изучается описание существующих явлений, а затем ведется поиск частных случаев изученных явлений. Это обстоятельство, при условии уникальности используемых имен, дает дополнительное преимущество, состоящее в том, что вводится принудительная унификация понятий в рамках одной предметной области, что исключает возможность двусмысленности поискового запроса.

Язык составления онтологических описаний

Для составления онтологических описаний в рамках создания онтогической поисковой системы Jewel была проведена разработка общего языка описания онтологий. В основе предлагаемого языка лежит фреймово-продукционный язык JFMDL из состава инструментария JULIA (Java Universal Library for Intelligent Applications), расширенный согласно вышеописанным положениям.

Язык позволяет производить онтологические описания HTML страниц, используя понятия: категория, условное правило, безусловное правило и концепт. Под онтологией HTML страницы (онтологией части предметной области, описываемой в странице) понимается описание некоторого ресурса, проводимое в терминах общего языка описания онтологий.

В целях повышения эффективности поиска онтологий и непротиворечивости их описания принимаются следующие соглашения:

  • Каждая онтология HTML страницы предназначена для непосредственного описания той страницы, на которой она находится. Причем в теле страницы может быть определена только одна онтология.

  • Каждая онтология обладает набором предопределенных свойств:

  • именем, которое совпадает с физическим местоположением HTML страницы, в теле которой содержится описание онтологии;

  • списком используемых онтологий (для описания категорий и правил создаваемой онтологии могут применяться категории и правила объявленных используемых онтологий) и их внутренних имен, ассоциированных с ними для удобства;

  • кратким словесным описанием.

Для описания онтологии используется надмножество стандарта HTML, в котором расширяется стандартный тег <SCRIPT>, а также вводятся новые теги <USE>, <CONCEPT>, <SET>, <ASSIGN>. Рассмотрим теперь подробнее теги, используемые в описании онтологий.

Приведем простой пример онтологического описания некоторой предметной области. В качестве предметной области рассмотрим справочник по моделям самолетов, представленный набором HTML страниц — по одной на каждую модель. Мы можем выделить пассажирские и транспортные самолеты. Объединим эти сведения в главной странице - aircrafts.html.

Теперь любая страница, содержащая информацию о конкретном самолете, может быть дополнена онтологическим описанием, например, следующим образом (см. слайд):

Таким образом, создается возможность для организации предметной онтологии, состоящей из некоторого числа онтологий HTML страниц.

Язык поисковых запросов

Для составления поисковых запросов в системе Jewel применяется специализированный язык, состоящий из следующего набора операторов:

  • Оператор SEARCH имеет следующую форму:

SEARCH

USE 'адрес_1' AS имя_1

. . .

USE 'адрес_N' AS имя_N

IMPORT LIBRARY имя_библиотеки_1

. . .

IMPORT LIBRARY имя_библиотеки_M

WHERE "условие"

Под условием понимается логическое выражение, определяющее искомые онтологии. В процессе поиска производится обход всех подходящих запросу онтологий1, и к элементам каждой из них применяется указанное поисковое условие. В качестве результата возвращаются онтологии, для которых условие истинно.

Для задания условия могут использоваться следующие предикаты:

  • INHERITED(имя_категории) - принимает истинное значение в текущей онтологии, если имеется категория, унаследованная непосредственно от указанной в аргументе. В противном случае предикат принимает ложное значение.

  • EXTENDS(имя_категории) - принимает истинное значение в текущей онтологии, если имеется категория, унаследованная (возможно не непосредственно) от указанной в аргументе. В противном случае предикат принимает ложное значение.

  • IMPLEMENTS(имя_категории) - принимает истинное значение в текущей онтологии, если имеется концепт, представленный категорией, указанной в аргументе. В противном случае предикат принимает ложное значение.

Кроме предикатов в условие входят так называемые неявные выражения над концептами. Так, например, выражение (имя_категории.имя_слота > "значение") означает, что выражение будет истинно в случае, если текущая онтология имеет концепт указанной категории, и выражение для его слота истинно (для приведенного примера это означает, что значение, хранимое в слоте концепта, должно быть больше указанного).

Для проверки истинности выражения, при помощи обратного логического вывода, производится вычисление значения слота и последующее сравнение. В случае, если значение слота не вычислимо — выражение признается ложным.

Все выражения и предикаты в условии запроса могут быть связаны логическими операциями AND, OR и NOT.

  • Оператор EXTRACT имеет следующие три формы:

  • EXTRACT BASE - возвращает адреса всех зарегистрированных в системе онтологий;

  • EXTRACT ROOT - возвращает адреса всех зарегистрированных в системе онтологий, которые не используют никаких других онтологий;

  • EXTRACT ONTOLOGY 'адрес' - возвращает онтологическое описание страницы, зарегистрированной по указанному адресу.

Рассмотрим более подробно процесс поиска информации в предлагаемой поисковой системе. Допустим, что имеется некоторая предметная область, для которой составлены все необходимые онтологические описания. Ставится задача найти страницу, в тексте которой описан некоторый факт. В терминах, введенных в данной работе, для описания явлений используется понятие категории, а для указания частных случаев явлений — концепты. Таким образом, требуется найти страницу, онтология которой содержит концепт некоторой неизвестной категории. Как видно, в общем случае, вначале требуется найти категорию, описывающую нужное явление. Затем требуется отыскать концепт найденной категории, описывающий требуемый факт. Онтология, содержащая найденный концепт, будет онтологией искомой страницы. Общий алгоритм поиска для прелагаемой поисковой системы будет сводиться к следующим действиям:

  • Определение корня онтологий - именно с коренных онтологий можно начать изучение структуры онтологических описаний в случае, если структура введенной в рассмотрение предметной онтологии неизвестна. Изучение онтологий найденных страниц проводится посредством просмотра с помощью команды EXTRACT ONTOLOGY.

  • Изучение описаний известных явлений предметной области до тех пор, пока не будет найдена категория, концепт которой может оказаться искомым фактом. При этом поиск новых онтологий ведется преимущественно с применением предикатов типа IMPLEMENTS, INHERITED и EXTENDS к известным категориям.

  • Определение отличительных особенностей искомого концепта и непосредственный поиск концепта исходя из его отличительных особенностей. Поиск онтологии, очевидно, должен вестись с использованием неявных выражений над категориями.

Приведенный алгоритм легко продемонстрировать на ранее приведенном примере. Выделение коренных онтологий командой EXTRACT ROOT даст в качестве результата адрес онтологии страницы aircrafts.html, так как она не использует в своем описании других онтологий.

Последний из вышеприведенных примеров наглядно показывает элемент интеллектуальности проводимого поиска, так как информация о том, что самолет Ту-154 дозвуковой, явно нигде не указывалась, а была выведена логически по продукционному правилу, общему для всех концептов, прямо или косвенно представляющих категорию Plane.

Как отмечалось выше, в последние несколько лет резко усилился интерес к разработке интеллектуальных поисковых механизмов. Альянс свойств онтологий и систем, основанных на знаниях, в сочетании с текущей задачей интеллектуализации информационного поиска определили привлекательность идеи их использования в этом направлении. Таким образом, в настоящее время методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Интернет и рассматриваются как катализатор для возникновения следующего этапа развития поисковых средств.

Заключение

Попытки структурировать Web предпринимаются постоянно. Онтологии это еще одна попытка решить проблему информационного переполнения в сети. Основные задачи, которые могут успешно решаться (и решаются) на базе онтологий, включают предоставление знаний для вывода информации, которая релевантна запросу пользователя; фильтрация и классификация информации; индексирование собранной информации; организация общей терминологии, которой могут пользоваться для коммуникации программные агенты и пользователи. До сих пор возможности логического вывода в Интернет практически не применялись. С "приходом" баз знаний и систем, основанных на знаниях, в Web появляются новые перспективы в освоении сетевого пространства.

Вовлечение систем, основанных на знаниях на Web, компонентом которых являются онтологии, позволяет рассматривать всемирную паутину как организованное и структурированное пространство знаний, что, возможно, приведет к использованию информации в сети на новом уровне.

1 Для повышения быстродействия все проверяемые онтологии, при помощи индекса, предварительно отбираются в кандидатное множество.



Скачать документ

Похожие документы:

  1. Доклад на тему «Сознание и искусственный интеллект»

    Доклад
    На протяжении нескольких предыду­щих десятилетий компьютерные технологии развивались семимильными шагами. Более того, нет никаких сомнений в том, что и бу­дущее сулит нам новые грандиозные успе­хи в повышении быстродействия и объема
  2. Доклады и материалы

    Доклад
    Высшее образование для XXI века : III Международная научная конференция, МосГУ, 18–20 октября 2006 г. : доклады и материалы. Вып. 1 / под общ. ред. И.
  3. Онтология сознания в философской традиции антропокосмизма: теоретический анализ и системная реконструкция

    Диссертация
    Защита состоится 22 октября 2010 г. в 12.00 на заседании диссертационного совета Д 212.041.02 по защите диссертаций на соискание ученой степени доктора философских наук, доктора культурологии ГОУ ВПО «Вятский государственный гуманитарный
  4. Гуманитарная методология: прочтение, программа, профанация? (доклад на семинаре 15 ноября 2005г.)

    Программа
    Жен. Господа, у нас сегодня очередной семинар в рамках осеннего цикла по подготовке к предстоящим XII Чтениям. Сегодня у нас внешний, по отношению к Сообществу, докладчик.
  5. Интернет-журналистика в системе сми: становление, развитие, профессионализация

    Автореферат
    Защита диссертации состоится 29 октября 2009 г. в 15.00 часов на заседании диссертационного совета Д 206.002.01 при ФГОУ «Институт повышения квалификации работников телевидения и радиовещания» по адресу: 127521, г.

Другие похожие документы..