Всего на сайте:
183 тыс. 477 статей

Главная | Информатика

Информационно-поисковые языки  Просмотрен 57

ЛЕКЦИЯ 3

 

Учебная презентация

Вопросы:

1) Информационно-поисковые языки (ИПЯ): понятие и структура.

2) Упорядочения лексических единиц ИПЯ.

3) Требования к ИПЯ

 

Вопрос 1. Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.

Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.

Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.

Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:

- фонетического;

- лексического;

- синтаксического;

- текстового.

Элементы каждого уровня объединяются в синтагмы и парадигмы.

Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

Лексический уровеньили словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.

 

Вопрос 2. Упорядочение лексических единиц ИПЯ.

Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка.

Парадигматические отношения (аналитические) — это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные).

Объем понятия — множество предметов, отображенных в данном понятии. Например, "периодические издания" включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна).

Содержание понятия — это отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия.

К сильным (логическим) парадигматическим отношениям относятся:

· Эквивалентности (равнозначности) — отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный — документ опубликованный; документ рукописный — документ неопубликованный.

· Подчинения — отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды).

· Соподчинения — между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка — виды непериодических изданий.

· Перекрещивания — между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые.

· Противоположности — между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые.

· Противоречия (контрадикторности) — между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные.

Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные).

При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения:

· Целое — часть (Справочно-поисковый аппарат и каталоги, картотеки).

· Система — элемент (Архивная отрасль Беларуси и Национальный исторический архив).

· Отношения детерминации: причина — следствие (Старение публикаций и снижение спроса).

· Процесс — оборудование (Ксерокопирование и ксерокс).

· Процесс — материал (Ксерокопирование и бумага).

· Материал — изделие (Древесина и бумага).

· Изделие — процесс изготовления (Документ и документирование).

· Предмет — назначение (Магнитные диски и запись информации).

· Наука — объекты изучения (Информатика и информация).

· Наука — представители (Философия и Сократ).

Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы — парадигмы, элементы которых обладают свойством взаимозаменяемости.

Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения, служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов.

Одной из основных характеристик ИПЯ является семантическая сила — возможность передавать полно и точно содержание сообщений.

 

Вопрос 3. Требования к ИПЯ. При разработке конкретного ИПЯ учитываются:

- специфика отрасли или предмета, для которой этот язык создаётся,

- особенности текстов, образующих поисковый массив,

- характер информационных потребностей, для удовлетворения которых создается язык.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа).

Главная отличительная особенность ИПЯ — простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ: однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.

 

 

ЛЕКЦИЯ 4

Предыдущая статья:Петр Третий и строительный мусор Следующая статья:КЛАССИФИКАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ ЯЗЫКОВ
page speed (0.028 sec, direct)