Всего на сайте:
282 тыс. 988 статей

Главная | Автоматизация производства

ТВП для инвертированного файла  Просмотрен 25

Для каждой базы данных задается одна ТВП (файл с именем БД и расширением FST), которая определяет содержимое соответствующего инвертированного файла. Элементы, созданные по этой ТВП и запомненные в инвертированном файле, образуют словарь терминов доступа базы данных.

Однако словарь сам по себе не является достаточным для обеспечения механизмов поиска, так как каждый термин должен быть связан со всеми теми записями базы данных, в которых он встречается. В связи с этим, система связывает с каждым поисковым термином словаря список индексных ссылок, обеспечивающих требуемую связь с записями. Каждый термин имеет столько индексных ссылок, сколько раз он встречается в базе данных.

Более того, для поддержки развитых средств поиска, имеющихся в языке поиска, таких, например, как поиск по ключевым словам в определенных элементах описания, каждая индексная ссылка содержит помимо MFN записи некоторую дополнительную информацию, имеющую отношение к расположению термина в записи.

Индексная ссылка имеет следующие 4 компоненты:

 

MFN записи, содержащей термин. Эта компонента вводится в состав индексной ссылки при актуализации/формировании словаря автоматически.  
Идентификатор поля, используемый в процессе поиска при указании квалификатора (см. Приложение 6). Эта компонента вводится в состав индексной ссылки на основе ТВП. Обратите внимание на то, что один и тот же идентификатор поля может быть присвоен различным полям, указанным в формате выборки.
Номер экземпляра (повторения) повторяющегося поля, необходимый для осуществления поиска на уровне поля и операторов близости расположения терминов в повторяющихся полях (в АРМах ИРБИС не реализован). Для того, чтобы можно было использовать указанный метод поиска (обычно для этого необходим метод индексирования 4), необходимо определить формат в ТВП таким, чтобы в его выходных данных между экземплярами повторяющегося поля располагался знак процента (%), для чего нужно задать его в качестве повторяющегося суффикс-литерала. Например, строка ТВП для инвертирования повторяющегося поля 10 должна содержать формат v10|%|. Система перед обработкой каждой строки ТВП устанавливает номер повторения в 1 и затем увеличивает его на 1 всякий раз, когда в созданном форматом тексте встречается символ %.
   
Последовательный номер термина, необходимый для осуществления поиска по близости расположения терминов (в АРМах ИРБИС не реализован). Управление присвоением данного номера происходит следующим образом: он устанавливается в 1 перед обработкой каждой строки ТВП и при изменении номера повторения и увеличивается на 1 для каждого элемента, созданного указанным методом индексирования. Например, предположим, что в повторяющемся поле 331 содержится краткое содержание литературного источника, причем каждое повторение состоит из одного абзаца. Пусть данное поле проиндексировано методом 4. Если определить формат выборки данных mdl,v331|%|, то начиная с каждого абзаца краткого содержания словам будет присваиваться последовательный номер, начиная с 1 в каждом абзаце, а если бы формат выборки был равным mdl,v331, то словам присваивался бы сквозной последовательный номер по всему краткому содержанию, например, первое слово второго абзаца имело бы последовательный номер на 1 больше номера последнего слова первого абзаца.

 

Необходимо помнить, что изменения ТВП для инвертированного файла, как правило, требуют последующего переинвертирования (т.е. создания словаря заново) самой базы данных, так как инвертированный файл, созданный по старой ТВП, может не соответствовать новой ТВП.

 


Предыдущая статья:Формат выборки данных Следующая статья:Общие сведения
page speed (0.017 sec, direct)