+7(499)-938-42-58 Москва
+7(800)-333-37-98 Горячая линия

Тема: индексирование документов: определение, основные процессы. Примеры индексирования документов в конкретной и биографической базе данных Что представляет собой индексирование документов его этапы

Примеры индексирования документов в конкретной и биографической базе данных. Индексирование документа Фактографическое индексирование документа

Тема: индексирование документов: определение, основные процессы. Примеры индексирования документов в конкретной и биографической базе данных Что представляет собой индексирование документов его этапы

-Качество услуг-Примеры индексирования документов в конкретной и биографической базе данных. Индексирование документа Фактографическое индексирование документа

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова.

При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа.

Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных.

Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п.

С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор.

Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник.

Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно.

У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок.

Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом.

Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается.

Для одной части уравнения подбираются такие ключевые слова, как организованная преступность, ОПГ тамбовская, для другой – нефть, бензин, бензиновый кризис. В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу.

Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».

При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике.

Ведь языковые средства, которые мы, не задумываясь, применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф.

Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное», – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.

Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.

Из книги Гражданский кодекс РФ. Часть первая автора Законы РФ

Статья 259.Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Инкотермс 2000 автора Международная торговая палата

12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИТак как Инкотермс предлагают комплект терминов для использования в различной сфере торговли и регионах, невозможно всегда точно сформулировать обязанности сторон. До некоторой степени поэтому необходимо ссылаться на обычай

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 10 мая 2009 года автора Коллектив авторов

СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Правовые основы судебной медицины и судебной психиатрии в Российской Федерации: Сборник нормативных правовых актов автора Автор неизвестен

КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА1. Заявление о проведении экспертизы лекарственного средства, в котором отражаются:– наименование и адрес (почтовый и

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 1 ноября 2009 г. автора Автор неизвестен

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Источник: https://lenkom35.ru/the-quality-of-services/primery-indeksirovaniya-dokumentov-v-konkretnoi-i-biograficheskoi-baze.html

Раздел IV. Индексирование документа

Тема: индексирование документов: определение, основные процессы. Примеры индексирования документов в конкретной и биографической базе данных Что представляет собой индексирование документов его этапы

Однойиз важнейших операций аналитико-синтетическойобработки документов как средстваинформационного поиска являетсяиндексирование документов и информационныхзапросов.

Индексирование– процесс выражения содержания документаи (или) запроса на информационно-поисковомязыке (ИПЯ) с помощью терминов индексирования(классификационных индексов, предметныхрубрик (ПР), ключевых слов, дескрипторов,кодов).

Иными словами, индексирование– процесс перевода содержания документови запросов с естественного языка наИПЯ, в результате чего создается поисковыйобраз документа (ПОД) и поисковый образзапроса (ПОЗ).

Таким образом, происходит«свертывание» информации, содержащейсяв документе и изложение ее на ИПЯ в видеиндекса, рубрики, кода (на классификационномязыке) или дескриптора, ключевого слова(на дескрипторном языке).

Поисковыйобраз документа– это выраженное в терминах формализованногоинформационно-поискового языка основноесмысловое содержание документа (а невся информация, содержащаяся в документе),которое поставлено в однозначноесоответствие этому документу, по которомупроизводится отыскание данного документав массиве других документов.

Индексированиезапроса осуществляется путем переводаего содержания на информационно-поисковыйязык. Совокупность терминов индексирования,выражающих смысловое содержание запроса,называетсяпоисковым образом запроса (ПОЗ).

Вэтом случае поиск документов ведетсяпо совокупности терминов индексирования.

Чтобы повысить эффективность поискаинформации по запросу, поисковый образзапроса можно дополнить специальнымиуказаниями о последовательностивыполнения логических операций впроцессе информационного поиска, которыеявляютсяпоисковым предписанием.

Методикаиндексирования запросов за счет включениев поисковое предписание дополнительныхтерминов, понятий или дополнительныхуказаний позволяет расширить областьпоиска информации (например, за счетвключения видовых и ассоциативныхтерминов) и в конечном итоге повыситьфункциональную возможностьинформационно-поисковой системы.

Индексированиереализуется в следующих процессах:предметизации, систематизации икоординатном индексировании.

Систематизация– вид индексирования, при которомсодержание документа и (или) запросавыражено классификационными индексамив соответствии с правилами какого-либоклассификационного ИПЯ (классификационнойсистемы). Такой принцип индексированияпринято считать классификационным.Классификационный принцип индексированияобеспечивает возможность организацииинформационного поиска по иерархическомупризнаку.

Предметизация– вид индексирования, при которомсодержание документа и (или) запросавыражено предметной рубрикой (ПР) всоответствии с правилами соответствующегопредметизационного ИПЯ.

Предметизационныйпринцип индексирования базируется напредставлении содержания документа впонятийной системе определенногоестественного языка и на использованиив качестве терминов индексированиялексических единиц (ЛЕ) естественногоязыка.

Предметизационныйпринцип индексирования обеспечиваетвозможность организации информационногопоиска по алфавитному признаку.

Координатноеиндексирование– вид индексирования, при которомсмысловое содержание документа и (или)запроса многоаспектно выражаетсямножеством ключевых слов или дескрипторов.Информационно-поисковый язык,предназначенный для координатногоиндексирования документов (или частейдокументов) и запросов посредствомключевых слов и (или) дескрипторов,называется дескрипторным языком.

Термины«индексирование» и «индексатор»распространены в англоязычной литературеи широко применяются в международнойи отечественной библиотечной практике.

Взависимости от того, какой принципиндексирования является ведущим (илиединственным) различаютпредметизационные, классификационныеи дескрипторныеинформационно-поисковые языки. Всоответствии с характером ИПЯиндексирование осуществляется какпредметизация, систематизация икоординатное индексирование.

Ав качестве терминов этих видовиндексирования используют предметныерубрики, классификационные индексы,дескрипторы, ключевые слова.

Взависимости от типа используемого ИПЯ,различают два режима индексирования:предкоординатное(классификационное) и посткоординатное.

Впредкоординатном индексировании связимежду терминами индексированияустанавливаются заранее – при разработкесоответствующего ИПЯ. К предкоординатнымИПЯ можно отнести следующие:

  • перечислительные классификации;

  • иерархические классификации;

  • предметные классификации;

  • фасетные классификации.

Впосткоординатном индексировании связи(координация) между терминами индексированияустанавливаются во время индексированиядокументов или в процессе их поиска. Кпосткоординируемым ИПЯ относят:

  • дескрипторные языки;

  • посткоординируемые фасетные классификации.

Теоретическиеосновы и методика процессов индексирования

(предметизации,систематизации, координатногоиндексирования) подробно изложены впоследующих главах методическогопособия.

Источник: https://studfile.net/preview/2957462/page:47/

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.