ZLine GTSearch what for

Спецпоиск: зачем и как

Если в универсальной поисковой системе вы наберете слово Звезды, то среди первых нескольких первых десятков найденных ссылок будут присутствовать газеты, магазины и огромное число публикаций об артистической элите, но статей по астрономии не найдется. Специалисты в других областях смогут привести свои не менее интересные примеры. И это является общей проблемой: поиске специальной информации в поисковых системах общего профиля малоэффективен. Вывод: необходимо создание Специальных Поисковых Машин (СПМ).

Возможны два подхода к созданию спецпоисковых машин:

  1. Логическая (виртуальная) поисковая машина — выделение подмножества сайтов в поисковой системе общего профиля.
  2. Создание реальной (физической) поисковой машины, работающей только с сайтами определенной тематики.

Каждый из подходов имеет свои преимущства и недостатки.

Логические поисковые машины:

легко создаются и изменяются. На базе поисковой системы общего профиля можно создать целое семейство СПМ.

Минусами являются:

  • большое время обновления поисковых данных (один индекс на все ПМ);
  • большее время ответа (большой индекс);
  • невозможность существенной детализации областей поиска (обычно не более, чем до сайта);
  • трудности подключения специальных языковых и терминологических ресурсов (рубрикаторы, словари, тезаурусы).

Физические поисковые машины:

лишены всех этих недостатков.

  • время обновления индекса определяется только мощностью краулера;
  • область поиска задается предельно точно (до вайла или страницы), это позволяет отбрасывать части сайтов, содержащие ненужную информацию;
  • все специальные языковых средства на физической СПМ должны использоваться в максимальной мере.

Единственным их недостатком является большая стоимость по сравнению с виртуальными СПМ.

Какие предложения существуют на рынке

Приведем несколько примеров.

Логические СПМ

Google – предлагает создание виртуальных СПМ на основе своей глобальной поисковой системы.

Яndex – возможно создание виртуальных поисковых машин с помощью запоминания формы расширенного поиска. При создании или изменении такой формы требуется ручная работа.

Физические СПМ

Яndex-Сайт – "коробочный" продукт.в основном предназначенный для индексации единственного сайта или файлововй системы. Функционирует в ОС Windows (Server). Не имеет развитых средств работы с группами сайтов и контроля доступа к внешним ресурсам. Функциональные расширения отсутствуют. Обработчие запросов может функционировать автономно, например, на CD-ROM.

Наше предложение: GTSearch (ООО Дельта-Софт) – предлагается прототип поисковой машины. Функционирует в операционных системах семейства Unix, использует свободно-распространяемую базу данных PostgreSQL. В обязательном порядке дорабатывается и конфигурируется в соответствии с требованиями заказчика. Рассчитана на обработку до 10,000,000 документов. Имеет встроенные средства подключения языковых и терминологических ресурсов.