Поиск информации

5.12. Методы и средства поиска информации в Интернет

Поиск информации в сети Интернет — это последовательность действий, от определения предмета поиска, до получения ответа на имеющиеся вопросы с использованием всех поисковых сервисов, которые предоставляет сегодня Интернет.

В целом поиск информации в сети — это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы — это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

Основные методы поиска в Интернет. Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы — результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

Непосредственный поиск с использованием гипертекстовых ссылок. Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей несколько десятков миллионов узлов, «ручной» просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое «копание» уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

Использование поисковых машин. Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Интернет, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса (словаря).

Поиск с применением специальных средств. Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого метода основана на применении специализированных программ-спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

Анализ новых ресурсов. Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Средства поиска в Интернет. Поисковых систем сегодня существует достаточно много, международных и отечественных.

AltaVista является одной из самых старых, если не старейшей, поисковой системой в Интернете — она была создана в 1995 году. В настоящее время AltaVista может осуществлять поиск на 25 языках, включая русский.

Известны также зарубежные системы InfoSeek, Lycos, WebCrawler и отечественные Апорт, Rambler, Яndex. В последнее время стала расти популярность поисковой системы Google.

Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому, что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка.

По данным системы статистики SpyLOG, наибольшей популярностью среди русскоязычной части пользователей Интернета пользуются системы Яndex, Rambler, Google и Апорт. Популярность поисковых машин рассчитывается по количеству переходов с них на русскоязычные сайты (рис.5.50).

Рис. 5.50. Поисковые машины: распределение переходов

на русскоязычные Интернет-ресурсы.

Информационно-поисковая система Rambler (www.rambler.ru) успешно работает с 1996 г. и является одной из лучших информационно-поисковых систем в России и странах СНГ.

В состав Rambler входят:

  • Поисковая система (www.rambler.ru) по серверам России и странам СНГ. Содержит информацию о более чем 12 миллионах документов с более чем 48000 сайтов. Система имеет развитый язык запросов и гибкую форму вывода результатов. Rambler индексирует домены ru, su, ua, by, kz, kg, ge, uz и некоторые русскоязычные ресурсы из доменов com, net, org.. В апреле 2001 года (на момент запуска обновленной версии поисковой машины) в базе данных Rambler хранилась информация о почти 8 миллионах уникальных документов. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети. Ежедневно портал Rambler посещают около 300 тыс. человек.

Rambler учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется «Top100”, группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет Rambler иметь для поисковика количество серверов в 2 раза меньшее, чем у «Яндекса», и в 3 раза меньшее, чем у «Апорта».

«Паук» Rambler производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, — 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Rambler не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы.

Очень удобной функцией Rambler является «восстановить текст». Благодаря этой функции пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен.

Динамические, т.е. постоянно изменяемые страницы на сайтах, страницы Rambler пока не индексирует.

  • Система определения рейтинга (http://top100.rambler.ru/top100/in-dex.shtml.ru) сайтов/страниц по посещаемости, с учетом классификации сайтов. Множество сайтов разбито на более чем 55 категорий (администрации, образование, наука, работа,…).
  • Система обрабатывает до 3.5 миллионов счетных хитов в день, содержит более 59 тыс. ресурсов. Система ведет восемь видов рейтингов. Кроме того, для текущего дня регистрируются 5 дополнительных параметров. Обновление рейтингов — каждые 30 минут.
  • Информационный и развлекательный проект «Кулички на Рамблере» ( http://kulichki.rambler.ru). Проект содержит много интересной и развлекательной информации в различных областях (компьютеры, музыка, спорт, юмор, …). Включает в себя более 20 тыс. страниц, имеет более 500 тыс. хитов в день;
  • В мае 2001 года Rambler объявил об открытии нового проекта — Руметрика, посвященный исследованию развития русскоязычного сектора Интернета. Создатели проекта несколько раз в месяц публикуют данные об объеме Рунета, распределении сайтов по тематическим группам, динамике пользовательской активности, а также различные аналитические материалы, оценки социологов, аналитиков и экспертов в различных областях.

Яndex начал работу в сентябре 1997 года. Выполняет поиск по русскоязычной части Интернет (Рунет) с учетом русской морфологии. Поисковой машиной автоматически сканируются домены: su, ru, am, az, by, ge, kg, kz, md, ua, uz.

Яndex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. В настоящее время Яndex содержит сведения о более чем 155 тысячах серверов. База данных машины содержит информацию о 23 млн. документах общим объемом 257 МГб. В поисковую машину Яndex вносятся только русскоязычные сайты. Для увеличения скорости поиска информации Яndex предоставляет возможность поиска по 17 категориям: культура/искусство; наука/образование; деловой мир; предприятия; СМИ; домашний очаг; интернет; государство; вокруг света; работа и заработок; торговля; компьютеры; отдых; спорт; справки; юмор; непознанное. Поисковая машина предоставляет разнообразные сервисы, которые позволяют пользователю делать персональные настройки (создавать свой сайт, свой почтовый ящик и т.д. и т.п.). Чтобы получить возможность работы с персональными настройками, необходимо зарегистрироваться. Яndex не требует от пользователя знания специальных команд для поиска. Достаточно набрать вопрос (например: «где продать зерно пшеница»). Независимо от того, в какой форме употребляется слово в запросе, поиск учитывает все его формы по правилам русского языка. После того, как задан запрос, Яndex выведет список ссылок на документы, наиболее точно ему соответствующие. Яndex обладает развитым языком запросов, позволяющим осуществлять «тонкий» поиск. Для того чтобы воспользоваться широким спектром возможностей, необходимо использовать страницу «расширенный поиск». Яndex предлагает пользователям новую услугу — почтовую подписку на поисковый запрос. Эта услуга позволяет узнать, когда в Сети появляется новая информация на интересующую вас тему? Еще одна услуга Яndex: поиск в категории. Поиск в категории — по сути, комбинация поисковой системы и каталога. В обычном каталоге поиск в разделе идет по описаниям ресурсов, составленными авторами. Яndex предлагает поиск по содержанию страниц, относящихся к тому или иному разделу. При поиске для каждого найденного документа Яndex вычисляет величину релевантности содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.

Google работает с 1997 года и сейчас считается крупнейшей международной поисковой системой в Интернете. Существует и русская версия. По популярности, влиятельности и техническим возможностям ему нет равных. По заявлению Google в русской версии на данный момент (апрель 2005 года) их база данных насчитывает 3 083 324 652 проиндексированных страниц.

Поисковый «паук” Google ведет поиск не только в WWW-сети, но и в архивах групп новостей Usenet, существующим с 1981 года, то есть с тех пор, когда Web еще не было на свете. Сейчас эти архивы содержат 700 млн. сообщений, рассортированных по 35 тысячам категорий. Google также может найти по запросу изображения, файлы форматов Microsoft Office и PDF расположенных в сети Интернет.

Google использует базу данных и алгоритмы поиска международной поисковой сети Yahoo!, причем его основное отличие от других поисковых систем заключается в том, что Google более строго относится к соответствию выдаваемых ссылок на страницы со словами в форме запроса. Поисковая система имеет возможность вести поиск web-страниц на 26 различных языках.

Для облегчения процесса поиска в поисковой системе используется так называемый «интеллектуальный агент», конкретизирующий область поиска и присваивающий сайтам рейтинг по критерию «важность». Этот метод получил название PageRank. PageRank — уникальный метод, так как был создан специально для поисковый системы Google. Суть данной технологии такова: когда учтены все факторы обуславливающие релевантность и частоту цитируемости, Google использует PageRank, чтобы откорректировать результаты так, что более «важные” сайты поднимутся соответственно вверх на странице результатов поиска пользователя. То есть, порядок ранжирования в Google работает следующим образом:

  1. Найти все страницы, соответствующие ключевым словам поиска.
  2. Отранжировать соответственно «страничным факторам”, таким, как ключевые слова.
  3. Учесть текст ссылок на страницы.
  4. Откорректировать результаты данными PageRank.

PageRank, используемая в Google, в основном основана на link popularity («популярность ссылки”). Т.е. при вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц. Сейчас link popularity используется во всех основных поисковых системах мира (в той или иной степени). Кстати, в некоторых русскоязычных поисковых системах также используется этот параметр, например, в Яndex, этот параметр называется индекс цитирования.

Очень удобной функцией Google является «cache» . Благодаря этой функцией пользователь может просмотреть проиндексированную страницу даже если эта страница удалена или сервер, на котором расположена страница недоступен. Вы также можете использовать эту функцию для исследования ваших конкурентов, это также помогает лучше понять принцип индексирования страницы поисковым пауком (роботом).

С помощью Google можно найти страницы, которые не содержатся в его базе данных. Это возможно потому, что поисковый паук индексирует текст ссылок со страниц. Данная функция также обуславливает растущую популярность данной поисковой системы. По сообщению КомпьюЛенты от 11 апреля 2002 года «Самым популярным поисковиком февраля стал Yahoo!, Google на третьем месте. Первое место в списке занял портал Yahoo!, поисковыми функциями которого воспользовалось 32 млн. человек. На втором месте оказался еще один портал MSN, который посетило 32 млн. «искателей». И, наконец, на третьем месте находится Google — самая популярная из поисковых систем, не отягощенных портальными «наворотами»”.

Поисковая система Апорт, являющаяся в настоящее время частью информационно-развлекательного портала РОЛ (http://www.rol.ru), относится к числу ведущих поисковых систем российского Интернета. Как и любая другая поисковая система, она имеет свои особенности, как чисто технические, интересные в первую очередь профессионалам в области информационного поиска, так и те, которые существенны для обычных пользователей.

Одним из существенных преимуществ Апорта является англо-русский и русско-английский on-line перевод запросов и поисков результата, благодаря чему можно исследовать «русский интернет» не зная ни слова по-русски. Более того, благодаря ряду уникальных особенностей системы, можно проводить поиск, используя контекстные выражения даже для предложений.

Поисковая система Апорт (www.aport.ru) по серверам России и странам СНГ содержит миллионы документов с более чем 15000 сайтов. Система имеет развитый язык запросов и гибкую форму вывода результатов. Основные свойства поисковой системы Апорт:

  • перевод запроса и результатов поиска с русского на английский и наоборот;
  • автоматическая проверка орфографических ошибок запроса;
  • более информативный вывод результатов поиска для найденных сайтов (выводится не только первое предложение найденного документа);
  • возможность поиска в любой грамматической форме (что особенно важно для русского языка);
  • мощный язык расширенных запросов для профессиональных пользователей;
  • поддержка пяти основных кодовых страниц (разных операционных систем) для русского языка;
  • технология поиска с использованием ограничений по URL (адресу) и дате документов;
  • поиск ведется не только по тексту, но и по заголовкам, комментариям и подписям к картинкам и т.д.;
  • сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
  • объединение копий документа, находящихся на разных серверах.

Типы поисковых запросов

Ключевики различаются по типу, частотности и характеристикам (сезонные, геозависимые и другие). Рассмотрим основные виды:

  1. Информационный запрос. Пользователь хочет найти ответ, информацию в интернете по конкретной тематике. Он просматривает в поисковой выдаче сайты, сниппеты которых соответствует его вопросу. Однако излишне информативный контент в описании может и не принести желанного перехода на сайт. Человек и так уже получил ответ, просмотрев выдачу. Примеры: «что такое аккредитация?», «как приготовить торт?», «советы по дому» и другие варианты предложений в вопросительной форме или предполагающие получение информации.
  2. Навигационный запрос. С помощью таких слов и фраз ищут определенный сайт, сервис, адрес компании, название бренда и другое. В таких ключевиках допускается масса ошибок. Примеры: «сайты фриланса», «официальный портал РЖД», «Библиотека электронных книг» и другие варианты.
  3. Коммерческие и транзакционные запросы. В первом случае пользователь проявляет желание купить товар или заказать услугу, во втором – совершить какое-либо действие (транзакцию). Важно понимать, что коммерческий запрос всегда имеет характеристики целевого действия, а вот транзакционный может и не приводить к продажам. Примеры слов-транзакций: «скачать», «посмотреть», «характеристики», «цена». Коммерческие ключевики содержат фразы «заказать», «стоимость», «скидки» и ряд других.
  4. Общий запрос. Это смешанные типы ключевых фраз, поэтому по ним трудно установить конкретное желание пользователя. ПС по ним выдают примерно одинаковое количество информационных и коммерческих ресурсов. Примеры: «фотоаппарат Canon» (информация, цена, характеристики), «Тургенев» (писатель, сервис, произведения).

Также поисковые запросы имеют ряд характеристик:

мультимедийность – слова связаны с мультимедийным контентом (смотреть видео, скачать музыку, фото).

Геозависимость (региональные) – запросы привязаны к конкретному региону, стране, району и другому географическому месту. Например, «заказать торты в Москве», «Бассейны в Ростове», «сайт главы города».

Сезонность и событийность – запрос имеет ярко выраженные всплески активности и спады в определенные времена года, месяцы, даты. Такие варианты «Купить зимние сапоги», «подарки к 8 марта», «рассада».

Конкурентность – относительный параметр, который позволяет приблизительно определить бюджет продвижения запроса в ТОП 3 или ТОП 10. Различают высококонкурентные фразы, которые требуют серьезных финансовых вложений, а также средне и низкоконкурентные ключевики с небольшими денежными и временными затратами на выход в ТОП.

Витальность – такой запрос отличается от других тем, что на него имеется один или более официальных ответов. Это в 99% случаев навигационный высокочастотный ключевик. Например, «продукция Найк».

Частотность поисковых запросов

Эта чисто количественная характеристика, которая отображает предварительный прогноз показов ключевика в той или иной форме в поисковой выдаче. Данные для прогнозирования берутся из статистики ПС за прошедший период. Таким образом, запрос может быть:

  1. Низкочастотный (НЧ) – ключевик состоит из 3-х и более слов. По-другому его называют запрос с длинным «уточняющим» хвостом.
  2. Среднечастотный (СЧ) – ключевик состоит максимум из трех слов, расширяющих основной запрос.
  3. Высокочастотный (ВЧ) – самые популярные и конкурентные слова в нише, поэтому их перечень ограничен, а продвижение по ним требует серьезных финансовых вложений.

В зависимости от тематики частотность варьируется. Если в конкурентной нише НЧ – ключевики от 3 тысяч показов в месяц, то в бизнесе с небольшим спросом такие показатели отвечают характеристикам ВЧ.

Способы подбора ключевиков

Основной метод заключается в сборе поисковых фраз с помощью специальных сервисов поисковых систем. В Яндексе – это Wordstat.Yandex, в Гугле -Google AdWords. Также существует сторонние платформы, которые собирают и анализируют с помощью своих алгоритмов данные статистики. Подбирать слова можно вручную и посредством специальных программ или онлайн-сервисов.

Резюме

Мы изучили, что такое запрос. Узнали, как классифицируют ключевики в зависимости от их типа и характеристик. Также познакомились с основными способами сбора фраз для семантики сайта.

Поисковые системы и каталоги ресурсов Интернет

  • Что такое поисковые системы, и для чего они нужны
  • Поиск по ключевым словам. Язык запросов поисковой системы
  • Типы поисковых систем. Какой поисковой системой воспользоваться
  • Описание языка запросов наиболее популярных поисковых систем (сравнительная таблица)

Что такое поисковые системы, и для чего они нужны

В глобальной сети Интернет можно найти информацию по любой интересующей теме. Но самое трудное в работе с сетью Интернет — найти нужную информацию. Т. к. Интернет не имеет четкой централизованной структуры, развивается хаотично, и в мире появляются все новые и новые серверы, вопросы поиска информации становятся очень актуальными.

Поисковые системы значительно облегчают работу в Интернет и помогают нам быстро найти нужную информацию в огромном массиве серверов Интернет (WWW, FTp, Usenet и др. ресурсах Интернет). Во всемирной паутине Intenet находится несколько тысяч поисковых систем, среди которых есть как уже хорошо зарекомендовавшие себя, так и менее известные. Из наиболее известных поисковых машин можно назвать среди российских: Яндекс, Rambler и др.; среди зарубежных: bing, Google, Yahoo! и др.

Каждая из поисковых систем имеет какие-то свои достоинства и недостатки, которые определяются принципом работы поисковой машины, удобством использования, ее оформлением, сложностью языка запросов, наличием различных расширенных функций (управление форматом и ранжированием выводимой информации, исправление орфографических ошибок и ошибочной раскладки клавиатуры при вводе ключевых слов, перевод страницы на др. языки т. д.), скоростью работы, и др. параметрами. Выбор поисковой системы для конкретного применения определяется целью поиска, характером искомой информации, желаемым форматом выводимых данных и шириной охвата отслеживаемых адресов серверов в мире Интернет.

Наиболее популярные поисковые системы

  • Яндекс (Компания «Яндекс») — средство полнотекстового поиска информации с учетом морфологии русского языка; поиск по сайтам, своему каталогу, новостям, товарам, географическим картам, словарям, блогам, картинкам, документам Microsoft Office и Adobe Acrobat PDF
    • Яндекс: Расширенный поиск
    • Яндекс — краткий вариант страницы поиска
    • Все сервисы Яндекса
  • Rambler (ОАО «Рамблер Интернет Холдинг») — поиск по сайтам с учетом морфологии русского и английского языков; имеет и каталоговую систему поиска.
    • Rambler Lite: поисковая система — краткий вариант страницы поиска
    • Все проекты Рамблера
  • NIGMA — интеллектуальная поисковая система (МГУ им. М. В. Ломоносова и Stanford University) — поиск документов, картинок, книг, новостей через Google, Yahoo, MSN, Yandex, Rambler, Altavista, Апорт; также система предоставляет уникальный поиск по химическим формулам и реакциям
  • Google — поиск по сайтам (есть возможность поиска по русскоязычным сайтам); поиск документов в форматах Adobe Acrobat PDF, Microsoft Office, postScript, Corel Wordperfect, Lotus 1-2-3 и др.; поиск картинок, видео, новостей, поиск по картам; возможность поиска по русскоязычным и российским сайтам; есть система перевода текста на др. языки (49 языков)
    • Google Расширенный поиск
    • Все Продукты Google
  • bing (Microsoft Corp.) — поиск по сайтам, изображений и видео; возможность поиска по русскоязычным и российским сайтам; есть система перевода текста на др. языки (22 языка)
  • Yahoo! (Yahoo) — поиск по сайтам, адресам E-mail и др.

Список наиболее популярных поисковых серверов в России и СНГ в порядке убывания количества поисковых запросов по статистике SEO-AUDITOR на конец 2018г. выглядит следующим образом:

  1. Google — 53,52 %,
  2. Яндекс — 42,77 %,
  3. Mail.Ru — 2,25 %,
  4. Bing — 0,5 %,
  5. Rambler — 0,35 %,
  6. Yahoo! — 0,17 %

За пределами России рейтинг поисковых систем также возглавляет Google, далее следуют bing и Yahoo!.

Поиск по ключевым словам. Язык запросов поисковой системы

Поисковая система обычно имеет поле для ввода ключевых слов, по которым она находит документы, содержащие эти ключевые слова. Чем лучше (качественнее) составлен запрос к поисковой машине, тем меньше общее количество найденных документов, и больше из них документов, соответствующих тому, что Вам требуется. Если запрос очень простой или составлен неграмотно, то поисковая машина может Вам выдать несколько миллионов документов, которые Вам не просмотреть за всю жизнь.

Используя язык запроса, содержащий логические операции (логические операторы AND, OR, NOT, скобки и др.), префиксы обязательности присутствия ключевых слов в документе «+» и «-» (при поиске по узкоспециализированным терминам — предпочтительней использовать), расположения ключевых слов в документе рядом или на определенном расстоянии и т. д.) и др. элементы, и большее количество связанных ими ключевых слов, можно значительно сузить область поиска и более качественно составить запрос к поисковому серверу. Следует учитывать, что разные поисковые системы могут иметь как различающиеся языки запросов, так и очень похожие.

На сайтах поисковых систем обычно есть ссылки на справочную информацию по использованию поисковых сервисов, языков запросов, рекомендации по поиску и т. д.

Некоторые поисковые системы дополнительно имеют функцию расширенного поиска, позволяющую пользователю более точно описать то, что ему конкретно нужно и без знания языка запроса. Функцию расширенного поиска имеют, например, поисковые системы Яндекс и Google.

Описание языка запросов наиболее популярных поисковых систем (сравнительная таблица) дано внизу этой страницы.

Типы поисковых систем. Какой поисковой системой воспользоваться

Существует 2 основных типа поисковых систем Интернет: индексные и классификационные (каталоговые). Индексные поисковые системы (например, Яндекс, Google, Rambler и др.), работая в автоматическом режиме обновления своей информации, просматривают в Интернет содержимое серверов, индексируя информацию, содержащуюся в них и внося информацию о расположении слов на страницах сайтов в свои базы данных. Каталоговые системы поиска (например, Rambler, Yahoo! и др.) содержат тематически структурированный каталог серверов, и чаще всего пополняются вручную. Обычно на WWW-странице классификационной поисковой системы содержится и поле для ввода ключевых слов для поиска в собственной базе данных. В каталоговой системе поиска можно, начав с более крупной тематической рубрики, и постепенно спускаясь дальше по рубрикам, прийти к ссылке на нужный Вам сайт. В одних случаях бывает удобней воспользоваться первым типом поисковых систем, в других — вторым. Есть поисковые системы, сочетающие в себе оба принципа работы. В частности, большинство индексных поисковых систем имеют и каталоговую систему поиска. Также поисковые машины могут использовать и какие-то другие принципы методы поиска.

Многие поисковые системы преобразовались в Интернет-порталы, объединяющие в себе большое количество ресурсов и сервисов. На страницах таких порталов можно прочитать новости, ознакомиться с программой телепередач, узнать о погоде, курсах валют, воспользоваться картографическим сервисом и мн. др.

Для поиска по российским ресурсам Интернет рекомендуется пользоваться российскими поисковыми системами (например, Яндекс), ввиду наличия русскоязычного интерфейса, возможности поиска по русским словам, учета особенностей русского языка, близости расположения сервера и т. д. Для поиска по зарубежным ресурсам можно воспользоваться многоязычными поисковыми машинами, имеющими в т. ч. и русскоязычный пользовательский интерфейс, а также возможность перевода найденных страниц на русский язык (например, Google).

Для поиска одновременно в нескольких поисковых системах можно воспользоваться так называемыми поисковыми метамашинами, обращающимися сразу к нескольким поисковым средствам, например, MetaCrawler.
Как известно, поисковых систем в Интернете много и найти нужную информацию крайне непросто. Отсутствие единого стандарта на спецификацию задачи поиска в Сети приводит к тому, что на каждом узле предлагается собственный способ решения поставленной задачи. В результате пользователь, не искушенный в премудростях синтаксических конструкций запросов к поисковой системе, либо не полностью использует возможности поисковика, либо, изучив функции конкретной системы, постоянно обращается лишь к одной.
Мета-поисковая система имеет единый язык запросов, иногда даже возможность перевода ключевых слов на др. языки. Такие поисковые системы, получая результаты запросов от др. поисковых систем, фильтруют полученные материалы, убирая дублирующиеся ссылки, и сортируют их по релевантности (степени нужности). Для поиска зарубежных ресурсов можно пользоваться российскими поисковыми метамашинами, обращающимися к другим поисковым средствам (в том числе зарубежным). Это удобно, ввиду наличия русскоязычного интерфейса, возможности поиска по русским словам, учета особенностей русского языка, близости расположения сервера, имеющего в большинстве случаев доступ к скоростному каналу за рубеж и т. д. Для этого и существуют поисковые метамашины. Но в последнее время качество поиска наиболее популярных поисковиков Яндекс и Google существенно улучшилось, и надобность в метапоисковых машинах отпадает, и они проигрывают в конкуренции с популярными поисковиками, вследствие чего почти все метапоисковики прекратили свое существование.

Существуют также поисковые системы, специализирующиеся по поиску по одной какой-либо теме (например, по информационным технологиям, по музыке, по ресурсам, посвященные природе и т. д.)

Можно также найти нужный Вам WWW-сервер в так называемых «Желтых страницах Интернет» (Yellow pages), выпускаемых в печатном виде или размещаемых в сети Интернет (Yellowpages.com, Желтые страницы интернет и мн. др.) В «Желтых страницах» ссылки на WWW-сервера располагаются по рубрикам. Каждому серверу дается краткое описание и иногда небольшой снимок первой страницы.

Также, собираясь посетить какой-то зарубежный сервер (например, официальный WWW-сервер какой-либо зарубежной фирмы), можно учитывать и такие возможные варианты, как наличие зеркальных серверов на территории России (копии зарубежного сайта) или наличие официального российского сайта зарубежной компании (на русском языке), наряду со своим главным официальным сайтом (например, официальный российский сайт компании Intel Corporation — http://www.intel.ru). Конечно же, лучше воспользоваться именно этими вариантами.

При выборе системы поиска не нужно следовать своим устоявшимся привычкам, использовать при любом поиске, например, только одну систему Яндекс. В разных случаях бывает лучше использовать разные системы поиска, используя для лучшей организации поиска какие-то особенности и расширенные возможности различных поисковых систем.

Описание языка запросов наиболее популярных поисковых систем (сравнительная таблица)

\ Яндекс Rambler Google
Ссылки на описания языков поисковых запросов Яндекс.Помощь: Поиск Рамблер-Помощь Cправка — Веб-поиск
Логические операторы & — И в пределах предложения,
&& — И в пределах документа,
| — ИЛИ,
~ — И-НЕ в пределах предложения,
~~ — И-НЕ в пределах документа,
( и ) — скобки
AND или & — И,
OR или | — ИЛИ,
NOT или ! — НЕ,
( и ) — скобки
OR — ИЛИ
AND — И
( и ) — скобки
Префиксы обязательности + и — Нет + и —
Учет расстояний между словами «Фразы в кавычках»,
Слово1 /N Слово2 — расстояние между словами не больше N слов,
Слово1 /(-N M) Слово2 — расстояние между словами от -N слов слева и M слов справа,
Слово1 &&/(-N M) Слово2 — расстояние между словами от -N предложений слева и M предложений справа
«Фразы в кавычках»,
(N, Слово1 Слово2 …) — расстояние между словами не более N слов
(В противном случае расстояние не более 40 слов между словами запроса;
без кавычек и скобок предлоги, частицы и артикли игнорируются)
«Фразы в кавычках»,
AROUND(X) — 2 слова или 2 фразы на расстоянии X слов друг от друга
Учет морфологии языка (словоформы) На основе правил,
!Слово — указание точной словоформы
Словарный Да
Учет регистра слов Нет, кроме Слов с большой буквы Нет, кроме Слов С Большой Буквы, следующих подряд Нет
Расширенные операторы $title $anchor
#keywords #abstract #image #hint #url #link
*
Нет allintitle: allintitle: allintext: allinurl: cashe: define: filetype: inanchor: info: intext: inurl: intitle: link: related: site: stocks:
admission site:
Language: Date: Occurrences: Domains: SafeSearch:
* $ €
Уточнение поиска Есть Есть Нет
Расширенный поиск Словарный фильтр, Дата, Сайт/вершина, Ссылка, Изображение, Специальные объекты, Язык, Формат выдачи Поиск по тексту, Искать слова запроса, Расстояние между словами запроса, Исключить документы содержащие следующие слова, Язык документа, Искать документы только на следующих сайтах, Вывод результатов поиска, Сортировать, Выдавать, Форма вывода, Связанные запросы Найти результаты (со всеми словами, с точной фразой, с любым из слов, без слов), Язык, Формат файла, Дата, Упоминание, Домен, Поиск по странице (Похожие, Ссылки)
Объекты поиска Сайты, Каталог, Новости, Маркет, Карты, Словари, Блоги, Картинки, RTF, DOC, XLS, PDF и т. д. Сайты, FTp, Новости, Картинки, Видео, Товары, Вакансии, Топ100, Словари и т. д. Сайты, Картинки, Карты, Новости, Группы, PDF и т. д.
Ограничения Длина запроса не более 32 слов
Дополнительные возможности поиска Исправление орфографических ошибок и ошибочной раскладки клавиатуры, Автоподстановка ключевых слов, Виртуальная клавиатура, Перевод страницы, Преобразование единиц измерения, Конвертация валют и др. Автоподстановка ключевых слов, Виртуальная клавиатура, Калькулятор, Орфография, Транслитератор и т. д. Исправление орфографических ошибок и ошибочной раскладки клавиатуры, Автоподстановка ключевых слов, Перевод страницы, Похожие страницы, Калькулятор, Преобразование единиц измерения (in), Конвертация валют, Поиск по картам (map:) и т. д.
movie: source: stocks: weather:

Alla Rud 24.04.2017 7 3173 на прочтение 4 минут

Вы уже слышали о специализированных поисковых системах Hackr.io, Geovisual Search, Scirus и Audiosear.ch? Если нет, то данный материал станет для Вас полезным. Возможно, именно один из этих поисковиков облегчит Вашу работу в Интернет. Что это за узконаправленные поисковые системы и для чего они предназначены? Я разыскала самую интересную информацию по этой теме.

Специализированный поисковик Scirus предназначен для поиска научной и околонаучной информации. Система использует 200 млн. страниц, которые посвящены научной тематики. Результаты ненаучного содержания отфильтровываются. Стартовая страница поисковика простая и невзрачная. Пользователь вводит свой запрос в строку поиска и выберет разделы, где поисковик будет искать информацию. Доступны разные опции «в прессе», «в предпочтительных источниках» и «в других источниках» (Journal Sources, Preferred Web Sources, Other Web Sources). Для того, чтобы установить расширенный поиск, необходимо подключить функцию индивидуальных настроек. Такой поиск научной информации станет еще более точным для конкретного пользователя. При выводе результатов поиска справа отображается предложение «Уточнить Ваш поиск, используя эти ключевые слова, найденные в результатах». Это довольно хорошая подсказка, куда можно заглянуть при перефразировании и уточнении запроса, если это необходимо. Эту поисковую систему по праву считают довольно успешной, так как она лучшая в своем роде и отлично справляется с задачами по поиску научной информации.

Есть возможность установить браузерную панель Scirus. Это позволяет искать в Scirus’е прямо из браузера, а также быстро перемещаться между результатам поиска по разным запросам, подсвечивать на найденных страницах слова из запросов. Пользователь также может предложить внести определенный научный сайт в базу поиска системы всего лишь с помощью клика.

Поисковая система Hackr.io разработана специально для веб-мастеров и довольно новая в этой сфере. Она призвана помочь программистам искать онлайн курсы и учебники по написанию кода на любом языке программирования. Данную информацию можно искать и в обычном поисковике, но система Hackr ориентирована на программистов, что делает ее выдачу наиболее качественной и полезной для пользователей. Например, уроки в выдаче сортируются по количеству голосов пользователей. Уроки, которые имеют наиболее большое количество этих же голосов, находятся в топ выдачи. Кроме того любой зарегистрированный пользователь может добавлять свои элементы в базу знаний. Тем самым разработчики рассчитывают на то, что поисковая система будет продолжать жить и наполняться новой полезной информацией для других.

Бесплатный и очень полезный онлайн сервис Audiosear.ch создан для поиска подкастов, радио-шоу и тому подобного. Дает возможность запускать полнотекстовый поиск тех материалов, которые были проиндексированы ранее. Система полностью автоматически переводит речь в текст и делает индексацию текстового контента. В поиске встречаются ошибки, так как не всегда корректно звук переводится в текст, но в целов поисковик работает довольно удачно и правильно. Пользователям не нужно долго искать информацию по описанию и возможным тегам в обычной поисковой системе, с помощью Audiosear.ch этот процес стал намного проще и быстрее.

Geovisual Search — еще одна молодая поисковая система. Разработана компанией Descartes Labs, которая занимается оценкой состояния сельскохозяйственных культур и других экономических показателей с помощью спутниковых изображений. Визуальная поисковая система дает возможность пользователям находить похожие объекты на картах мира, которые сделаны спутниками. Система абсолютно бесплатна и доступна всем желающим. Нажмите на объект, который похож на электростанцию, и система найдет другие объекты, которые расположены на карте и похожи между собой.

Также по данной теме статья на блоге «Популярные поисковые системы мира».

Надеюсь, что данная информация стала для Вас полезной и Вы обязательно воспользуетесь данными поисковиками!