Глобальные поисковые системы относятся к. Сетевые технологии обработки информации. Глобальные поисковые системы

Интернет (Internet ) – это глобальная компьютерная сеть, а точнее – объединение различных сетей, взаимосвязанных по специальным правилам обмена электронной информацией или протоколам TSP/IP (Transmission Control Protocol / Internet Protocol). Обмен осуществляется по схеме «клиент-сервер». На компьютере пользователя работает программа–клиент, которая обращается за услугой к обслуживающему его компьютеру–серверу, используя собственный язык – протокол. Пользователь же общается с клиентом на обычном, человеческом языке (английском, русском и т.д.).

Насколько важна персонализация результатов поиска для запуска хорошей поисковой системы? По нашей оценке, персонализация даже вредна. Мы представляем другую философию, а именно с открытым исходным кодом. Каждый может прочитать то, что мы запрограммировали.

Каковы результаты ваших поисков, если вы не персонализируете? Так как мне нужно будет изучить исходный код. Однако рейтинг для мета поисковой системы не может быть выполнен в соответствии с таким количеством критериев, как поисковая система. Мы видим результат, заголовок, веб-адрес, а также краткое описание с соответствующим ударом. И мы знаем, где результат был в поисковой системе. Это четыре ключевых фигуры, и из этого мы можем что-то смешать. Например, если в описании и заголовке появляется слово поиска и указано в начале поисковой системы, то это кажется чем-то важным.

Прообраз сети Интернет был создан в конце 1960-х гг. по заказу Министерства обороны США. В то время существовало не очень много мощных компьютеров, и для проведения научных исследований возникла потребность обеспечить доступ многочисленных ученых к этим компьютерам. Днем рождения Интернета можно назвать 2 января 1969 г. В этот день Управление перспективными исследованиями, являющееся одним из подразделений Министерства обороны США, начало работу над проектом связи компьютеров оборонных организаций. В результате исследований была создана сети ARPANET, в основе функционирования которой лежали принципы, на которых позже был построен Интернет.

Это факторы, которые влияют на нас. Но это также меняется с нами почти ежедневно. Что делают ваши 20 собственных сканеров? Наши собственные гусеницы сосредоточены на областях немецкоязычных страниц. Даже немецкий Интернет по-прежнему слишком большой для нас. Мы объединяемся с более чем 200 членами, у нас в офисе восемь сотрудников, некоторые из них работают неполный рабочий день. Сканеры - это языческая стоимость.

Какие части немецкого Интернета работают на своих сканерах и почему вы их выбрали? Мы пришли из университета, поэтому академический контент является для нас фокусом. Незадолго до выборов в Бундестаг мы поместили искателя в политическую среду. Мы решаем это на собрании, которое является авторитетным, что мы можем предположить. За ним лежит целая серия Твиттеров, чьи сообщения мы фиксируем и обнаруживаем по индексу. Это означает, что в первую очередь вам нужен разумный индекс, чтобы затем предложить значимую поисковую систему?

В России бурный рост числа пользователей Интернета начался примерно в 1996 г. Сегодня это наш повседневный инструмент. Сеть непрерывно развивается, к ней подключается большее количество пользователей, появляются новые серверы, а прежние на глазах становятся «толще», провайдеры бесплатно предлагают мегабайты дискового пространство для персональных страниц своих клиентов. Причем такой рост характеризуется положительной обратной связью – с увеличением интересных и полезных ресурсов Сети становится целесообразнее к ней подключаться. И чем шире становится аудитория Интернет, тем больше пользователей и компаний хотят там работать. Стало понятно, что своевременное получение информации способно приносить авторитет, деньги и стабильное положение ее потребителям. Поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

В настоящее время только 4 поисковых системы находятся в глобальном масштабе. В Европе такого индекса пока нет. В течение двух или трех лет мы пытаемся создать политическую чувствительность к тому, что в европейской цифровой экономике этого не бывает, но все компании зависят от наличия такого индекса.

Нам не нужна европейская поисковая система. Нам нужна инфраструктура данных, наши собственные сканеры и индексы. Тогда это могло бы создать европейскую поисковую систему, но также и совершенно разные интернет-сервисы, такие как автосервисы, порталы сравнения и веб-аналитика.

Про Интернет наиболее широко известны два утверждения: первое – что там есть «почти все», второе – что что-либо конкретное из этого всего найти «почти невозможно». Проблема эта непроста, поскольку ни один из существующих способов поиска информации не исчерпывает ее полностью. Недаром специалисты сравнивают эту Сеть с библиотекой без картотеки. Правда, существует немало различных поисковых средств и систем, которые, в принципе, позволяют найти какую-то часть необходимого материала, не обладая особыми навыками работы. Один из возможных вариантов – это поиск по известному адресу. Так бывает, когда вы знаете, что на таком-то сервере находится такая-то информация. Однако это довольно редкий случай. Гораздо чаще приходится просто наудачу проходить от адреса к адресу, от сервера к серверу. Это отнимает много времени.

Ресурсы не обязательно являются проблемой. Семь лет назад был европейский проект. Около 240 миллионов евро были сожжены. Это примерно такая сумма, с которой приходится считаться, когда нужно собирать европейский индекс. Нам нужен был рекламный партнер для финансирования нас. Это неприемлемо для нас. Это роковое и еще одна причина, по которой в Европе должен быть открытый европейский индекс в Европе, согласно европейским стандартам защиты данных.

Тогда любой, кто его использует, будь то компания, пользователь или программист, должен будет подписать то, что он принимает и уважает правила защиты данных. Документальная демократия. В опьянении данных Дэвида Бернета показано, насколько сложным является путь к такому европейскому стандарту защиты данных.

Интернет в гипертекстовом варианте представляет собой гигантскую систему перекрестных ссылок. Это приводит к некоторым довольно интересным последствиям, которые подстерегают в особенности малоопытных путешественников по сети. Стартуя и имея перед собой какую-то более или менее конкретную цель, «порхая» по Wold Wide Web – серверам, об этой цели можно забыть через несколько минут, а иногда не вспомнить даже по окончании работы.

То, что часто все еще приходит, - это последний раз Сигмар Габриэль: нам нужна европейская поисковая система. Но это не главное! Европейская поисковая система? Хорошо, тогда у нас было бы пять больших, а не четыре в мире. Нам нужна питательная среда, из которой могут развиваться интернет-стартапы, а также то, что может развиваться совершенно новым.

Проблема заключается в следующем: когда вы показываете рекламу в поисковых системах, она должна каким-то образом соответствовать поисковому запросу. То есть слова поиска и то, что отображается в виде рекламных объявлений, должно каким-то образом сочетаться. Рекламодатель должен иметь практически такой широкий ассортимент, как словарь немецкого языка.

Большинство пользователей, пришедших в Интернет за последние годы, отождествляют его со Всемирной Паутиной WWW. Однако, сегодня информация в Интернете оказывается доступной из источников разного типа.

Вот только краткий перечень информационных ресурсов Сети:

1. Электронная почта и почтовые роботы.

2. Глобальная система телеконференций Usenet, региональные и специализированные телеконференции.

Или вам придется заключать рекламные контракты с компаниями, которые являются тысячами людей, что невозможно для небольших компаний. Но почему у вас будет синяк такой хорошей поисковой системы? То, что нужно Европе, - это создать свою собственную инфраструктуру, европейский веб-индекс, который можно использовать для создания европейских веб-сервисов, включая поисковые системы.

Каждая поисковая система обеспечивает определенную оценку важности по порядку результатов поиска, которая включена в алгоритмы ранжирования. Вот почему должно быть как можно больше различных взглядов, чтобы цифровой мир не всегда просматривался через одни и те же очки.

4. Он-лайновые средства коммуникации пользователей (chat, ICQ, форумы и другие).

5. Системы поиска людей и организаций.

6. Базы данных Hytelnet.

7. Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата.

8. Базы данных Gopher.

9. Гипертекстовая информационная система World Wide Web (WWW).

10. Баннерные системы (в среде WWW).

Является ли это реалистичным, когда вы смотрите на поведение пользователя? Вы действительно хотите использовать только одну поисковую систему, а не десять? Операция должна быть почти идентичной. Это должно сделать его не публичным. Техника может быть столь же безопасной, как они хотят. Это бесполезно, если региональный закон отличается.

Лучше всего было бы иметь множество небольших сервисов, которые готовы запускать свои собственные небольшие сканеры, запускать собственные базы данных, иметь своих собственных индексаторов и объединять их в мета-поисковые системы в разных точках. Да, это будет версия распределенной европейской поисковой системы или инфраструктуры данных.

11. Активные информационные каналы (в среде WWW).

12. Каталоги ресурсов – глобальные, локальные, специализированные (в среде WWW).

13. Поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW).
На правильно сформулированный запрос в Интернете практически всегда можно получить ответ. Однако при этом нельзя забывать, что вы задаете вопрос не человеку, а машине, которая анализирует информацию в зависимости от заложенных в нее алгоритмов.

Это то, что видели многие читатели, которые написали мне. Напротив, мне не нужно возиться с рекламой и первыми тремя страницами страниц, чтобы найти действительно интересные ссылки. По моей рекомендации уже много друзей и друзей изменилось. Они также вкладывают свои деньги в проекты по облесению, что также облегчает изменение. Таким образом, берлинцы уже посадили более двенадцати миллионов деревьев. Страница, которую вы ищете, обычно является второй записью. Первая запись - это реклама, но всегда связана только с текущим запросом.

Рико Гримм помог развить текст. Вера Фрёлих возразила. Большое спасибо Йенсу, Кристофу, Роланду, Стефану, Лотару, Силке, К. Силке, Маркусу, Клаусу, Себастиану, Киллиан, Марио, Доротее, Даниэла и Тоби, которые поделились своим опытом с альтернативными поисковыми системами! Примечание.

Программы, обрабатывающие запросы, - это информационно-поисковые системы (ИПС). Существует 2 типа ИПС : словарные и классификационные.

1. Классификационные поисковые системы

Это, по сути, электронные аналоги библиотечных каталогов. Обычно они представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы.

Как работает Глобальный поиск?

Вы также можете добавить глобальный блок поиска на странице спа, чтобы искать оттуда. В правом верхнем углу имени пользователя появится значок поиска. . Документацию разработчика. Нажмите значок поиска рядом с вашим именем в правом верхнем углу пользовательского меню и введите поисковый запрос в текстовое поле. Или используйте поле поиска в глобальном блоке поиска, если оно доступно на странице курса. Например, «Перт Австралия» предоставляет результаты 5 «Австралия», для которых «Перт Австралия» более уместен.

Как настроен глобальный поиск

Для глобального поиска требуется поисковая система.

Главное отличие классификационных ИПС в том, что представленные в них данные формируются (комплектуются и рассортировываются) людьми, осуществляющими поддержку данного поискового сервера. Как правило, каталоги ресурсов составляются на основе экспертных оценок. В ряде случаев владельцам web-страниц представляется возможность зарегистрировать свой адрес на поисковом сайте, т.е. сообщить о себе операторам поддержки каталога. В дальнейшем эта информация анализируется.

Примечания по индексу памяти и файлам

Если вы хотите запрограммировать свою собственную поисковую систему, вы найдете подробную информацию в документации разработчика. Если вы хотите использовать эту функцию.

Ошибка: слишком много булевых выражений

В файле конфигурации вы найдете следующее важное замечание.

От одного до десяти миллиардов - какой шанс!

Больше не достаточно размещать веб-страницы с хорошим контентом и привлекательным дизайном в Интернете. Согласно исследованиям, менее трети искателей в Интернете готовы посмотреть более 30 результатов поиска в базе данных поиска! Только если вам удастся опуститься до 20 лучших наркоманов, у вас есть шанс быть воспринятым. - Вот почему вы найдете все трюки для оптимизации ваших страниц для поисковых систем.

Основным преимуществом такого средства навигации является четкое соответствие содержимого сайтов объявленной для того или иного раздела тематики (в отдельных случаях – с дополнительной сортировкой адресов в пределах рубрики по результатам экспертной оценки или по рейтингам посещаемости).

Недостатком же классификационных ИПС является сравнительно небольшой охват существующих ресурсов сети, поскольку отследить весь объем имеющейся в Интернете информации практически нереально даже для значительного коллектива персонала поддержки сервера. Поэтому я могу порекомендовать вам обращаться к каталогам ресурсов в случаях, когда необходимо быстро отыскать «типичную» информацию по требуемой теме (без необходимости отслеживать какие-либо ее нюансы).

Чтобы влиять на релевантность и, следовательно, на позицию списка страниц, вы должны сначала понять, как работают поисковые системы. В принципе, поисковые системы, такие как работа с нарушениями зрения. Поэтому очень полезно создавать эргономичные или даже удобные для пользователя страницы. В результате у вас есть самые большие шансы, что ваше присутствие в Интернете будет и будет по-прежнему популярным не только с поисковыми системами, но и с людьми.

После того, как паука поисковой системы находит вашу страницу, она передается в механизм индексирования для дальнейшей обработки. Этот механизм не только определяет, как ваша страница отображается в поисковом запросе для определенного слова поиска, но также и в каком месте она входит в список результатов.

Примеры классификационных ИПС в Интернете: Yahoo! (http :// www . yahoo . com ), LookSmart (http :// www . looksmart . com ), Galaxy (http :// galaxy . einet . net ) (рис. 16); среди российских разработок в этой области внимания заслуживают, Иван Сусанин (http://www.susanin.net ) (рис. 17), Weblist (http://Weblist.ru ) (рис. 18), Улитка (http://ulitka.ru ), Russia on the Ne t (http :// www . ru ) (рис. 19), Желтые страницы Internet (http://yp.piter.com/ ), Ау! (http :// www . au . ru ), List . Ru (http :// list . ru ) (рис. 20), Весь русский Internet (http://www.allrunet.ru/ ) (рис. 21) и др.

Страницы перечислены в списках результатов в соответствии с их релевантностью. При этом те страницы с предположительно высокой релевантностью оцениваются выше. Однако поисковые системы оценивают и оценивают ваши веб-страницы в соответствии со специальными - к сожалению, разными способами. Успех зависит от деталей! Правила поисковых систем для ранжирования постоянно меняются.

В основном, все поисковые системы индексируют вашу рекламную страницу в соответствии с частотой ключевых слов, а также их местоположение на текстовой странице, обе из которых тесно связаны. Таким образом, пять повторений лозунгов на небольшом расстоянии друг от друга в тексте в верхней части страницы дают значительно больший эффект, чем 100 в конце длинной страницы!

На классификационных ИПС кроме названия рубрик обычно имеется строка ПОИСК, позволяющая ввести ключевое слово. Тогда машина, обработав все иерархическое дерево, выдаст в ответ ссылки на соответствующие этому ключевому слову web-страницы.

Как можно проверить, заголовок отображается как подчеркнутая ссылка, а описание страницы показано ниже. - Не верьте никому, кто пишет в Интернете. У большинства есть свои причины продать вас за глупость. Вы также можете распечатать эту страницу в Интернете. Для этого нажмите «Печать страницы» в левом нижнем углу, затем нажмите «Печать».

При нажатии на печатную версию статьи можно открыть новое окно браузера. Ваш текущий остается на этом веб-сайте. Вы найдете его в строке экрана ниже - чуть дальше влево. Паал, Альберт-Людвигс-Университет Фрайбург, профессор Юстус Хаукап, Генрих-Гейне-университет Дюссельдорф и проф.

2. Словарные (автоматические) поисковые системы

В отличие от рассматриваемых выше, основой словарной (автоматической) ИПС является размещенная на поисковом сервере БД, содержащая в себе адреса сайтов, перечень соответствующих размещенным на них web-страницам ключевых слов, копий HTML-текстов этих страниц (в ряде ИПС), а также систему управления БД, действующую по технологии «клиент-сервер».

В марте Комиссия Бунд-Ландера по реформе регулирования СМИ начала свою работу. К числу вопросов Комиссии относятся возможное регулирование так называемых посредников, Поисковые системы и платформы: журналистско-редакционный контент должен иметь недискриминационный доступ ко всем соответствующим платформам. Немецкие медиа-компании подчиняются частично мелкомасштабному регулированию. С другой стороны, глобальные интернет-операторы с большой рыночной властью работают в основном неограниченно. Поисковые системы еще не регулируются и не подпадают под требования самообслуживания или прозрачности.

Посетителю такого поискового сервера предоставляется форма для ввода ключевого слова (слов) или фразы. После щелчка мышью на расположенной рядом с полем кнопке ПОИСК введенная пользователем ключевая фраза пересылается на сервер, обрабатывается, из имеющейся БД извлекаются адреса, соответствующие запросу, и список этих адресов (сгенерированный в виде HTML-документа, строки которого являются гипертекстовыми ссылками на сайты) пересылаются пользователю в качестве результата поиска.
Из всех типов ресурсов Сети подробно рассмотрим глобальные и российские словарные поисковые системы , правила составления запросов.

Всего известно более 200 поисковых серверов. Они различаются по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), языку, по объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию, дружественности интерфейса, методам сортировки найденных документов (ранжирование, чаще по релевантности и частоте обновления), точности поиска, лингвистике (слова синонимы).
Глобальные поисковые системы

Поисковые системы глобального масштаба распространены в большем количестве, нежели электронные справочники и число их, составляющее ныне несколько десятков, продолжает неуклонно увеличиваться. Работа с ними требует некоторых, порой весьма серьезных, предварительных навыков. Простой ввод искомого термина в строку запроса может привести к получению списка из сотен тысяч документов, что практически равносильно нулевому результату.

Все глобальные поисковые машины осуществляют поиск материалов на русском языке, но не поддерживают русскую морфологию. Этот факт необходимо учитывать при поиске информации.
Google (www.google.com ) (рис. 22)

Самая популярная среди пользователей и имеющая одну из самых больших баз проиндексированных документов поисковая система. Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (т.е. независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Кроме поиска по HTML документам Google в настоящее время осуществляет поиск еще по 12 типам документов:

Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Text (ans, txt)

Google позволяет пользователям просматривать сохраненные копии документов, содержащихся в его поисковой базе.

Наряду с поиском по документам Googl e имеет сервисы поиска по изображениям (images.google.com ), группам UseNet (groups.google.com ), новостям (news.google.com - бета-версия), а также каталог сайтов (directory.google.com ) на основе каталога Open Directory Project (dmoz.org ). Google осуществляет поиск по документам на более чем 35 языках, в том числе русском (русская локализация поисковика находится по адресу www.google.ru ). В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google , что делает задачу успешного позиционирования сайтов в Google еще более важной. Крупнейшие из них - каталог Yahoo (www.yahoo.com ) и портал AOL (www.aol.com ).

Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого апдейта, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего апдейта, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в броузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Несмотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Alta Vista ( http://www.altavista.com ) (рис. 23)

Принадлежит к числу популярнейших поисковых средств Интернет. Ее мощнейший аппаратный потенциал позволяет проводить поиск по любому слову из текста Web- страницы или статьи в телеконференции.

Используемый в Alta Vista механизм составления запросов относится к самым обширным и мощным. Он позволяет составить поисковое предписание практически любой степени сложности. Как и многие другие машины, Alta Vista обладает двумя поисковыми интерфейсами: простого -Simple, Search Assistant, и углубленного - Advanced поиска. Язык простого запроса включает несколько основных элементов. Знак "+" ставится перед термином, который обязательно должен быть в документе; знак "-" - перед термином, который ни в коем случае не должен быть в документе; знак "*", позволяет усекать термин справа, что очень важно для поиска слов в разных падежах, склонениях и числах. Крайне полезны кавычки, в которые можно брать устойчивое словосочетание. Следует иметь в виду, что знаки выставляются непосредственно перед искомым термином или словосочетанием без пробела.

Рис. 23
Помимо этого поисковый механизм чувствителен к употреблению заглавных и строчных букв. При использовании заглавных букв будут искаться только термины, начинающиеся или состоящие из заглавных букв, при вводе строчных символов, система выявит все существующие слова. Имеется также возможность ограничивать поиск отдельными фрагментами Web-страницы: заглавием (title), электронным адресом (url), доменом (domain). Так, запрос выявит Web-страницы, в заглавии которых присутствует слово с указанным корнем, независимо от грамматических форм.

Составление запроса при углубленном поиске принципиально отличается от "простого" и выполняется с использованием булевых операторов: AND (И), OR (ИЛИ), NОТ (НЕ), NЕАР (ВБЛИЗИ) и скобок. Эта форма запроса также позволяет ограничить поиск по дате последнего обновления документов. В данном случае запрос по теме "собрания СD-RОМ в массовых библиотеках" предполагает следующий вариант поискового предписания: [(public near librar*) and (СD-RОМ near collection*)].

Помимо текста в А lt а Vista также реализована функция поиска иллюстративных материалов, видео- и аудиофайлов (фотографий, графических и живописных работ, музыкальных записей и видеоклипов). Для этого необходимо перейти в режим поиска мультимедийных источников, щелкнув мышью по опции Images, Audio & Video. В поисковой строке вводятся ключевые слова, а в нижнем меню "фишкой" отмечается желаемый тип источника. Так, например, для поиска иллюстрации Московского Кремля в поисковую строку достаточно ввести слово Kremlin.

Система ранжирования результатов поиска А lt а Vista является одной из самых лучших. В "простом" поиске эта функция выполняется автоматически, в "углубленном" пользователь в первую строку формы запроса должен ввести термины, которым придается наибольший вес.

А lta Vista предоставляет пользователям большую степень комфорта. Допускается ввод поискового предписания в виде обычной английской фразы (например "What is the weather in Moscow?"). При выводе результатов предлагается воспользоваться системой компьютерного перевода полученного документа с основных европейских языков (к сожалению, русский пока не в их числе). При переводе содержания страницы сохраняется ее оригинальное форматирование.

А lta Vista имеет несколько зеркальных сайтов в разных концах света. Одним из достоинств "зеркал", является возможность выбора основного интерфейса на родном языке региона. В том числе можно выбрать и русскоязычный интерфейс на североевропейском "зеркале" (http://www.altavista.telia.com). Там же, при желании, можно вести поиск материалов только на определенном языке, выбрав его из специального меню.

Northern Light

(http://www.northernlight.com или http://www.nlsearch.com ) (рис. 24)

Появившись в числе лидеров сетевого поиска лишь в 1998 году, она быстро набрала популярность прежде всего за счет большого объема своей базы данных.

Рис. 24
Northern Light имеет интерфейсы для "простого" и углубленного (Рower) поиска, а также Business Search, Investext Search, Search News. Язык составления запросов практически полностью соответствует языку А lta Vista . Разница лишь в возможности применять булевые операторы (в данном случае только AND, ОR и NОТ) наряду со знаками "+", "-" и кавычками в любой форме запроса. Форма углубленного поиска отличается тем, что позволяет легко ограничивать разыскание документа отдельными элементами Web-страницы (название или адрес), датами ее создания или последнего обновления, видом информации (например, журналы или персональные страницы), организационной или географической принадлежностью сервера (коммерческие, образовательные, правительственные и т. д.), языком публикации, а также определенной отраслью знания. Все это легко делается с помощью системы меню, в которой можно отметить желаемые ограничения.

Отличительной чертой Northern Light является его коллекция публикаций, включающая полные тексты статей из многочисленных электронных периодических изданий. В ней система осуществляет поиск по умолчанию, выдавая ссылки в общем перечне результатов (справа от ссылки в этом случае указывается не "www", а "special collection"). Однако для обращения к полным текстам статей необходимо предварительно оформить подписку на эту услугу.

Northern Light работает очень быстро, имеет эффективную подсистему ранжирования результатов. Каждая добытая ссылка содержит указание на процентное соответствие данного документа запросу. Система также автоматически формирует специальные папки, которые выводятся на первой странице списка результатов в правой части экрана. В папках найденные документы рассортированы в зависимости от типа материалов, организационной и географической принадлежности серверов и т. д.

HotBot (http://www.hotbot.com ) (рис. 25)

К ряду самых мощных поисковых средств в Wold Wide Web относится HotBot . Он имеет принципиально иную идеологию составления поискового предписания, освобождающую пользователя от знания специальных правил составления запроса.

Углубленный поиск – Аdvanced Search, вызываемый нажатием одноименной клавиши на главной панели системы, дает поразительно широкие возможности для детализации поискового предписания. Это достигается за счет многоступенчатых меню, предлагающих пользователю последовательно уточнить свой запрос. Так, введя в главную поисковую строку термины, нужно выбрать команду, которая укажет системе искать ли документы, содержащие любое из введенных слов, обязательно все слова, точную фразу, персону, название страницы, ссылку на URL или же поисковое предписание, выполненное с использованием булевых операторов. Для большей детализации запроса возможно применение условий: SHOULD CONTAIN - "может содержать", MUST CONTAIN - "должен обязательно содержать", MUST NOT CONTAIN - "не должен содержать" по отношению к каким-либо дополнительным понятиям. Можно также ограничить и язык разыскиваемых документов. Их перечень пока включает девять наиболее распространенных европейских языков.

Рис. 25
Далее HotBot предоставляет возможность ограничить поиск по дате создания или последнего обновления документа, а также по географическому местоположению сервера. Примечательной возможностью является и поиск документов, содержащих в своей структуре определенные типы файлов, например иллюстрации, анимацию, аудио или видео. Для этого надо лишь сделать отметку в специальном пункте меню запроса.

Интеллектуальная система ранжирования результатов HotBot относится к числу самых лучших. Ссылка на документ содержит указание процента соответствия страницы запросу. HotBot умеет "сливать" в одну ссылку один и тот же документ, расположенный на различных зеркальных серверах. Функция "this site only" выделяет документы с одного сервера, что позволяет сразу выявить серверы более других насыщенные информацией на определенную тему.

Одним из недостатков HotBot является невозможность усечения окончаний ключевых терминов, однако недавно добавилась возможность расширять поиск за счет производных слов, в том числе и неправильных английских глаголов (например, на слово "think" будет найдено "thought" и т.д.).

Fast Search (http://www.alltheweb.com ) (рис. 26)

Данная поисковая система относится к числу открытий 1999 года. К настоящему времени ее индекс уже превышает 250 миллионов документов и рост числа проиндексированных страниц продолжается в столь же высоком темпе. Таким образом, Fast Search в настоящее время является безусловным лидером по числу проиндексированных документов Сети. Система принадлежит норвежской компании. Этим определяется та особенность, что в перечне полученных результатов американские сайты не занимают ярко выраженного доминирующего положения. Поскольку поисковый робот изначально "стартовал" с европейских сайтов, приоритет имеют именно документы с серверов Старого Света.

Рис. 26
Поисковый механизм предельно упрощен. Через Advanced Search можно ограничить поиск: ALL OF THE WORDS (ВСЕ СЛОВА), ANY OF THE WORDS (ЛЮБОЕ И3 СЛОВ), ТНЕ ЕХАСТ РНRАSЕ (ТОЧНАЯ ФРАЗА). Выбор любого пункта указывает системе критерий поиска. В первом случае будут найдены документы, в которых содержатся все введенные слова, во втором - любой из искомых терминов, в третьем - введенная фраза. Поисковый механизм не допускает усечения терминов.

Использование в качестве аппаратного обеспечения последних разработок корпорации Dе11: Dе11 РоwеrЕdge 4300 и Dе11 РоwеrVаult обеспечивает очень высокую скорость работы системы - запрос в большинстве случаев выполняется за доли секунд. Индексный файл Fast Search пока в наименьшей степени засорен сведениями об устаревших документах.

Глобальные поисковые системы старшего поколения постепенно уступают лидирующие позиции более "молодым" конкурентам, использующим принципиально иные технологии. Так, известные несколько лет назад InfoSeek , Ехс ite и Lycos уже давно не предлагали своим клиентам ничего принципиально нового. Их нынешний объем составляет соответственно 75, 55 и 50 миллионов документов, что заставляет все больше рассматривать их в качестве факультативного инструмента поиска.

Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. К таковым, в частности, относятся Су b е r 411 (http :// www . cyber 411. com ), Ме t аС r а wler (http :// www . metacrawler . com ), и некоторые другие.

Их главное достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например в Су b е r 411 , фактически одновременно обращается к десятку поисковых систем. Этим гарантируется "объективность" полученных результатов. Однако, учитывая уже упоминавшиеся различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Российские поисковые системы

Как уже говорилось, поисковые системы глобального масштаба свое основное внимание концентрируют, прежде всего, на североамериканских ресурсах. Задачу выявления информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России.

Все отечественные разработки объединяет несколько общих черт, ставящих их вне конкуренции при работе с русскоязычными источниками. Прежде всего, все они способны корректно обрабатывать материалы во всех кириллических кодировках. Исторически сложилось, что на русскоязычных серверах все источники представлены (продублированы) по крайней мере, в трех различных кодировках: Windows (СР1251), Кoi-8r (UNIX) и DOS.

Помимо корректной обработки кодировок, все российские машины сегодня уже способны выделять один и тот же документ в различных кодировках или на различных серверах и выдавать ссылку на него лишь один раз, перечисляя конкретные адреса в списке URL. Это имеет первостепенное значение, поскольку пользователь сразу же получает представление о реальном числе документов, а не об их "зеркальных" вариантах, количество которых в два-три раза выше.

Все российские системы обладают мощным встроенным морфологическим аппаратом, дающим возможность значительно расширять поиск за счет многообразных, в том числе и неправильных, словоформ русского языка ("окно" - "окон" и т. п.).

К лидирующей группе российских поисковых средств в настоящее время относятся Yandex , Апорт , Rambler , на серверах этих поисковых машин можно проводить поиск и по каталогам.

Yandex (http://www.yandex.ru ) (рис. 27)

Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: количество обследованных серверов превышает 300.000 серверов, а число учтенных оригинальных документов свыше 40 миллионов. Помимо серверов доменов "ru" и "su", Yandex индексирует содержание зарубежных русскоязычных Web-узлов, а также серверов СНГ.

Yandex , безусловно, располагает самой мощной и сложной системой составления запросов: пользователю предлагается несколько вариантов поиска, в которых легко запутаться. Более чем какие-либо другие системы, Yandex приспособлен для задания запросов на естественном русском языке. В этом случае запрос формируется путем простого ввода терминов или целой фразы в поисковую строку. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же все введенные термины.

Рис. 27
Желающие составить поисковое предписание максимально точно могут прибегнуть к языку запросов (в этом случае, у отметки "строгий поиск" ставится "галочка"). Этот вариант дает возможность в самой полной мере реализовать могучий лингвистический потенциал, являющийся отличительной чертой Yandex . Мощная лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или словосочетания он должен находиться в тексте и какие термины этот текст содержать не должен. Это, однако, требует освоения весьма сложного синтаксиса формирования "специальных" поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры. Среди используемых знаков: ~,&, !, /, :, (), |, $.

Yandex обладает также "Расширенным поиском" (ссылка над строкой запроса), представляющим собой детальную систему меню, с помощью которой можно составить сложный запрос без знания специального синтаксиса. Возможно, в частности, обеспечить сочетание нескольких фраз, исключить документы, содержащие указанные слова, конкретизировать местоположение термина в документе (заголовок, аннотация, ссылка...), применить ограничение по дате публикации, нахождению его на конкретном сайте, языку публикации. Также обеспечивается выявление иллюстраций указанной тематики, специальных объектов (скриптов и апплетов) и страниц, содержащих ссылки на определенный сервер.

Безусловным достоинством Yandex является оригинально сконструированный механизм выдачи результатов. Щелчок мышью по названию выявленной страницы приводит к ее загрузке в "фирменном исполнении" Yandex . В этом случае оригинальный вид документа дооснащается специальными стрелками, которые выделяют искомые термины и позволяют быстро двигаться от одного их вхождения к другому, что очень экономит время при определении степени соответствия смысла документа запросу. При обращении же к адресу, система отправляет пользователя непосредственно к оригиналу страницы. Среди сервисных функций Yandex есть также возможность искать страницы, схожие содержанием с конкретным документом.

Апорт (http :// www . aport . ru ) (рис. 28)

В настоящее время эта поисковая система переживает период серьезного обновления. Одно из достоинств Апорт состоит в широких возможностях составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько "рядом" каждый раз определяется пользователем. Так запрос "{3, налоговые льготы}" выявит все документы, в которых указанные слова (и их производные) встречаются в пределах трех соседствующих предложений, а запрос "" отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. За счет этого пользователь застрахован от большой доли информационного шума, возникающего при случайном сочетании ключевых слов.

Рис. 28
В форме Расширенного поиска, которая вызывается щелканьем мышью по аналогичной надписи над поисковой строкой, Апорт предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. В этом же случае также появляется возможность ограничения поиска элементами страниц, а также временем создания/обновления документов.

Наибольшей оригинальностью отличается форма выдачи результатов, Список найденных документов открывается сведениями о том, сколько документов и на каком количестве серверов выявлено. Перечень результатов сформирован таким образом, что в начале каждой ссылки идут сведения о сервере, на котором содержится источник. Приводится не только его название и адрес, но и аннотация из справочника @ RUS или собственной регистрационной базы Апорт . Далее приводится число страниц на сервере, содержащих искомые термины, а также следуют соответствующие ссылки.

В списке результатов каждая ссылка включает название файла, дату и время его последнего обновления, адрес/адреса источника с указанием оригинальной кодировки и степень соответствия запросу. Положительным моментом, отличающим Апорт от других систем, является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точнее определять соответствие страницы запросу уже на этапе просмотра ссылок. Функция "реконструкция текста" позволяет получить весь исходный документ, причем с сохранением оригинального форматирования. Это бывает полезно в случае, когда оригинал источника по каким-то причинам в данное время недоступен.

Rambler (http://www.rambler.ru ) (рис. 29)

Первая профессиональная отечественная поисковая система. Созданная в 1996 году специально для выявления материалов на серверах в пределах бывшего СССР, она обеспечивает полнотекстовый поиск на Web-узлах России и стран ближнего зарубежья.

Система имеет дружественный интерфейс, предлагающий воспользоваться простой или детальной формами запроса (клавиша - Детальный запрос). Лучше сразу обратиться к последней, так как при использовании основного интерфейса возможности детализации запроса невелики, а лексика составления качественных поисковых предписаний требует предварительного подробного изучения.

Механизм составления детального запроса реализован через меню. Пользователю предлагается ввести один или несколько терминов и определить параметры для разыскания. К основным параметрам относятся:

· область поиска: Российский WWW или отдельные элементы страниц;

· число выдаваемых результатов, помещаемых на одной странице;

· форма выдачи результатов: краткая, стандартная или детальная;

· употребление словоформ: искать ли все производные корня данного слова, ограничиться точно введенной формулировкой или усекать все встречающиеся окончания.

Рис. 29
Очень полезными и, кстати, практически дублирующими друг друга параметрами являются требование минимального расстояния между искомыми словами и поиск на полное соответствие запросу. Обе эти характеристики применяются при поиске по точной фразе. Помимо этого можно также уточнить поисковое предписание по языку документа, дате его последнего обновления и указать термины, появление которых в источнике должно быть исключено.

Rambler обладает хорошим механизмом вывода результатов. Даже в "нормальной" форме ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа еще и внушительных размеров резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Щелчок мышью по стрелке перед названием выявленного документа запустит поиск страниц, схожих содержанием сданной.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Никакие средства навигации - справочники или поисковые машины не охватывают всего текущего информационного массива Интернет. По некоторым оценкам даже такие признанные лидеры сетевого поиска как Alta Vista , Northern Light или Fast Search отражают не более 10 - 15% содержания Сети и цифра эта продолжает снижаться. Причина - колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, все более и более превращается в кибернетические джунгли.

Помимо быстрого роста и изменения местоположения документов, практически все поисковые системы имеют внутренние ограничения на отражение материалов одного сайта. Так, Alta Vista даже в идеале берет не более 60% информации с отдельного сервера. Роботы других поисковых механизмов не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В то же время некоторые серверы имеют собственную систему поиска, которая покрывает весь их информационный массив. Выявив такие сервера с помощью справочников или поисковых систем, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования в данной области,

Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.

Итак, при поиске в Интернете важны 2 составляющие : полнота (т.е. стремление не упустить какую-либо информацию) и точность (т.е. отсутствие в результатах поиска лишней информации).

Обычно обе эти составляющие называют общим словом релевантность, подразумевая под ним максимальное смысловое соответствие результатов поиска указанному запросу. Релевантность также можно рассматривать и как способ сортировки найденных по запросу документов: чем больше документ соответствует запросу, чем ближе к началу списка должен находиться его адрес.

Для достижения этого результата ИПС должна учитывать такие параметры, как количество найденных в тексте документа ключевых слов, «контрастность» слова (его относительную частоту встречаемости для данного документа), расстояние между словами, положение слова в документе и его подразделах и т.д.

Однако не следует забывать, что релевантность – качественная мера. Соответствие ответа ИПС интересам пользователя зависит не только от свойств данной ИПС, но и от того, насколько правильно сформулирован запрос. Современные ИПС учитывают морфологию русского языка. Они способны работать с естественно-языковыми запросами.

· Применить полужирный шрифт 12 и выравнивание слева.

· На каждой странице поместить отформатированный текст соответствующий содержанию меню.

· На странице page1.htm поместить тематическое изображение в правой части рабочей зоны.

· На страницах page1.htm, page2.htm, page3.htm в теге < BODY> определить цвет гиперссылок:

· На странице page2.htm поместить динамическое изображение.

· На страницеpage3.htm отформатированный текст согласно содержанию поместить в рамку.

· Задать разный цвет границы сразу для всех сторон рамки.

· Показать умение форматировать текст с помощью традиционных элементов:

ü Выделять фрагменты курсивом;

ü Выбирать размер и цвет шрифта;

ü Принять горизонтальную линейку;

ü Применить различные способы нумерации;

ü Текст выравнивать слева, используя полужирный шрифт.

Сохраните листинг данного задания для размещения на вашем web-узле.

Л/р №7. Задание 1

Главная страница

Поисковые системы Internet

Глобальные справочники ресурсов и поисковые системы

page1.html

ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ИНФОРМАЦИОННЫХ СЕРВИСОВ INTERNET

Интернет - это мировая компьютерная сеть. В ней множество компьютеров по всему свету соединены проводами, телефонными линиями, радио и спутниковой связью. Со своего персонального компьютера Вы можете связаться с любой точкой земного шара и получить доступ к информации, которая содержится на любом компьютере, подключенном в сеть Интернет. А так как количество пользователей всемирной сетью растет, то и растут Ваши возможности в ней. Вы можете вступать в дискуссии по тем или иным темам, посещать виртуальные выставки, вести электронный бизнес, общаться с помощью почты и многое, многое другое. Достоинствами работы в сети Интернет являются быстрота, дешевизна, многоаспектность и перспективность.

Прародителем Интернет была сеть ARPANet. Она возникла в 1969 году, в Америке, для того, чтобы облегчить сотрудничество между организациями оборонной промышленности, разбросанными по разным штатам. Сначала она соединяла компьютерные системы одного типа, но по мере развития возникла необходимость в обмене данными между "разнородными" сетями. Так возник проект Interneting Project. В результате был создан стандарт передачи данных - протокол TCP/IP.

Протоколом передачи данных называется соглашение, устанавливающее, каким образом должна осуществляться передача данных из компьютера в компьютер и как можно распознавать и устранять ошибки, которые могут при этом возникать. И для того, чтобы осуществилась идея неограниченной коммуникации между компьютерами Интернет, используется один и тот же протокол TCP/IP. Он состоит из набора протоколов, каждый из которых выполняет различные задачи.

Популярнейший из них - World Wide Web (сокращенно WWW или Web), его еще называют Всемирной паутиной. Представление информации в WWW основано на возможностях гипертекстовых ссылок. Гипертекст - это текст, в котором содержаться ссылки на другие документы. Это дает возможность при просмотре некоторого документа легко и быстро переходить к другой связанной с ним по смыслу информации, которая может быть текстом, изображением, звуковым файлом или иметь любой другой вид, принятый в WWW. При этом связанные ссылками документы могут быть разбросаны по всему земному шару.

Многочисленные пересекающиеся связи между документами WWW компьютерной паутиной охватывают планету - отсюда и название. Таким образом, пропадает зависимость от местонахождения конкретного документа.

Gopher-система

Эта система является предшественником WWW и сейчас утрачивает свое значение, хотя пока и поддерживается в Интернет. Это информационные серверы, на которых содержаться документы академической направленности и большие текстовые файлы. Просмотр информации на Gopher-сервере организуется с помощью древовидного меню, аналогичного меню в приложениях Windows или аналогично дереву каталогов (папок) файловой системы. Меню верхнего уровня состоит из перечня крупных тем, например, экономика, культура, медицина и др. Меню следующих уровней детализируют выбранный элемент меню предыдущего уровня. Конечным пунктом движения вниз по дереву (листом дерева) служит документ аналогично тому, как конечным элементом в дереве каталогов является файл.

Электронная почта

Следующий вид сервиса Интернет - электронная почта, или E - mail. Она предназначена для передачи в сети файлов любого типа. Одни из главных ее преимуществ - дешевизна и быстрота.

Электронная почта является исторически первой информационной услугой компьютерных сетей и не требует обязательного наличия высокоскоростных и качественных линий связи.

Любой пользователь Интернета может получить свой «почтовый ящик» на одном из почтовых серверов Интернета (обычно на почтовом сервере провайдера), в котором будут храниться передаваемые и получаемые электронные письма.

У электронной почты есть преимущества перед телефонной связью. Телефонный этикет очень строг. Есть множество случаев, когда нельзя позвонить человеку по соображениям этикета. У электронной почты требования намного мягче. По электронной почте можно обратиться к малознакомому человеку или очень занятому человеку. Если он сможет, то ответит.

Чтобы электронное письмо дошло до адресата, оно, кроме текста послания, обязательно должно содержать электронный адрес получателя письма.

Адрес электронной почты записывается по определенной форме и состоит из двух частей:

имя_пользователя@имя_сервера

Имя_пользователя имеет произвольный характер и задается самим пользователем; имя_сервера жестко связано с выбором пользователем сервера, на котором он разместил свой почтовый ящик.

Пример, [email protected]

В нашем классе имя пользователя – это имя компьютера, например, pc01, pc02 и т.д. имя сервера: server, поэтому электронный адрес компьютера в локальной сети класса: pc01@server

Чтобы отправить электронное письмо, отправитель должен подключиться к Интернету и передать на свой почтовый сервер сообщение. Почтовый сервер сразу же отправит это письмо через систему почтовых серверов Интернет на почтовый сервер получателя, и оно попадет в его почтовый ящик. Однако получатель получит письмо только после того, как соединится с Интернетом и «скачает» почту из своего почтового ящика на собственный локальный компьютер.

Телеконференции UseNet

Телеконференции UseNet представляют собой электронные форумы. Пользователи Интернет посылают туда свои сообщения, в которых высказываются по определенной теме. Сообщения поступают в специальные дискуссионные группы - телеконференции, при этом каждое мнение становится доступным для всех участников конкретной группы. Уже сегодня UseNet имеет более 20 000 телеконференций, посвященных различным темам: компьютерам, рецептам, вопросам генной инженерии и многому другому.

Протокол передачи файлов FTP

Протокол передачи файлов FTP используется для переписывания файлов с дистрибутивными копиями программ с удаленных серверов на Ваш компьютер. В зависимости от своих прав (обычный пользователь или др.) Вы можете производить те или иные действия по отношению к удаленному серверу (в большинстве случаев это копия имеющейся на нем информации).

Telnet

Программа Telnet была разработана для обеспечения дистанционного доступа к удаленному компьютеру в Интернет. При этом компьютер пользователя выступает в качестве терминала, подключенного к большому компьютеру. В отличие от компьютеров, терминалы не обладают собственными вычислительными возможностями. Они только обеспечивают доступ к какому - то компьютеру благодаря имеющимся у них монитору и клавиатуре. В качестве примера можно привести системы в аэропортах, на вокзалах, где Вы можете получить информацию о билетах, рейсах и т.п.

page2.html

width="200" height="200" align=right>

Поисковые системы Internet

Задача поисковых систем – указать пользователю адреса Web-страниц, содержание которых соответствует запросу пользователя. Поисковая система состоит из трех составляющих:

Программа, которая называется спайдер (spider), формирует базу данных о содержимом Web-страниц. Она автоматически по заданным алгоритмам обходит Web-серверы и выбирает Web-страницы, используя найденные на них гиперссылки. После чего происходит формирование базы данных (БД), которая называется индексы поисковой системы, и в которой сохраняются сведения о содержимом и URL-адресах документов.

Индексы поисковой системы – огромная база данных с информацией об адресах и содержимом Web-страниц.

Поисковая программа, которая осуществляет поиск по индексам в соответствии с запросом пользователя. Пользователь, задавая в запросе ключевые слова, получает в результате подбор ссылок на документы, содержание которых удовлетворяет критерию поиска.

Яркими представителями поисковых систем являются:

Международные – http://www.altavista.digital.com

Http://www.infoseek.com

Российские – Рамблер – http://www.rambler.ru

Яndex – http://yandex.ru

Апорт – http://www.aport.ru

Украинские - Мета - http://meta.com.ua

http://www.google.com.ua

Сайт поисковой системы содержит текстовое поле, в котором пользователь вводит запрос на поиск информации, и кнопку, которая инициирует поиск.

Чтобы запустить процедуру поиска, надо активизировать Web-браузер и задать адрес поискового сервера. После загрузки следует ввести ключевые слова и нажать клавишу Enter. Автоматически подключенная поисковая программа пересматривает БД сервера и, найдя ключевое слово в очередной записи о Web-странице, заносит ее адрес в перечень результатов поиска. Теперь для просмотра содержания найденных файлов необходимо дважды щелкнуть мышью на гиперссылку. Поиск можно также выполнить в окне браузера. Для этого, активизируют кнопку Поиск, а затем в левой части окна среди перечня выбирают соответствующий поисковый сервер.

В каждой поисковой системе работает собственная программа поиска, поэтому запрос по определенным ключевым словам или выражениям в каждой из поисковых систем обычно порождает разные результаты. Соответственно и правила записи в запросе ключевых слов для поиска несколько отличаются. На каждом поисковом сайте обязательно имеется помощь по правилам записи запроса.

При составлении запроса желательно указывать несколько слов или словосочетание, которые характеризуют нужную вам информацию. Имена прилагательные могут значительно уточнить требуемую вам информацию и сузить область поиска.

Вторая группа поисковых систем – это каталоги ресурсов Internet, в которые информация заносится специалистами после ее анализа и классификации. Такие системы содержат тематически структурированные аннотации к Web-серверам и отдельным Web-сайтам или перечни адресов серверов с указанием их названий. Поиск осуществляется пользователем вручную по иерархически организованной тематической структуре каталога. Известными каталогами являются: http://www.yahoo.com/ - король каталогов, существующий с 1994 года и содержащий более полумиллиона страниц, Российские каталоги - http://www.stars.ru - «Созвездие Интернет», http://www.au.ru - «Ау!», Украинские - www.topping.com.ua, www.atlas-ua.net.

page3.html

Глобальные справочники ресурсов и поисковые системы.

Созданием и актуализацией справочников глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все справочники декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным справочникам ресурсов требует минимального владения английским языком.

Yahoo!является одним из самых первых, надежных и авторитетных справочников Всемирной паутины. У каталога два основных достоинства: - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике объективно отражаются все отрасли знания без каких либо приоритетов. В Yahoo! учитываются не только web-сайты, но и конференции UseNet. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с информационным наполнением в Интернет по любой области деятельности.

Интерфейс справочника Yahoo.Сегодня его нелегко разглядеть среди множества других сервисов, предоставляемых компанией.

Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других справочников, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев поиска - когда неизвестно по каким ключевым словам осуществлять поиск. Разыскание осуществляется путем последовательного просмотра категорий: шаг за шагом, разворачивая пункты меню, построенные в иерархическом порядке, можно знакомиться с полным перечнем ресурсов, постепенно сужая и конкретизируя тему. Так, от самого общего раздела СПРАВОЧНЫЕ РЕСУРСЫ (REFERENCES) можно дойти до web-сервера конкретной библиотеки, миновав по пути разделы БИБЛИОТЕКИ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОЙ СТРАНЫ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОГО ТИПА. На каждой ступени иерархии после названий разделов в скобках указывается число отраженных в них ресурсов. При большом количестве объектов в одном разделе пользователям предлагается выбрать первую букву названия сайта (например, названия университета или фамилии популярного исполнителя).

Справочник имеет перекрестную структуру, позволяющую находить данные, используя различную логику поиска. Например, Московский государственный университет может быть найден как по цепочке ОБРАЗОВАНИЕ/ ВЫСШЕЕ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ/ УНИВЕРСИТЕТЫ РОССИИ, так и через РЕГИОНЫ/ СТРАНЫ/ РОССИЯ/ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ.

При необходимости выявить данные о конкретных объектах целесообразно прибегнуть к непосредственному поиску. В поисковую строку должны быть введены ключевые слова, максимально полно обозначающие искомый объект. Следует учитывать большой объем Yahoo! и, следовательно, опасность возникновения большого информационного шума при выдаче результатов. Поэтому, прежде чем прибегать к поиску по ключевым словам, рекомендуется предварительно пройти несколько соответствующих иерархических ступеней. Например, для поиска сайтов, посвященных хоккеисту Павлу Буре (Bure), рекомендуется предварительно войти в раздел СПОРТ/ ХОККЕЙ и ограничить условия поиска, передвинув соответствующую фишку на пункт just this category (только в этой категории). В этом случае автоматически отсеются ссылки на многочисленные сайты, в которых встречается термин Bure, но которые не имеют никакого отношения к российскому хоккеисту.

В случае результативного поиска, в перечне результатов вначале будут указаны категории (рубрики классификации), в которых встречаются искомые слова, а затем названия отдельных серверов.

About (http://www.about.com)

Справочник, поддерживаемый экспертами различных областей знания. Основная отличительная черта About - принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей Интернет. Среди них АВТОМОБИЛИ, ПОМОЩЬ В ВЫПОЛНЕНИИ ДОМАШНИХ ЗАДАНИЙ, ХОББИ И ИГРЫ, ДЕНЬГИ, ПУТЕШЕСТВИЯ, ПОДРОСТКИ и т.п. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов.

Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы.

Google (www.google.com)

Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 4,2 миллиардов web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.

Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.

Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

Интерфейс первой страницы Google - на сегодня в Сети у него нет достойных конкурентов.

Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком "*", поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +I).

Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.

Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.

Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки"). В его базе данных учтено более 880 тысяч иллюстраций, разыскание которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию "Расширенный поиск изображений".

При использовании Google следует, однако, помнить, что при работе с файлами большого объема он индексирует не весь источник, а лишь его первые 101 Кб. (для PDF-файлов лимит ограничен 120 Кб.), поэтому индексация документа пока не всегда гарантирует возможность его нахождения по любому фрагменту текста.

В качестве собственного справочника ресурсов Интернет Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих поисковых инструментов.

Дополнительным платным сервисом Google является поиск труднодоступной информации непосредственно человеком. Стоимость этого вида обслуживания - $2.50 за ответ.

AlltheWeb / Fast Search (http://www.alltheweb.com)

Поисковая система, существовавшая с 1997 года под данным именем, была разработана в Норвегии и изначально ориентирована преимущественно на европейские сайты. В начале 2000 годов Fast Search был приобретен Yahoo!, но до марта 2004 года продолжал существовать в качестве оригинального поискового сервиса, регулярно наращивая собственный индексный файл и повышая степень релевантности поиска. На протяжении всех 2000 годов Fast Search справедливо рассматривался в качестве главного конкурента Google. Однако с 25 марта 2004 года под брэндом Fast Search была размещена и запущена в действие поисковая система Yahoo!, разработанная на основе поискового механизма Inktomi, ранняя версия которого использовалась, в частности, в поисковой системе HotBot. В настоящее время Fast Search представляет собой фактическое "зеркало" поисковой системы Yahoo!, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В число 36 языков, с которыми система работает вполне корректно, попал и русский.

В"Fast Search" - интерфейс главной страницы.

Индексный файл Fast Search по уверениям владельцев в настоящее время содержит несколько миллиардов документов. Более точная цифра владельцами не указана, однако, сравнительное тестирование показывает ее значительное отставание от Google. Зная объем базы последнего, можно оценить емкость индекса Fast Search приблизительно в пределах 2,3 - 2,5 миллиардов документов. Помимо текстовых разысканий в WWW, нынешний вариант системы поддерживает поиск в группах новостей по интересам, поиск иллюстраций, видеофрагментов и аудиофайлов, в том числе и с русскоязычных серверов. Система способна собирать сведения и индексировать размещенные в Интернет файлы в форматах PDF, DOC, XLS, PPT.

Fast Search оперирует традиционным языком запросов, включающим знаки "+", "-" и кавычки для поиска цитат. Для формирования сложных запросов рекомендуется обращаться к Advanced Search ("Расширенному поиску"). Его система многоступенчатых меню позволяет легко применить фильтры, в числе которых ограничения по местоположению термина в документе, определенному домену или географическому местоположению, времени опубликования документа и формату файла. Среди сервисных функций Fast Search возможность установки персональных режимов для поиска и их сохранение в системе (на конкретном компьютере) для работы в дальнейшем.

Мария Коленцева

[email protected]

← Вернуться