Главная страницаОбратная связьКарта сайта

Поиск в Интернете


Каталог — это, конечно, хорошо, однако далеко не всегда пользователя интересует какая-то широкая тематика (кино, музыка и так далее). Значительно чаще пользователь хочет найти в Интернете что-то более конкретное: информацию о творчестве Герберта фон Караяна; личный сайт писателя, актера, музыканта, режиссера; спецификацию клапана типа Г57, жилищный кодекс РФ и так далее. Что делать в этом случае, ведь в Rambler нет отдельного каталога с сайтами, посвященными творчеству Герберта фон Караяна или спецификации клапанов типа Г57? Вот как раз в подобных случаях и нужно пользоваться поисковыми системами, в которых, как гласит рекламный слоган самой популярной российской поисковой системы Yandex (yandex.ru), «Найдется все!».

Но прежде чем мы начнем работать с поисковой системой, сначала необходимо хотя бы в общих чертах понять, что именно она ищет и в какой последовательности выводит результаты поиска. Потому что поиск в Интернете, при всей его кажущейся простоте, — это своего рода искусство. Чем лучше вы будете понимать, как составляются поисковые запросы и как на них реагируют поисковые системы, тем быстрее вы будете находить то, что вам нужно. С другой стороны, если о поиске в Интернете не знать ничего, то можно сутками перелопачивать тонны сайтов, так и не найдя то, что вас интересует.

Как работает поисковая система

Многие пользователи почему-то считают, что в ответ на их вопрос поисковая система начинает быстро-быстро шерстить весь Интернет, после чего выдает список страниц, где отыскалось что-то похожее на строку поиска, введенную пользователем. Разумеется, в действительности все происходит совершенно не так, потому что если бы поисковая система при каждом запросе шерстила весь Интернет (или даже его маленькую часть), ответа приходилось бы дожидаться годами.

На самом деле почти каждая поисковая система (скажем так — классическая поисковая система) состоит из трех основных компонентов:

•       Web-паук (web spider);

•       индексатор;

•       алгоритм поиска и оценки результатов.

Web-паук, несмотря на всю экзотичность подобного названия, — это всего-навсего специальная программа, которая запускается на компьютере (компьютерах), подключенном к Интернету, и ее основная задача — шерстить весь этот Интернет (точнее, интернетовские странички) во всех возможных направлениях. Ведь странички, как мы говорили, состоят из гиперссылок, так вот паук и носится как угорелый по гиперссылкам, и скачивает полученные таким образом странички для второго компонента — индексной базы.

Индексатор — это обработчик скачанных Web-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую (индексную) базу. При этом индексатор записывает, где именно было найдено то или иное слово, и эта информация потом используется в поиске.

Алгоритм поиска — это главное ноу-хау любой поисковой системы. От алгоритма зависит Эффективность полученного результата — то есть насколько быстро и точно пользователь найдет то, что его интересует.

Внимание!

Таким образом, когда пользователь вводит свой запрос, поисковая система ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три компонента. Причем каждый из них на самом деле весьма сложен, и его работа подчиняется огромному количеству всевозможных хитрых правил, которые, к тому же, постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно хорошие результаты.

Загадочное слово «релевантность»

Когда говорят о поисковых системах, очень часто упоминают загадочно звучащее слово «релевантность». «Да ну ее, у нее поиск нерелевантный!» — говорят об одной поисковой системе. «Отлично ищет, классная релевантность!» — говорят о другой. Таким образом, можно догадаться, что «релевантность» — это хорошо, а отсутствие релевантности — плохо. Да, именно так и есть!

Внимание!

Релевантность — это степень соответствия документа запросу.

Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор), и вам нужно написать какой-то реферат. Как продвинлтоедитя интернетовского века, вы не собираетесь его писать самостоятельно, а хотите найти соответствующий текст в Интернете и выдать его за свой. Не пытаясь оценивать подобное действо с точки зрения морали, будем рассматривать это просто как пример.

Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему и вводите слово для поиска «рефераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7864295 страниц, на
которых это слово встречается 31378327 раз. (Цифры абсолютно реальны и предоставлены поисковой системой Yandex.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника блондинки Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат. Шесть ногтей покрасила, но так ни черта и не написала. Какой-то сегодня прям нерефератный день, дивчонки, да?»

Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку блондинки Леночки, где просто употребляется слово «реферат»? Разумеется, на банк рефератов! Вот это и называется — релевантность, то есть степень соответствия запросу.

Каким образом поисковая система может определить эту релевантность, то есть какие из страничек, где встречается заданная поисковая строка наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков,-однако общий принцип у них приблизительно один и тот же, и анализ результатов делается примерно следующим образом:

1.  Проверяется, сколько раз заданное слово (словосочетание) встречается на отобранных страничках. Разумеется, чем больше, тем лучше, потому что больше вероятность того, что эти страницы посвящены именно данной тематике.

2.    Проверяется расстояние между словами, если введена целая фраза. То есть если пользователь ищет «Герберт фон Караян», то страничка, на которой встречается «Герберт фон Караян родился», будет более релевантной, чем страничка с текстом: «Герберт утром встал, побрился, достал из кармана фон дер пшик, а потом включил Караян по телевизору».

3.    Количество ссылок на данную страницу (индекс цитируемости). Чем больше на данную страницу ссылаются (ставят гиперссылку) другие страницы, тем больше вероятность того, что именно эта страница нужна пользователю.

4.    Каким шрифтом (стилем) набрана на странице искомая фраза. Если фраза написана крупным шрифтом (является заголовком) или выделена жирным, это тоже является признаком более высокой релевантности.

5.    Возраст сайта. Чем дольше существует данный сайт, тем лучше это влияет на релевантность.

Таким образом, как видите, уровень релевантности — это целый комплекс всевозможных параметров, которые нужно не только получить и сохранить в поисковой базе, но и правильно интерпретировать.

Поисковый запрос

«Искать нужно уметь» — гласит народная мудрость. Что означает эта фраза? Она означает то, что прежде чем задавать строку для поиска, нужно понять, что именно вы хотите найти. Также нужно понять, каким образом следует составить фразу, чтобы поисковая система как можно быстрее выдала вам результат. Потому что при всей продвинутое™ и интеллектуальности поисковой системы в мозги к вам залезть она не сможет. И если вы хотите найти сайт, посвященный технологии вышивания крестиком по молочным бидонам, то одно только слово «бидоны», введенное в строке поиска, вряд ли приведет к желаемому результату.

Можно долго рассуждать о том, каким образом следует формировать поисковые запросы, однако я предпочитаю основные рекомендации свести к следующим несложным постулатам:

•       пишите грамотно слова поискового запроса. Вы будете смеяться, но многие люди не могут найти сайты по интересующей их тематике и на все лады костерят поисковые системы, между тем как слово для поиска просто введено с ошибкой, и поисковик протирает жесткие диски до дыр, пытаясь отыскать «ателье по срочному пошиву польтов», тогда как в ателье «польты» никто не шьет, а шьют пальто;

•       используйте синонимы. Если поиск нужных результатов не принес, попробуйте переформулировать запрос иначе. Например, вместо «чоппер» напишите «крутой мотоцикл», вместо «тачка» — «автомобиль», вместо «курсовая работа» — «реферат»;

•       уточняйте запрос. Чем точнее построен поисковый запрос, тем больше будет шансов, что в первых строках результата поиска окажется нужный вам ресурс. Поэтому если вы ищете уже упоминавшуюся технологию вышивания крестиком по молочным бидонам, просто и тупо напишите это в строке поиска. Если результат вас не удовлетворит, тогда уже начинайте варьировать фразу;

•       используйте ключевые слова. Если результат поиска вас не удовлетворил, включайте в поисковый запрос как можно больше уточняющих слов. Если вас интересует именно творчество Герберта фон Караяна, то в поисковой строке кроме непосредственно имени великого дирижера обязательно введите слово «творчество». Если вы ищете информацию по автомобилю Honda — так и пишете «автомобиль Honda», а не просто «автомобиль»;

•       не вводите запрос в верхнем регистре. Все запросы желательно писать в нижнем регистре, потому что поиск обычно регистрозависимый, и строку «ПЯТЬ МИЛАНСКИХ КАФЕДРАЛЬНЫХ СОБОРОВ» вам найдут только в том случае, если она где-то на сайте набрана заглавными буквами. Однако если вы ищете какие-то имена собственные — например, группу «Черный кофе», а не продукт питания черный кофе, — тогда пишете их с заглавных букв (именно с заглавных, а не все заглавными);

•       в сложных случаях используйте язык запросов. Практически все поисковые системы поддерживают так называемый язык запросов, позволяющий задавать мощнейшие комбинации различных критериев поиска. Но язык запросов — это отдельная тема, поэтому мы ее рассмотрим в следующем разделе.

Язык запросов

Предположим, вы хотите задать поисковой системе запрос следующим образом: «Найди мне все страницы, где встречается слово селедка, при этом в любом случае отсутствует слово картошка, не более чем через два слова от селедки расположено слово водка, чтобы сайт при этом находился в зоне ш, и сам документ при этом ссылался на www.exler.ru». Хороший запросик, правда? Душевный...

Между тем, вы совершенно спокойно можете составить подобный запрос, используя специальные символы в строке поиска, которые и называются языком запросов.

Исключение/включение определенных слов — знаки «+» и «—»

Предположим, вы хотите найти сайты, на которых есть анекдоты про блондинок, но при этом вы не выносите анекдоты, в которых злые люди блондинок называют дурами. Тогда в запросе пишете следующее: «+анекдот +блондинка —дура» — это означает команду искать страницы, на которых в обязательном порядке присутствуют слова «анекдот» и «блондинка», однако отсутствует слово «дура».

Перечисление альтернатив — знак «|»

Вертикальная черта позволяет задать альтернативы: система ищет хотя бы одно из перечисленных слов. Например, если вы хотите найти страницы, где встречается одно из слов «папа», «мама», «дочка», «внучка», поисковый запрос будет выглядеть следующим образом: «папа | мама | дочка | внучка|».

Поиск точного соответствия — знак «!»

Обычно поисковики ищут все словоформы введенного слова, даже если оно задано полностью: например, если в строке введено «блондинка», то первыми будут выведены страницы, где встречается именно «блондинка», но далее в результатах поиска окажутся «блондинки», «блондинкой», «блондинкою», «блондинкам» итак далее. Однако если вам нужно найти только данную конкретную форму, тогда задавайте поисковую строку так: «!блондинка».

Поиск точной фразы — кавычки

Если вам нужна точная фраза «гипервизионный квазиконвертер», а не «гипер-визионный анализатор, включающий в себя темно-зеленый конвертер в пупырышках», тогда при поиске заключите фразу в кавычки «гипервизионный квазиконвертер», и в этом случае поисковик выведет только те страницы, где эти слова располагаются строго рядом.

Задание расстояния между слов — «/п»

В случае, когда вы хотите найти все варианты фразы «высокая [любое слово] блондинка» — можно отразить это неуемное желание в поисковом запросе с помощью знака «/», означающего «не превышает», и числа, показывающего допустимое количество слов, причем 1 означает отсутствие слов. Поясняю. Запрос «высокая /+2 блондинка» означает команду искать все сочетания, где между «высокая» и «блондинка» не больше 1 слова. То есть «высокая блондинка» — подойдет, «высокая длинноногая блондинка» — тоже подойдет, а «высокая длинноногая и страстная блондинка» — уже нет. Значок «+» означает, что слово (слова) должно быть справа, а «—» — слева. То есть запрос «высокая /(-2 4) блондинка» означает, что «высокая» должно находиться от «блондинка» в интервале расстояний от 2 слов слева до 4 слов справа.

Ограничение по адресам — команда «#url»

Если вас интересует поиск, например, только на конкретном сервере или по конкретной группе адресов либо же наоборот — поиск, который исключает конкретные адреса или группы адресов, можно воспользоваться командой #иг1=адрес или группа. Например, если вы хотите найти все страницы, на которых встречается слово «квадроид», исключив сайт www.kvadroid.ru, дайте следующую команду: «квадроид —#url=www.kvadroid.ru».

Поиск ссылок — команда «#link»

Иногда (особенно это бывает актуальным для владельцев собственных страничек) бывает очень интересно узнать, какие сайты ссылаются (ставят гиперссылку) на тот или иной адрес. В этом случае достаточно в строке поиска задать следующие данные: «#Ппк=адрес». То есть команда «#link=www.exler.ru» покажет все страницы, где стоят ссылки на www.exler.ru.

Я перечислил только основные возможности языка запросов поисковой системы Yandex. Отмечу, что эти параметры, как правило, весьма похожи и на других поисковых системах, хотя в любом случае перед их использованием желательно посмотреть описание на конкретном поисковике.

Некоторые тонкости

Когда вы делаете поисковый запрос, нужно быть готовым к тому, что релевантность может сыграть с вами довольно забавную шутку. Пример. Вы хотите найти стихотворение Агнии Барто «Любочка», но название его вы не помните, а помните только первую строку «Синенькая юбочка, ленточка в косе». Вводите эту строку для поиска в Yandex. И что получаете? Вовсе не текст стихотворения. А что?..

На первом месте — статья из популярного женского журнала с названием «Синенькая юбочка, ленточка в косе».

На втором — издевательское стихотворение «Любочка» с Анекдот.ру, где первая строчка — именно такая, как вы запросили, ну а дальше — полный кошмар (Любочка там умерла жуткой смертью).

На третьем — обсуждение с весьма посещаемого форума, которое называется «Синенькая юбочка, ленточка в косе» и посвящено ужасам педофилии.

Что вы на это скажете? «Ах, — скажете, — какой этот Yandex глупый, раз он не может найти такую простую ссылку!» И будете совершенно неправы. Потому что Yandex как раз нашел именно то, что вы просили, причем четко учитывая релевантность. Откуда ему знать, что вы ищете именно стихотворение Барто? Мало ли у кого какие юбочки, какие ленточки и какие трещинки!..

Как в данном случае нужно было поступить? Элементарно, Ватсон! Нужно было воспользоваться советом: уточняйте запрод. Вам нужно стихотворение Агнии Барто? Вот и пишете в запросе: «Синенькая юбочка ленточка в косе Барто». И все! Первой же ссылкой Yandex выдает полный текст этого стихотворения!

Конспект рубрики «Поиск в Интернете»

1.         Любая поисковая система состоит из Web-паука, индексатора, а также собственного алгоритма поиска и выдачи результатов.

2.    Когда пользователь делает запрос, поисковая машина ищет на него ответ в собственной индексной базе.

3.    При выдаче результатов поиска система в первую очередь выдает самые релевантные, то есть документы, которые наиболее соответствуют запросу.

4.    Поисковик не умеет читать мысли пользователя. Чтобы получить нужный результат, следует четко сформулировать запрос к системе.

5.    При сложном поиске желательно использовать язык запросов — это поможет четко объяснить поисковой системе, что именно вы хотите найти, а также позволит задать различные дополнительные критерии.

6.    Языки запросов у различных поисковых систем хотя и похожи, но все же отличаются друг от друга.

Ответы на часто задаваемые вопросы

Сколько всего поисковиков в Интернете?

Довольно много, однако если говорить о действительно известных и популярных

поисковых системах, то это десятки, но не сотни.

Каким поисковиком лучше всего пользоваться российским пользователям — родным рунетовским или западным ?

На этот вопрос нет однозначного ответа. С одной стороны, российский поисковик лучше индексирует русскоязычные странички, так что для русскоязычного поиска тот же Yandex на первый взгляд предпочтительнее. Однако один из самых популярных западных поисковиков Google (google.com) достаточно хорошо обрабатывает русскоязычные странички, поэтому рунетовские пользователи с ним также работают очень активно.

Можно ли использовать несколько различных поисковиков ? И если да, то какие ? Да, продвинутые пользователи нередко используют более одной поисковой системы. А какую именно в данный конкретный момент — зависит от задачи. Поисковики все разные. И дело даже не в накопленной индексной базе, а в алгоритме поиска и выдачи результатов. Для одной задачи может быть более эффективным один поисковик, для другой — другой.

Какие поисковики используете лично вы, Алекс Экслер? Как правило, Yandex. Несколько реже — Google.

Существуют ли поисковики, решающие какие-то специальные задачи? Да, и их немало. Есть поисковые системы, созданные, например, для поиска конкретных людей, файлов, музыки, видео и так далее.

Можно ли обойтись без языка запросов?

Да, конечно, если речь идет о простом поиске и если вас удовлетворили его результаты. Язык запросов используется для конкретизации, чтобы максимально уточнить условия поиска.


Обсудить статью на форуме


Если прочитаная статья из нашей обширной энциклопедия компьютера - "Поиск в Интернете", оказалась полезной или интересной, Вы можете поставить закладку в социальной сети или в своём блоге на данную страницу:

Так же Вы можете задать вопрос по статье через форму обратной связи, в сообщение обязательно указывайте название или ссылку на статью!
   


Copyright © 2008 - 2017 Дискета.info