как работают вещи

 ак работают вещи: статьи и обзоры

√лавна€ | ‘орум |  ак работают вещи | «наки | Ёнциклопеди€ |  аталог сайтов |  арта | —татистика | ѕодписка





































”х ты!
оказываетс€, фурии, это такие богини ... подробнее







Rambler's Top100




 ак работают вещи: статьи омпьютеры»нтернет

ѕринципы работы поисковой машины –амблер


»нтернет посто€нно растет, так же как растет и число пользователей, которые обращаютс€ с запросами к поисковым системам. ”величение объема информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых машин, качеству поиска и нагл€дности представлени€ результатов. “ак, дл€ того чтобы пользователь осталс€ доволен результатом, на сегодн€шний день поисковой системе нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад. ј основна€ задача поиска как раз и состоит в том, чтобы пользователь был доволен его результатами.

 огда пользователь обращаетс€ с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. ѕолуча€ результат, он оценивает работу системы, руководству€сь несколькими основными параметрами. Ќашел ли он то, что искал? ≈сли не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Ќасколько актуальную информацию он смог найти? Ќасколько быстро обрабатывала запрос поискова€ машина? Ќасколько удобно были представлены результаты поиска? Ѕыл ли искомый результат первым или сотым?  ак много ненужного мусора было найдено наравне с полезной информацией? —может ли он, вернувшись завтра и дав тот же запрос, получить те же результаты?

ƒл€ того, чтобы ответы на эти вопросы оставались удовлетворительными, разработчики поисковых машин посто€нно совершенствуют алгоритмы и принципы поиска, добавл€ют новые функции, ускор€ют работу системы. ¬ этой статье мы обратимс€ к механизму работы поисковой машины –амблер, и на примере ее устройства продемонстрируем, как достигаетс€ повышение качества и скорости поиска в услови€х посто€нного роста объема информации в сети »нтернет.

ѕолнота

ѕолнота - это одна из основных характеристик поисковой системы, котора€ представл€ет собой отношение количества найденных по запросу документов к общему числу документов в »нтрнете, удовлетвор€ющих данному запросу. Ќапример, если в сети »нтернет имеетс€ 100 страниц, содержащих словосочетание " расна€ площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. „ем полнее поиск, тем меньше веро€тность, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в »нтернете.

ѕолнота поиска в большой мере зависит от работы системы сбора и обработки информации. ¬ св€зи с посто€нным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. ¬ –амблере масштабируемость достигаетс€ за счет параллельного исполнени€ задачи произвольным количеством машин.

—бором информации занимаетс€ робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порци€ми. –обот размещаетс€ на нескольких машинах, и кажда€ из них выполн€ет свое задание. “ак, робот на одной машине может качать новые страницы, которые еще не были известны поисковой системе, а на другой - страницы, которые ранее уже были скачаны не менее мес€ца, но и не более года назад. ’ранилище у всех машин едино. ѕри необходимости работу можно распределить другим способом, например, разбив список URL на 10 частей и раздав их 10 машинам. ѕараллельна€ работа программы позвол€ет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин.

¬ хранилище информаци€ в сжатом виде собираетс€ и разбиваетс€ на куски по 50 ћб. Ёти части постепенно распредел€ютс€ между 70 машинами, на которых запущена программа-индексатор.  ак только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращаетс€ за следующей порцией. ¬ результате на первом этапе формируетс€ много маленьких индексных баз, кажда€ из которых содержит информацию о некоторой части »нтернета. “аким образом, вс€ интеллектуальна€ обработка данных осуществл€етс€ параллельно, поэтому ускорение процесса индексации достигаетс€ простым добавлением машин в систему.

ѕосле того, как все части информации обработаны, начинаетс€ объединение (сли€ние) результатов. Ѕлагодар€ тому, что частичные индексные базы и основна€ база, к которой обращаетс€ поискова€ машина, имеют одинаковый формат, процедура сли€ни€ €вл€етс€ простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. ќсновна€ база участвует в анализе как одна из частей нового индекса. “ак, если объедин€ютс€ 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основна€ база предыдущей редакции).  роме того, единый формат позвол€ет проводить тестирование частичных баз еще до объединени€ их с основной, и обнаруживать ошибки на более раннем этапе.

—пециальна€ программа ("сливатор") составл€ет таблицы перенумерации документов базы. —одержимое всех частей объедин€етс€. —реди страниц с одинаковыми адресами выбираетс€ наиболее свежа€ верси€; если при скачивании URL последней информацией была ошибка 404 (запрашиваема€ страница не существует), она временно удал€етс€ из индексной базы. ѕараллельно осуществл€етс€ склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объедин€ютс€ в один документ.

—борка единой базы из частичных индексных баз представл€ет собой простой и быстрый процесс. —опоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтени€ данных с диска. ≈сли информации, котора€ генерируетс€ на машинах-индексаторах, получаетс€ слишком много, то процедура "сливани€" частей проходит в несколько этапов. ¬ начале частичные индексы объедин€ютс€ в несколько промежуточных баз, а затем промежуточные базы и основна€ база предыдущей редакции пересекаютс€. “аких этапов может быть сколько угодно. ѕромежуточные базы могут сливатьс€ в другие промежуточные базы, а уже потом объедин€тьс€ окончательно. ѕоэтапна€ работа незначительно замедл€ет формирование единого индекса и не отражаетс€ на качестве результатов.

“очность

“очность - еще одна основна€ характеристика поисковой машины, котора€ определ€етс€ как степень соответстви€ найденных документов запросу пользовател€. Ќапример, если по запросу " расна€ площадь" находитс€ 150 документов, в 70 из них содержитс€ словосочетание " расна€ площадь", а в остальных просто присутствуют эти слова ("красна€ баба кричала на всю площадь"), то точность поиска считаетс€ равной 70/150 (~0,5). „ем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречаетс€, тем реже найденные документы не соответствуют запросу.

ѕовышение точности в поисковой машине –амблер достигаетс€ за счет использовани€ различных технологий на всех этапах обработки и поиска информации. ќдним из наиболее интересных процессов €вл€етс€ распознавание грамматических омонимов. ќмонимы - это слова, которые имеют одинаковое написание, но различный смысл. –азличают лексические и грамматические омонимы. Ћексические омонимы относ€тс€ к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. √рамматические омонимы относ€тс€ к разным част€м речи, поэтому по написанию у них обычно совпадают только отдельные формы. ѕримерами грамматических омонимов могут служить слова "печь" - существительное русска€ "печь" и глагол "печь" пирожки; "р€довой" - прилагательное "р€довой" сотрудник и существительное "р€довой" »ванов.

ќмонимы не только увеличивают размер индексной базы (так как дл€ каждого такого слова приходитс€ хранить все его возможные значени€), но и отрицательно сказываютс€ на точности поиска. ≈сли пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". ƒл€ того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружени€ слов-омонимов с целью установлени€ их наиболее веро€тных значений. Ќапример, если р€дом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой веро€тностью "печь" в данном контексте €вл€етс€ глаголом. Ќа сегодн€шний день анализатор способен распознавать значени€ только грамматических омонимов.

—интаксический анализ позвол€ет также с определенной веро€тностью распознавать некоторые имена собственные. Ќапример, если в тексте несколько слов подр€д написано с большой буквы, они чаще всего представл€ют собой им€ собственное (ѕетр ѕетрович, ћосковский √осударственный ”ниверситет). ƒанные о таких конструкци€х учитываютс€ при индексации и обработке запроса.

≈ще один способ повышени€ точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. Ќа сегодн€шний день в –амблере реализована система распознавани€ таких конструкций, например C++, б/у, п/п-к. ≈сли по запросу —++ поднимать все тексты, в которых присутствуют латинска€ буква —, а также знак +, то получитс€ огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это больша€ работа, значительно увеличивающа€ врем€ поиска.

ќгромную роль в повышении точности поиска играет ранжирование. ѕользователь очень редко просматривает больше трех страниц с результатами поиска. ѕоэтому субъективно он оценивает точность по "верхним" документам. ƒаже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем.

ѕо умолчанию в –амблере результаты ранжируютс€ по степени соответстви€ (релевантности) запросу и группируютс€ по сайтам. ѕри ранжировании оцениваютс€ различные характеристики текстов, такие как:

  •  оличество вхождений слов (словосочетаний) в документ - чем больше раз словосочетание " расна€ площадь" присутствует в тексте, тем выше веро€тность, что в нем действительно говоритс€ о  расной площади;
  • –асположение слов запроса в документе - если словосочетание " расна€ площадь" присутствует в заголовках или названии документа, то документ с большей веро€тностью посв€щен  расной площади;
  • ‘ормы слов запроса - преимущество отдаетс€ вхождени€м, в которых слова имеют тот же падеж, число, склонение и т.д., что и в запросе пользовател€ (" расна€ площадь", а не " расной площадью"). ѕомимо точного совпадени€, выдел€ютс€ две группы форм слов - близкие и далекие. Ѕлизкими считаютс€ изменени€ по падежам, склонени€м, спр€жени€м, числам и родам. ƒалекими формами €вл€ютс€ причасти€, деепричасти€ и т.п. ѕри ранжировании преимущество отдаетс€ близким формам слов запроса.
  • –ассто€ние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оцениваетс€, насколько близко друг от друга расположены эти слова. ѕреимущество отдаетс€ документам, в которых слова запроса наход€тс€ ближе друг к другу, потому что в этом случае они с большей веро€тностью св€заны между собой. Ќапример, если слово " расна€" расположено в тексте на 5 позиции, а слово "площадь" - на 650, то скорее всего в документе речь идет не о  расной площади.
  • ќтносительна€ частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе) - если словосочетание встречаетс€ 10 раз в документе из 100 слов, то он скорее соответствует запросу, чем если оно встречаетс€ те же 10 раз в документе из 20 тыс€ч слов;
  • ѕопул€рность - поискова€ машина автоматически вычисл€ет коэффициент попул€рности каждой страницы »нтернет на основе данных счетчика Top100 и анализа гипертекстовых ссылок между страницами. ѕреимущество отдаетс€ более попул€рным ресурсам.
  • —сылочный вес документа - при ранжировании учитываетс€ ссылочный вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса. “ак, если на некоторый документ словами " расна€ площадь" ссылаетс€ большое количество страниц с высокими поэффициентами попул€рности, то ему отдаетс€ приоритет по запросу  расна€ площадь.

ѕомимо автоматических способов увеличени€ точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. ¬ первую очередь к ним относитс€ специальный €зык поискового запроса, использу€ который можно ограничивать количество найденных документов. Ќапример, запрос или его часть, вз€тые в кавычки, обрабатываютс€ буквально, с учетом всех стоп-слов, форм, пор€дка, знаков препинани€. Ёто повышает точность поиска, но уменьшает его полноту: если часть, заключенна€ в кавычки, неточна, нужный документ найден не будет.

»спользование логического оператора OR (»Ћ») позвол€ет расширить сферу поиска и увеличить его полноту, в то врем€ как оператор NOT (»-Ќ≈), наоборот, повышает точность поиска за счет нахождени€ документов, которые содержат одни слова запроса и не содержат другие. ƒл€ повышени€ точности можно также задавать рассто€ние между словами. ≈сли в искомом словосочетании пор€док слов обычно сохран€етс€ (например,  расна€ площадь), то в запросе дл€ повышени€ точности имеет смысл ограничить рассто€ние, указав его в скобках через зап€тую: (2,  расна€ площадь). Ёто позволит отсе€ть документы, в которых слова красна€ и площадь не расположены р€дом, а разбросаны по тексту.

”величить точность можно с помощью использовани€ поиска в найденном. ”точн€ющий поиск, проводитс€ уже не по всей индексной базе, а только по результатам предыдущего поиска. “аким образом, круг найденных документов сужаетс€. Ќапример, если дать запрос  расна€ площадь, а затем, провести поиск в найденном по запросу ћосква, то результат будет содержать только те документы, в которых говоритс€ о  расной площади города ћосквы.

јктуальность

јктуальность - не менее важна€ характеристика поиска, котора€ определ€етс€ временем, проход€щим с момента публикации документов в сети »нтернет, до занесени€ их в индексную базу. Ќапример, на следующий день после теракта в “ушино огромное количество пользователей обратились к поисковой машине –амблер с соответствующими запросами. ќбъективно с момента публикации новостной информации на эту тему прошло меньше суток. ќднако основные документы уже были заиндексированы и доступны дл€ поиска, благодар€ существованию "быстрой базы", котора€ обновл€етс€ два раза в день, а при необходимости может обновл€тьс€ быстрее.

Ќа сегодн€шний день индексна€ база поисковой системы –амблер состоит из 8 частей, кажда€ из которых живет своей независимой жизнью. ¬есь »нтернет условно разделен на 7 секторов и называетс€ своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. —айт компании –амблер относитс€ к голубому сектору. »нформаци€ о web-ресурсах каждого сектора хранитс€ в соответствующей части индексной базы. ¬осьма€ часть - "быстра€" - включает в себ€ страницы, на которых размещен счетчик “ор 100 и которые еще не успели попасть в основную индексную базу.

¬се части индексной базы собираютс€ и обновл€ютс€ по отдельности. “ак, сегодн€ происходит переиндексаци€ и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д. Ѕлагодар€ такому ступенчатому алгоритму в поисковой машине регул€рно по€вл€етс€ свежа€ информаци€. ѕолный цикл обновлени€ занимает около недели. ѕри этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. ѕоэтому существует принципиальна€ возможность обновл€ть индексную базу быстрее.

–азделение »нтернета на 7 секторов условно. ѕри необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатыватьс€ автономно. ¬ такой системе заложена возможность значительного увеличени€ нагрузки. — ростом объема информации в сети »нтернет растет и индексна€ база поисковой машины. ѕостепенно переиндексаци€ и сборка базы начинает занимать все больше времени, а процесс обновлени€ индекса становитс€ более громоздким. ѕоступление новых данных зат€гиваетс€, информаци€ начинает тер€ть свою актуальность. ¬озможность "передела" »нтернета на большее число секторов позвол€ет удерживать размер каждой части базы в оптимальном диапазоне, контролировать врем€ ее сборки и обновлени€.

"Ѕыстра€ база" отличаетс€ от остальных частей индекса меньшим объемом и очень оперативным обновлением: врем€ ее построени€ занимает около двух часов. ¬ базе содержитс€ информаци€ о страницах, на которых был установлен счетчик “ор 100. ”частниками рейтинга “ор 100 €вл€ютс€ новостные порталы, сайты крупных компаний, »нтернет-магазины, форумы, - все наиболее попул€рные ресурсы в сети.  аждый раз при установке счетчика на новую страницу сайта, зарегистрированного в “ор 100, информаци€ передаетс€ в поисковую систему. —траница ищетс€ во всех цветах основной базы и, если она еще не известна поисковой системе, отправл€етс€ в очередь на обработку. ѕеред обработкой страницы дополнительно фильтруютс€, из них отбираютс€ самые посещаемые. “аким образом, "сливки" с »нтернета собираютс€ два раза в день.

"Ѕыстра€ база" представл€ет собой разумное решение проблемы актуальности данных в поиске. »нформационное агентство может выложить новость через дес€ть минут после ее по€влени€, потому что тратит врем€ только на верстку страницы. ѕоискова€ машина должна сначала заиндексировать текст, а на это требуетс€ гораздо больше времени. "Ѕыстра€ база" охватывает все ресурсы »нтернет, зарегистрированные в “ор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. ѕри этом индексируютс€ как страницы с новост€ми, так и другие свежие документы, по€вившиес€ в “ор 100. ¬ результате через сутки после теракта в поиске –амблера была доступна не только основна€ информаци€, опубликованна€ на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывани€ очевидцев, обсуждени€ на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах »нтернета.

—корость поиска

—корость поиска тесно св€зана с его устойчивостью к нагрузкам. Ќа сегодн€шний день в рабочие часы к поисковой машине –амблер приходит около 60 запросов в секунду. “ака€ загруженность требует сокращени€ времени обработки отдельного запроса. «десь интересы пользовател€ и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поискова€ машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих.

«апрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровн€ - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправл€ет запрос дальше, на один из восьми proxy-серверов, также выбира€ наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). ќдновременно frontend отправл€ет запрос на машины, осуществл€ющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе “ор 100 (4.1 - 4.2, на рис. машине 4.1). Ќа proxy проводитс€ поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаютс€ на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) “а же информаци€ отправл€етс€ на машины с "быстрой базой" (6.1 - 6.2, на рис. 6.1).

Ќа текущий момент в поиск включено 77 backend'ов. ќни сгруппированы по 11 машин, и кажда€ группа содержит копию одной из частей поискового индекса. “аким образом, информаци€ о сайтах, условно вход€щих в красный сектор »нтернета, находитс€ на backend'ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправл€ет на него поисковый запрос с результатами ссылочного поиска. Ќа backend'ах осуществл€етс€ поиск по част€м индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. ѕри ранжировании дл€ всех найденных документов высчитываютс€ веса по конкретному запросу.

ѕосле того, как запрос обработан на backend'ах, информаци€ о результатах и ранжировании отдаетс€ обратно на proxy-сервер. “уда же поступают отсортированные результаты с машин "быстрой". Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объедин€ет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. “ак, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. Ќа proxy-сервере также реализуетс€ построение цитат к документам и подсветка слов запроса в тексте. ѕолученные результаты отдаютс€ на frontend.

ѕомимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы “ор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществл€ет окончательное объединение результатов, генерирует html со списком найденного, вставл€ет баннеры и перев€зки (ссылки на различные разделы –амблера) и отдает html Cisco, который маршрутизирует информацию пользователю.

 аждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Ѕлагодар€ дублированию информации поискова€ система –амблер €вл€етс€ устойчивой к сбо€м на отдельных участках, авари€м, отказам оборудовани€. ≈сли одна их машин перестала функционировать, нагрузка перераспредел€етс€ на другие машины, и выпадени€ документов из поиска не происходит. ћасштабируемость достигаетс€ простым добавлением в систему машин соответствующего уровн€. ƒо недавнего времени в –амблере работало 45 backend'а. ¬ св€зи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend'ов было увеличено до 77, что позволило значительно ускорить вычисление запросов.

≈ще один способ повышени€ скорости поиска - ", сохранение информации о запросах и результатах поиска в буфере. ћногие люди дают одни и те же поисковые запросы. ¬ычисл€ть их каждый раз заново было бы неразумной тратой времени. ѕоэтому если запрос уже обрабатывалс€ в течение некоторого интервала времени, результаты поиска отдаютс€ пользователю из ".

Ћингвистический анализ текста документов и запроса также позвол€ет ускорить обработку информации. Ќапример, определение значени€ омонимов уменьшает количество нерелевантных запросу документов, которые нужно ранжировать и цитировать. ¬ыделение устойчивых обозначений (—++, б/у) на этапах индексации и обработки запроса приводит одновременно к повышению точности и сокращению временных затрат на обработку каждого отдельного элемента обозначени€ (раньше запрос —++ обрабатывалс€ как отдельно латинское —, отдельно плюс и еще один плюс. «апрос вычисл€лс€ долго, а среди результатов поиска было много нерелевантных документов, например, страницы, содержащие математические формулы и т.п.) — этой же целью используютс€ словари стоп-слов. —топ-слова - это наиболее частотные слова €зыка, которые встречаютс€ практически в любом тексте и €вл€ютс€ малоинформативными. ¬ основном, это служебные слова - предлоги, частицы, артикли. ≈сли нет специальных указаний, поискова€ машина игнорирует стоп-слова, встречающиес€ в запросе, чтобы не тратить врем€ на обработку дополнительной информации, снижающей качество поиска.

Ќагл€дность

Ќагл€дность представлени€ результатов €вл€етс€ необходимым компонентом удобного поиска. Ќа плохой витрине легко не заметить хороший товар. ѕо большинству запросов поискова€ машина находит сотни, а то и тыс€чи документов. ¬ следствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Ёто означает, что пользователю часто приходитс€ проводить свой собственный поиск внутри списка найденного. –азличные элементы ответной страницы помогают ориентироватьс€ в результатах поиска.

√руппировка по сайтам предназначена дл€ того, чтобы на странице можно было вывести как можно больше »нтернет-ресурсов, релевантных запросу пользовател€. Ёто бывает важным, когда необходимо получить информацию из различных источников. ≈сли более информативной дл€ посетител€ €вл€етс€ дата обновлени€ или релевантность отдельных документов, в ответной странице –амблера существует возможность сортировки по этим параметрам.

¬ некоторых случа€х полезным бывает знание имени сайта. ≈сли пользовател€ интересует конкретный »нтернет-ресурс, им€ может дать ему гораздо больше информации, чем заголовок страницы или цитата.

≈сли запросу соответствует больше одной страницы с сайта, то в качестве результата поиска предъ€вл€етс€ наиболее релевантна€ из них, а ниже располагаетс€ частичный список остальных документов. Ёто увеличивает количество потенциально полезной информации на ответной странице и часто позвол€ет уточнить поиск без дополнительного запроса.

÷итата помогает определить, насколько полезную информацию содержит найденный документ. ќчень часто посетителю не требуетс€ переходить по ссылке, чтобы обнаружить, что текст не соответствует его интересам и потребност€м. »ногда ответ на вопрос пользовател€ содержитс€ непосредственно в цитате документа. Ёто экономит врем€ и повышает эффективность работы поисковой системы.

¬осстановить текст - иногда единственный способ получить доступ к содержимому найденного документа. –есурс бывает недоступен по разным причинам. ƒокумент может быть удален, перенесен, изменен, но его текстовое содержание некоторое врем€ сохран€етс€ в индексной базе.  роме того, внутри самого документа часто отсутствует навигаци€, позвол€юща€ быстро найти фрагмент, релевантный запросу. ¬ восстановленном тексте все слова запроса подсвечиваютс€.

јссоциации представл€ют собой список запросов, которые часто подаютс€ пользовател€ми в течении одной поисковой сессии. јлгоритм построени€ ассоциаций устроен так, что они почти всегда св€заны между собой по смыслу. ¬ некоторых случа€х ассоциации позвол€ют повысить качество поиска за счет уточнени€ запроса (запрос "отдых в ѕольше" - ассоциации "отдых в ѕольше с детьми", "семейный отдых", "пансионаты в ѕольше"), исправлени€ распространенных ошибок, возможности сориентироватьс€ в незнакомой тематике (запрос "антибиотик" - ассоциации "сумамед", "цифран", "бисептол" и т.д.)

¬место заключени€

«аключение пишетс€ в конце и предполагает конечность. Ќо рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. ¬ажнейшей задачей разработчиков €вл€етс€ улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы. — этой целью посто€нно мен€ютс€ поисковые алгоритмы, создаютс€ дополнительные сервисы, дорабатываетс€ дизайн.

ќднако дл€ того, чтобы выжить в мире динамичного »нтернета, при разработке необходимо закладывать большой запас устойчивости, посто€нно загл€дывать в завтрашний день и пример€ть будущую нагрузку на сегодн€шний поиск. ¬се, что сегодн€ программируетс€ в –амблере, рассчитано "на вырост". “акой подход позвол€ет заниматьс€ не только посто€нной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное дл€ повышени€ эффективности поиска в сети »нтернет.


»сточник: Rambler







—мотри также:
 ак работает асинхронный спутниковый интернет
 ак работает xDSL модем
 ак работает протокол IP
 ак работает глаз
 ак работает GPRS
 ак работают каналы RSS
 ак работает вебкамера
 ак работает технологи€ WiMax
 ак работает WiMax модем
 ак по€вилс€ символ @ - собака


Loading...


Ќовые статьи на сайтах портала:
 ак организм сжигает жир?
     ак работают вещи: статьи„еловекќрганизм человека /
 ак создали свет€щиес€ растени€?
     ак работают вещи: статьи“ехнологииЌовые технологии /
 ак светитс€ светл€чок?
     ак работают вещи: статьићир вокруг∆ивотный мир /
 ак работает большой адронный коллайдер
     ак работают вещи: статьи“ехнологии»сследование мира /
 ак нестандартно использовать вилку?
     ак работают вещи: статьи“вой дом—воими руками /
 ак вилка покорила мир?
    ѕроисхождение знаковѕроисхождение традиций«астольные /
 ак работает дополненна€ реальность?
     ак работают вещи: статьи“ехнологииЌовые технологии /


Ќовые комментарии:

  √остева€ книга:
luisms16 : Big Ass Photos - Free Huge But...
Georgenub : Де&#10...
clydegr11 : Browse over 500 000 of the bes...
johnniefs3 : Teen Girsl Pussy Pics. Hot gal...
careyvw18 : Sexy teen photo galleries htt...
mattiebb2 : New sexy website is available ...
Legenda7 : –Т–Р–°–Ш–Ы–Ш–°–Ђ–Э–Ю –°–І–Р–°...
julianua69 : Scandal porn galleries, daily ...
Flintdooring : For cells growing in denial di...





© 2008-2011 ¬сЄ, права защищены.
»нтернет-журнал "как работают вещи"
¬опросы и предложени€ ждем по адресу ashestopalov@yandex.ru

√лавна€ |  ак работают вещи | «наки | Ёнциклопеди€
 аталог сайтов |  арта | ¬се статьи раздела | —татистика | Ќовости
јвторы | јвторам