Posts tagged ‘google’

августа 28, 2010

Как работает Google?

by Monk Albino

via Артём Тагиров & Перевод vanya-ronin

сентября 27, 2008

История Google

by Monk Albino

В связи с недавним юбилеем (10 лет) популярнейший поисковый сервис Google сделал интерактивную временную шкалу своей истории:

Google

via Гикерские штучки

июля 26, 2008

Google: Мы знали, что Сеть большая…

by Monk Albino

Нам уже долгое время известно, что Сеть большая! Первый индекс Google в 1998 году уже состоял из 26 миллионов страниц, в 2000 году индекс достиг 1 миллиарда. За последние 8 лет мы видели множество предположений о том, сколько же всего там страниц. В последнее время даже наши инженеры по поиску входят в ступор по поводу того, как огромна Сеть сегодня – после сообщения нашей системы о том, что программа по поиску ссылок нашла 1 триллион (1 000 000 000 000) уникальных URL!

Как мы нашли все эти страницы? Мы начинали со страницы, обильной ссылками, и переходили по каждой из этих ссылок на новые страницы. Потом мы переходили по ссылкам с этих страниц и получали большой список ссылок. По сути мы нашли больше, чем 1 триллион уникальных ссылок, но не все они ведут к уникальным страницам. Многие страницы имеют несколько адресов с точно таким же содержанием. Даже после удаления таких точных копий, мы получили триллион уникальных адресов, и тем временем количество отдельных веб-страниц растет по несколько миллиардов в сутки.

Итак, сколько же уникальных страниц реально содержится в Сети? Мы не знаем, у нас нет времения смотреть их все! :) Строго говоря, число страниц бесконечно: к примеру, веб-календарь содержит ссылку на «следующий день», и мы могли бы переходить по ним и получать каждый раз «новые» страницы. Мы, естественно, не делаем этого, поскольку пользы для вас там мало. Но этот пример показывает, что размер действительно зависит от вашего представления о полезности страницы, и нет ответа на вопрос о размерах.

Мы не индексируем каждую из этих триллионов страниц, потому что многие из них похожи друг на друга или автоматически генерируются подобно этому календарю и не интересны для вас. Но мы гордимся тем, что у нас самый полный индекс, нежели в других поисковых системах, и нашей целью всегда была индексация всех данных, со всего мира.

Чтобы идти в ногу с этим объемом информации, наши поисковые системы прошли долгий путь с первого набора данных, которым Google ответил на перый запрос. Тогда мы делали все возможное: одной рабочей станцией можно было бы вычислить граф PageRank для 26 миллионов страниц за пару часов, и набор страниц будет использоваться в качестве индекса Google за опреденный период времени. Сегодня Google качает Сеть непрерывно, собирая обновленную информацию со страниц, и снова обрабатывает ссылку на графе несколько раз в день. Этот граф в один триллион адресов похож на карту с изображением триллионов перекрестков. Так что несколько раз в день мы вычисляем эквивалент всех пересечейний всех дорог в США. Кроме того, эта карты была бы в 50 000 раз больше, чем подобная карта США с 50 000 дорог и перекрестков.

Как вы видите наша инфраструктура распределенных вычислений позволяет эффективно подходить к построению графа с множеством триллионов связей или быстро сортировать петабайты данных для того, чтобы подготовить ответ на самый главный вопрос – ваш будущий поисковый запрос к Google.

Джесси Альперт и Ниссан Хаджаж, инженеры-программисты из команды инфраструктуры веб-поиска Google.

перевод сообщения из Official Google Blog.