Нам уже долгое время известно, что Сеть большая! Первый индекс Google в 1998 году уже состоял из 26 миллионов страниц, в 2000 году индекс достиг 1 миллиарда. За последние 8 лет мы видели множество предположений о том, сколько же всего там страниц. В последнее время даже наши инженеры по поиску входят в ступор по поводу того, как огромна Сеть сегодня – после сообщения нашей системы о том, что программа по поиску ссылок нашла 1 триллион (1 000 000 000 000) уникальных URL!
Как мы нашли все эти страницы? Мы начинали со страницы, обильной ссылками, и переходили по каждой из этих ссылок на новые страницы. Потом мы переходили по ссылкам с этих страниц и получали большой список ссылок. По сути мы нашли больше, чем 1 триллион уникальных ссылок, но не все они ведут к уникальным страницам. Многие страницы имеют несколько адресов с точно таким же содержанием. Даже после удаления таких точных копий, мы получили триллион уникальных адресов, и тем временем количество отдельных веб-страниц растет по несколько миллиардов в сутки.
Итак, сколько же уникальных страниц реально содержится в Сети? Мы не знаем, у нас нет времения смотреть их все!
Строго говоря, число страниц бесконечно: к примеру, веб-календарь содержит ссылку на «следующий день», и мы могли бы переходить по ним и получать каждый раз «новые» страницы. Мы, естественно, не делаем этого, поскольку пользы для вас там мало. Но этот пример показывает, что размер действительно зависит от вашего представления о полезности страницы, и нет ответа на вопрос о размерах.
Мы не индексируем каждую из этих триллионов страниц, потому что многие из них похожи друг на друга или автоматически генерируются подобно этому календарю и не интересны для вас. Но мы гордимся тем, что у нас самый полный индекс, нежели в других поисковых системах, и нашей целью всегда была индексация всех данных, со всего мира.
Чтобы идти в ногу с этим объемом информации, наши поисковые системы прошли долгий путь с первого набора данных, которым Google ответил на перый запрос. Тогда мы делали все возможное: одной рабочей станцией можно было бы вычислить граф PageRank для 26 миллионов страниц за пару часов, и набор страниц будет использоваться в качестве индекса Google за опреденный период времени. Сегодня Google качает Сеть непрерывно, собирая обновленную информацию со страниц, и снова обрабатывает ссылку на графе несколько раз в день. Этот граф в один триллион адресов похож на карту с изображением триллионов перекрестков. Так что несколько раз в день мы вычисляем эквивалент всех пересечейний всех дорог в США. Кроме того, эта карты была бы в 50 000 раз больше, чем подобная карта США с 50 000 дорог и перекрестков.
Как вы видите наша инфраструктура распределенных вычислений позволяет эффективно подходить к построению графа с множеством триллионов связей или быстро сортировать петабайты данных для того, чтобы подготовить ответ на самый главный вопрос – ваш будущий поисковый запрос к Google.
Джесси Альперт и Ниссан Хаджаж, инженеры-программисты из команды инфраструктуры веб-поиска Google.
перевод сообщения из Official Google Blog.