Утечка Google Content Warehouse 2024: что в ней реально важно для русскоязычного SEO
ИЛИгорь ЛавровАвтор
Что утекло и почему это не «ещё один слив»
23 года я в SEO. Утечка Google Content Warehouse не дала мне новых инструментов. Она дала мне конкретные слова, которыми теперь могу объяснить то, что и так видел по своим клиентским проектам. Это не просто «ещё один слив» — не случайно попавшие документы или чьи-то догадки из чатов. Это массивный дамп внутренней документации Google.
27 марта 2024 года на GitHub появился репозиторий. В нём — 2 596 модулей и 14 014 атрибутов, описывающих работу ранжирующих систем Google. Это не исходный код. Это внутренняя документация для инженеров: переменные, функции, алгоритмы, с комментариями. Google удалил репозиторий 7 мая 2024 года, но копии уже разошлись. Майк Кинг из iPullRank 27 мая сделал один из самых детальных публичных разборов. На его работе я во многом и опираюсь, дополняя своими наблюдениями.
Масштаб беспрецедентный. Документы утекли из Google Search API Content Warehouse. Эта система собирает, обрабатывает и хранит всю информацию, которую использует поисковик. Это не просто «инсайды», это технические спецификации. Многие SEO-специалисты годами строили гипотезы о работе Google. Они опирались на эксперименты и публичные заявления представителей компании. Теперь мы получили подтверждение или опровержение многих этих гипотез. И, что самое важное, мы получили словарь. Теперь можно говорить siteAuthority, а не «авторитет домена», NavBoost, а не «поведенческие факторы». Это позволяет точнее ставить задачи и анализировать результаты.
Конвейер ранжирования: Mustang → NavBoost → Twiddlers + три тира индекса
Утечка показала: Google — не монолитный алгоритм. Это сложная конвейерная система со множеством модулей и этапов. На верхнем уровне выделяют три ключевых компонента: Mustang, NavBoost и Twiddlers.
Mustang — это первичная система индексации и обработки документов. Она собирает информацию, парсит её, извлекает сущности, определяет тематику и выполняет множество других базовых операций. Это фундамент всего остального. Без Mustang нет индекса.
NavBoost — этот модуль обрабатывает поведенческие сигналы пользователей. Он анализирует, как люди взаимодействуют с результатами поиска: какие ссылки кликают, сколько времени проводят на сайте, возвращаются ли в выдачу. Об этом модуле поговорим подробнее. Его ключевая роль — оценка качества документа на основе реального пользовательского опыта.
Twiddlers — это набор небольших алгоритмов, или «твиков». Их применяют на финальной стадии ранжирования. Они корректируют позиции документов по разным факторам: свежесть контента, региональная релевантность, пользовательские предпочтения. Twiddlers — это те самые «маленькие алгоритмы», о которых часто говорят представители Google, когда объясняют изменения в выдаче.
Внутри этой системы есть трёхуровневый индекс:
- Base (Базовый индекс): Сюда попадает большинство документов. Это основной массив информации, на котором работает Google. Атрибут
scaledSelectionTierRankпоказывает, насколько документ «хорош», чтобы попасть в этот тир. - Zeppelins (Цеппелины): Это более качественная и актуальная часть индекса. Документы из Zeppelins получают приоритетную обработку. Их чаще показывают в выдаче. Попасть сюда значит иметь высокие шансы на видимость.
- Landfills (Свалки): Это низкокачественные, спамные или дублирующиеся документы. Google их индексирует, но почти никогда не показывает в выдаче. По сути, это цифровой мусор. Его хранят «на всякий случай», но не используют для ранжирования.
Понимание этой структуры говорит о том, что продвижение в Google — это не только попадание в индекс. Это борьба за место в более высоких тирах. Просто быть проиндексированным недостаточно.
Q*, P*, T* — три мегасигнала, на которых стоит весь Google
Утечка показала, что ранжирование Google сводится к трём мощным, всеобъемлющим сигналам. Я условно называю их Q*, P* и T*. Это не точные названия из документов, но они хорошо отражают суть:
-
Q (Quality Score)**: Это общий показатель качества и авторитетности домена. Включает
siteAuthority— тот самый «авторитет сайта», который Google публично отрицал годами.siteAuthorityформируется по множеству факторов: ссылочный профиль, возраст домена (hostAge), качество контента, поведенческие сигналы. Сюда же входитpredictedDefaultNsr— предсказанный нормализованный рейтинг качества. Он может быть версионирован, то есть для разных запросов или групп запросов у сайта может быть разныйpredictedDefaultNsr. По сути, Q показывает, насколько Google «доверяет» вашему сайту в целом. -
P (Popularity/Personalization Score)**: Этот сигнал напрямую связан с пользовательской активностью и популярностью. Ключевой атрибут здесь —
chromeInTotal. Это общий объём трафика на сайт из браузера Chrome. Google, благодаря своему браузеру, может уникально собирать данные о том, какие сайты посещает пользователь, как он с ними взаимодействует. Даже если это не прямой переход из поисковой выдачи. Это позволяет Google понимать реальную популярность ресурса и его полезность для пользователей. То есть, не только клики из SERP, но и прямые заходы, закладки, переходы по ссылкам из других источников — всё это формирует P. -
*T (Topicality/Text Score)**: Это оценка релевантности контента конкретному запросу. Утечка показала, что Google использует сложную систему анализа текста. Её можно разбить на ABC:
- A (Anchors): Анкорный текст ссылок, ведущих на документ. Атрибут
anchorMismatchDemotionпрямо указывает: несоответствие анкора контенту может понизить позиции. Google очень внимательно смотрит наfullLeftContextиfullRightContext— текст до и после анкора, чтобы понять реальный смысл ссылки. - B (Body): Основной текст документа. Здесь оценивают ключевые слова, синонимы, тематическую глубину, структуру контента.
- C (Clicks): Клики из поисковой выдачи, которые подтверждают релевантность контента. Если пользователи кликают на ваш сниппет по запросу, а потом быстро возвращаются в выдачу, это сигнал о низкой релевантности.
- A (Anchors): Анкорный текст ссылок, ведущих на документ. Атрибут
Эти три мегасигнала — Q*, P* и T* — взаимодействуют между собой. Они формируют окончательный рейтинг документа. Важно понимать: Google оценивает не только сам документ, но и домен в целом, а также поведенческие паттерны пользователей в течение длительного времени.
NavBoost: 13 месяцев кликов и почему это перевернуло понимание SEO
NavBoost — пожалуй, самое важное открытие утечки для SEO-специалистов. Годами Google публично отрицал использование кликов и поведенческих факторов как прямого ранжирующего сигнала. Но утечка показала, что NavBoost — не просто один из сигналов, а целая система. Она обрабатывает поведенческие данные с окном в 13 месяцев.
Вот ключевые атрибуты NavBoost, которые мы теперь знаем:
goodClicks: Клики, которые Google считает "хорошими" — пользователь перешёл на сайт и не вернулся в выдачу сразу.badClicks: Клики, которые Google считает "плохими" — пользователь перешёл на сайт, но быстро вернулся в выдачу (pogo-sticking).lastLongestClicks: По моим данным, это один из самых сильных позитивных сигналов. Пользователь, кликнув на ваш сайт, провёл на нём значительное время. И это был его последний клик в сессии по данному запросу. Это значит: пользователь нашёл ответ, и ему не нужно было возвращаться в поиск.unsquashedClicks: Очищенные от спама и аномалий клики.chromeInTotal: Мы уже говорили об этом — общий трафик из Chrome. Это не просто клики из SERP, а все переходы.
Панду Наяк (Pandu Nayak), вице-президент Google по поиску, под присягой в рамках антимонопольного дела (DOJ) заявил: «NavBoost is one of the most important quality signals». Теперь у нас есть документальное подтверждение его слов.
Что это меняет в понимании SEO? Раньше было много споров: влияют ли клики? Как Google их измеряет? Теперь мы знаем: влияют, измеряет комплексно, и окно анализа очень большое. Это значит, что краткосрочные накрутки, которые дают всплеск кликов на несколько дней, не дадут устойчивого эффекта. Если они не сопровождаются реальным удержанием пользователя и удовлетворением его потребности.
Для Google важно не просто, чтобы на ваш сайт кликнули. Важно, чтобы этот клик был качественным и последним в сессии. Это подтверждает: контент-маркетинг, нацеленный на полное раскрытие темы и удержание пользователя, становится ещё критичнее. Если ваш контент не решает проблему пользователя, NavBoost это увидит, и ваш сайт будет терять позиции.
Пять прямых лжей Google за последние 10 лет (по Mike King)
Майк Кинг в своём разборе утечки выделил пять ключевых областей. В них Google публично заявлял одно, а внутренняя документация показывает совсем другое. Это не просто «недоговорки», это прямые расхождения между публичными заявлениями и реальной работой алгоритмов.
siteAuthority: Google годами утверждал, что у них нет понятия «авторитет домена» или «авторитет сайта». Что каждый документ ранжируется индивидуально. Утечка прямо показывает атрибутsiteAuthority. Он агрегирует множество сигналов на уровне всего домена.- Клики как ранжирующий сигнал: Как я уже говорил, Google долго отрицал прямое влияние кликов на ранжирование. NavBoost и его атрибуты
goodClicks,badClicks,lastLongestClicksдоказывают обратное. Клики — не просто статистический показатель. Это один из важнейших качественных сигналов. - Использование данных из Chrome (
chromeInTotal): Представители Google заявляли: данные из Chrome не используют для ранжирования. Документация ясно показывает, чтоchromeInTotal— важный фактор в NavBoost. Он отражает общую популярность и посещаемость сайта из браузера Google. Когда Джон Мюллер говорил «Chrome не используем», я уже три года видел в логах своих клиентов, что Chrome-юзеры дают другой паттерн ранжирования. Просто называть это вслух было неприлично. - Sandbox (
hostAge): Google утверждал, что нет никакой «песочницы» для новых сайтов. И возраст домена не прямой ранжирующий фактор. АтрибутhostAgeи его влияние наsiteAuthorityпоказывают: новые домены действительно проходят период, когда им сложнее конкурировать с устоявшимися игроками. - YMYL-классификаторы: Google заявлял, что E-E-A-T (теперь E-E-A-T) — не прямой ранжирующий фактор, а скорее набор рекомендаций. Утечка показывает: существуют чёткие
YMYL-классификаторы. Они присваивают сайтам или документам определённый уровень чувствительности. И применяют к ним более строгие требования к качеству и авторитетности.
Эти расхождения не просто подрывают доверие к публичным заявлениям Google. Они показывают, насколько сложна и многогранна их система. И что некоторые аспекты Google предпочитает держать в тайне, чтобы не давать SEO-специалистам "рычаги" для манипуляций.
Что меняется в работе: contentEffort, ссылки-через-клик, отсоединённые сущности
Утечка не дала "секретной кнопки". Но она уточнила многие векторы работы.
contentEffort: Оценка труда в контенте
Атрибут contentEffort — это оценка усилий, вложенных в создание контента. Это не просто длина текста или количество ключевых слов. Google, похоже, использует LLM-модели (большие языковые модели) для оценки качества, глубины, оригинальности и полезности контента. Сюда входят атрибуты OriginalContentScore (насколько контент уникален), ContentChecksum96 (для определения дублей) и shingleInfo (для анализа уникальности фраз).
Что делать: Создавать по-настоящему полезный, глубокий и оригинальный контент. Метод «Киборга» (AI + ручная редактура) здесь очень актуален. Но редактура должна быть не поверхностной, а направленной на добавление экспертности и уникальных инсайтов. Контентные конвейеры, генерирующие "воду", получат низкий contentEffort и, как следствие, низкие позиции.
Ссылки-через-клик: Новая эра линкбилдинга
Утечка показала: Google использует трёхуровневый индекс ссылок. В нём учитывается TotalClicks страницы-донора. Это значит, что ссылка со страницы, на которую никто не кликает, или с сайта без трафика, будет иметь значительно меньший вес. А то и вовсе будет проигнорирована. Ссылка без кликов на доноре = невидима для Google.
Что делать: Пересмотреть стратегию линкбилдинга. Забыть про дешёвые ссылки с доноров без трафика. Фокусироваться на получении ссылок с реальных, живых сайтов, которые имеют трафик и активность. Это делает крауд-маркетинг (ссылки на форумах, в комментариях, где есть реальные пользователи) и гостевые публикации на трастовых ресурсах с хорошей посещаемостью гораздо более ценными, чем просто покупка ссылок на биржах с сайтов-доноров без трафика. Важен не только siteAuthority донора, но и его реальная "жизнь".
Также атрибут anchorMismatchDemotion и анализ fullLeftContext/fullRightContext подтверждают: анкорный профиль должен быть естественным. А ссылки — органично вписаны в контекст. Спамные анкоры или ссылки, вырванные из контекста, будут не только игнорироваться, но и могут привести к демотивации.
Отсоединённые сущности и HCU-фильтр
Шон Андерсон ещё до утечки говорил о концепции "отсоединённых сущностей". Утечка подтверждает: если у автора (authorReputationScore=0) или ресурса нет подтверждённой репутации, это может вызвать каскад негативных сигналов. Они ведут к фильтру Helpful Content System (HCU). Google ищет связь между контентом, автором/сайтом и реальным миром.
Что делать: Строить личный бренд автора (если возможно) или бренд компании. Указывать экспертов, источники данных. Повышать E-E-A-T не только декларативно, но и фактически. Создавать контент, который реально демонстрирует экспертность, авторитетность и доверие. Если ваш сайт не имеет "личности" или "лица", ему будет сложнее конкурировать.
А что в Яндексе — короткий честный мостик
После всех этих откровений про Google возникает логичный вопрос: а как же Яндекс? Он ведь остаётся ключевым игроком для российского бизнеса. И здесь, по моим данным, правила совершенно другие.
Главное отличие Яндекса от Google в контексте поведенческих факторов — в масштабе наблюдения за пользователем. У Яндекса есть свой Яндекс.Браузер (на базе Chromium, доля в РФ около 22-25%), есть Алиса, мобильное приложение Яндекс с Поиском, своя Метрика на огромном количестве сайтов. Это даёт Яндексу свой пул сигналов о поведении пользователей — серьёзный, но более узкий чем у Google. Google со своим Chrome (около 50% рынка в РФ), Android (доминирует), Gmail, Maps и YouTube собирает поведение принципиально шире — практически с любого сайта, куда заходит пользователь. Поэтому Яндекс при ранжировании сильнее опирается на сам СЕРП (поведение в выдаче — длинный клик, ластклик, возврат) и на данные Метрики, а не на глобальную «карту» пользователя на любом сайте, как Google через Chrome.
Яндекс же, не имея такого инструмента, опирается в основном на данные из своей поисковой выдачи (SERP) и, в меньшей степени, из Метрики. А данные из SERP гораздо легче поддаются манипуляциям. Именно это и есть техническая причина, почему ПФ (накрутка поведенческих факторов) в Яндексе работает, а в Google — нет.
Яндекс, конечно, борется с накруткой. Он использует антифрод, POW в капче, JA3-фингерпринты, анализирует кликовые vs хостовые ПФ, лайв-выдачу vs XML-выдачу. За последние 4 года непрерывной практики я не видел ни одного подтверждённого бана сайта за накрутку. Яндекс не банит, он давит экономически через антифрод. Он делает накрутку дороже, сложнее в реализации, но не блокирует сайты целиком. Подробнее об этом я писал в статье Почему Яндекс не банит за накрутку ПФ.
Мои исследования по 9 параметрам браузера, которые палят ботов Яндекса и по JA3-fingerprint и TLS-прокси для ПФ активно используются в приватном софте для ПФ, который мы разрабатываем. Это позволяет обходить антифрод-системы Яндекса, которые постоянно меняются. Например, статья POW в капче Яндекса: почему ПФ стала дороже показала, как усложнилась работа.
Таким образом, для российского SEO-специалиста важно понимать:
- Google: Работаем над реальным пользовательским опытом, брендовым трафиком, качеством контента, ссылками с живых ресурсов. Накрутка поведенческих в Google — прямой путь к фильтрам, так как система слишком умна и имеет слишком много данных.
- Яндекс: Работаем над техническим SEO, коммерческими факторами, классическим контентом. И да — ПФ до сих пор мощный инструмент для улучшения позиций, если она реализована грамотно и постоянно адаптируется под антифрод-системы. Это не значит, что можно игнорировать качество сайта, но ПФ-методики имеют свой вес.
Эти две поисковые системы требуют разных подходов, особенно в части работы с поведенческими факторами.
Что делать практику в 2026 — чек-лист без воды
Утечка Google Content Warehouse — не конец SEO. Скорее, новое начало. Она дала нам карту, но идти по ней всё равно придётся своими ногами. Вот что я рекомендую делать практику в 2026 году:
- Вкладывайтесь в качество контента (
contentEffort). Это не просто "много текста". Это глубокий, экспертный, уникальный контент. Он реально решает проблему пользователя. Используйте метод «Киборга» (AI + ручная редактура) для масштабирования, но не экономьте на финальной экспертной доработке. - Стройте реальный бренд и генерируйте "живой" трафик. Для Google NavBoost критически важны прямые заходы, брендовые запросы, переходы из Chrome. Работайте над узнаваемостью, используйте PR, социальные сети, email-маркетинг для привлечения реальных пользователей.
- Пересмотрите стратегию линкбилдинга. Забудьте про дешёвые ссылки с доноров без трафика. Фокусируйтесь на получении ссылок с сайтов, где есть реальная аудитория, клики и активность. Крауд-маркетинг, гостевые публикации на трастовых ресурсах с хорошей посещаемостью, упоминания в СМИ — вот что работает.
- Управляйте поведенческими факторами для Яндекса. Если ваш бизнес ориентирован на российский рынок, не игнорируйте ПФ. Но подходите к ней с умом: выбирайте подрядчиков, которые понимают принципы
POW,JA3-фингерпринтов,лайв vs XML-выдачи, и постоянно адаптируют свои технологии. - Контролируйте техническое SEO. Core Web Vitals, Schema.org, JS-рендеринг — это не исчезло. Это база, на которой строится всё остальное. Без крепкой технической основы даже самый лучший контент не будет ранжироваться.
- Будьте готовы к изменениям. Утечка показала: Google постоянно развивается. То, что сейчас выглядит как откровение, через 2 года станет учебником. Дальше будет больше утечек. Не от хакеров — от антимонопольных судов. Изучайте, экспериментируйте, не верьте на слово публичным заявлениям.
SEO — это не про обман поисковиков. Это про понимание их логики и адаптацию под неё. Для Google эта логика всё больше крутится вокруг реального пользователя и его удовлетворения. Для Яндекса, где сбор данных о поведении вне SERP затруднён, остаются свои, специфические методы.
Если вы ищете надёжные и проверенные решения для продвижения в Яндексе, включая эффективные ПФ-методики, которые постоянно адаптируются под меняющиеся алгоритмы антифрода, вы можете узнать подробнее о наших услугах на странице накрутка поведенческих факторов. Мы предлагаем прозрачные условия и реальные результаты, обкатанные на наших клиентских проектах.
Смотрите также

Лайв-выдача vs XML-выдача Яндекса: почему ПФ может крутиться, но не давать результата
Самый частый вопрос клиента после первой недели работы по ПФ: «Почему Топвизор показывает мой сайт в топ-3, а когда я открываю Яндекс сам — мой сайт не вижу?»

Почему Яндекс не банит за накрутку ПФ — и какой риск на самом деле есть
Четыре года непрерывной практики в накрутке поведенческих факторов — и ни одного подтверждённого бана сайта на наших проектах. Я специально подчёркиваю «подтверждённого», потому что разговоров про «нас забанили за ПФ» в…

POW в капче Яндекса: почему накрутка ПФ стала в 4 раза дороже
Один сервер раньше генерировал 80 000 кликов в сутки. Сейчас — не больше 20 000. Это разница в 4 раза за то же железо. Виноват POW (proof of work), который Яндекс встроил в капчу в 2024-2025 годах. Это не просто техниче…