Сео.Юнитсблог
Стратегия ПФ·

Утечка Google Content Warehouse 2024: что в ней реально важно для русскоязычного SEO

ИЛИгорь ЛавровАвтор
Утечка Google Content Warehouse 2024: что в ней реально важно для русскоязычного SEO

Что утекло и почему это не «ещё один слив»

23 года я в SEO. Утечка Google Content Warehouse не дала мне новых инструментов. Она дала мне конкретные слова, которыми теперь могу объяснить то, что и так видел по своим клиентским проектам. Это не просто «ещё один слив» — не случайно попавшие документы или чьи-то догадки из чатов. Это массивный дамп внутренней документации Google.

27 марта 2024 года на GitHub появился репозиторий. В нём — 2 596 модулей и 14 014 атрибутов, описывающих работу ранжирующих систем Google. Это не исходный код. Это внутренняя документация для инженеров: переменные, функции, алгоритмы, с комментариями. Google удалил репозиторий 7 мая 2024 года, но копии уже разошлись. Майк Кинг из iPullRank 27 мая сделал один из самых детальных публичных разборов. На его работе я во многом и опираюсь, дополняя своими наблюдениями.

Масштаб беспрецедентный. Документы утекли из Google Search API Content Warehouse. Эта система собирает, обрабатывает и хранит всю информацию, которую использует поисковик. Это не просто «инсайды», это технические спецификации. Многие SEO-специалисты годами строили гипотезы о работе Google. Они опирались на эксперименты и публичные заявления представителей компании. Теперь мы получили подтверждение или опровержение многих этих гипотез. И, что самое важное, мы получили словарь. Теперь можно говорить siteAuthority, а не «авторитет домена», NavBoost, а не «поведенческие факторы». Это позволяет точнее ставить задачи и анализировать результаты.

Конвейер ранжирования: Mustang → NavBoost → Twiddlers + три тира индекса

Утечка показала: Google — не монолитный алгоритм. Это сложная конвейерная система со множеством модулей и этапов. На верхнем уровне выделяют три ключевых компонента: Mustang, NavBoost и Twiddlers.

Mustang — это первичная система индексации и обработки документов. Она собирает информацию, парсит её, извлекает сущности, определяет тематику и выполняет множество других базовых операций. Это фундамент всего остального. Без Mustang нет индекса.

NavBoost — этот модуль обрабатывает поведенческие сигналы пользователей. Он анализирует, как люди взаимодействуют с результатами поиска: какие ссылки кликают, сколько времени проводят на сайте, возвращаются ли в выдачу. Об этом модуле поговорим подробнее. Его ключевая роль — оценка качества документа на основе реального пользовательского опыта.

Twiddlers — это набор небольших алгоритмов, или «твиков». Их применяют на финальной стадии ранжирования. Они корректируют позиции документов по разным факторам: свежесть контента, региональная релевантность, пользовательские предпочтения. Twiddlers — это те самые «маленькие алгоритмы», о которых часто говорят представители Google, когда объясняют изменения в выдаче.

Внутри этой системы есть трёхуровневый индекс:

  1. Base (Базовый индекс): Сюда попадает большинство документов. Это основной массив информации, на котором работает Google. Атрибут scaledSelectionTierRank показывает, насколько документ «хорош», чтобы попасть в этот тир.
  2. Zeppelins (Цеппелины): Это более качественная и актуальная часть индекса. Документы из Zeppelins получают приоритетную обработку. Их чаще показывают в выдаче. Попасть сюда значит иметь высокие шансы на видимость.
  3. Landfills (Свалки): Это низкокачественные, спамные или дублирующиеся документы. Google их индексирует, но почти никогда не показывает в выдаче. По сути, это цифровой мусор. Его хранят «на всякий случай», но не используют для ранжирования.

Понимание этой структуры говорит о том, что продвижение в Google — это не только попадание в индекс. Это борьба за место в более высоких тирах. Просто быть проиндексированным недостаточно.

Q*, P*, T* — три мегасигнала, на которых стоит весь Google

Утечка показала, что ранжирование Google сводится к трём мощным, всеобъемлющим сигналам. Я условно называю их Q*, P* и T*. Это не точные названия из документов, но они хорошо отражают суть:

  1. Q (Quality Score)**: Это общий показатель качества и авторитетности домена. Включает siteAuthority — тот самый «авторитет сайта», который Google публично отрицал годами. siteAuthority формируется по множеству факторов: ссылочный профиль, возраст домена (hostAge), качество контента, поведенческие сигналы. Сюда же входит predictedDefaultNsr — предсказанный нормализованный рейтинг качества. Он может быть версионирован, то есть для разных запросов или групп запросов у сайта может быть разный predictedDefaultNsr. По сути, Q показывает, насколько Google «доверяет» вашему сайту в целом.

  2. P (Popularity/Personalization Score)**: Этот сигнал напрямую связан с пользовательской активностью и популярностью. Ключевой атрибут здесь — chromeInTotal. Это общий объём трафика на сайт из браузера Chrome. Google, благодаря своему браузеру, может уникально собирать данные о том, какие сайты посещает пользователь, как он с ними взаимодействует. Даже если это не прямой переход из поисковой выдачи. Это позволяет Google понимать реальную популярность ресурса и его полезность для пользователей. То есть, не только клики из SERP, но и прямые заходы, закладки, переходы по ссылкам из других источников — всё это формирует P.

  3. *T (Topicality/Text Score)**: Это оценка релевантности контента конкретному запросу. Утечка показала, что Google использует сложную систему анализа текста. Её можно разбить на ABC:

    • A (Anchors): Анкорный текст ссылок, ведущих на документ. Атрибут anchorMismatchDemotion прямо указывает: несоответствие анкора контенту может понизить позиции. Google очень внимательно смотрит на fullLeftContext и fullRightContext — текст до и после анкора, чтобы понять реальный смысл ссылки.
    • B (Body): Основной текст документа. Здесь оценивают ключевые слова, синонимы, тематическую глубину, структуру контента.
    • C (Clicks): Клики из поисковой выдачи, которые подтверждают релевантность контента. Если пользователи кликают на ваш сниппет по запросу, а потом быстро возвращаются в выдачу, это сигнал о низкой релевантности.

Эти три мегасигнала — Q*, P* и T* — взаимодействуют между собой. Они формируют окончательный рейтинг документа. Важно понимать: Google оценивает не только сам документ, но и домен в целом, а также поведенческие паттерны пользователей в течение длительного времени.

NavBoost — пожалуй, самое важное открытие утечки для SEO-специалистов. Годами Google публично отрицал использование кликов и поведенческих факторов как прямого ранжирующего сигнала. Но утечка показала, что NavBoost — не просто один из сигналов, а целая система. Она обрабатывает поведенческие данные с окном в 13 месяцев.

Вот ключевые атрибуты NavBoost, которые мы теперь знаем:

  • goodClicks: Клики, которые Google считает "хорошими" — пользователь перешёл на сайт и не вернулся в выдачу сразу.
  • badClicks: Клики, которые Google считает "плохими" — пользователь перешёл на сайт, но быстро вернулся в выдачу (pogo-sticking).
  • lastLongestClicks: По моим данным, это один из самых сильных позитивных сигналов. Пользователь, кликнув на ваш сайт, провёл на нём значительное время. И это был его последний клик в сессии по данному запросу. Это значит: пользователь нашёл ответ, и ему не нужно было возвращаться в поиск.
  • unsquashedClicks: Очищенные от спама и аномалий клики.
  • chromeInTotal: Мы уже говорили об этом — общий трафик из Chrome. Это не просто клики из SERP, а все переходы.

Панду Наяк (Pandu Nayak), вице-президент Google по поиску, под присягой в рамках антимонопольного дела (DOJ) заявил: «NavBoost is one of the most important quality signals». Теперь у нас есть документальное подтверждение его слов.

Что это меняет в понимании SEO? Раньше было много споров: влияют ли клики? Как Google их измеряет? Теперь мы знаем: влияют, измеряет комплексно, и окно анализа очень большое. Это значит, что краткосрочные накрутки, которые дают всплеск кликов на несколько дней, не дадут устойчивого эффекта. Если они не сопровождаются реальным удержанием пользователя и удовлетворением его потребности.

Для Google важно не просто, чтобы на ваш сайт кликнули. Важно, чтобы этот клик был качественным и последним в сессии. Это подтверждает: контент-маркетинг, нацеленный на полное раскрытие темы и удержание пользователя, становится ещё критичнее. Если ваш контент не решает проблему пользователя, NavBoost это увидит, и ваш сайт будет терять позиции.

Пять прямых лжей Google за последние 10 лет (по Mike King)

Майк Кинг в своём разборе утечки выделил пять ключевых областей. В них Google публично заявлял одно, а внутренняя документация показывает совсем другое. Это не просто «недоговорки», это прямые расхождения между публичными заявлениями и реальной работой алгоритмов.

  1. siteAuthority: Google годами утверждал, что у них нет понятия «авторитет домена» или «авторитет сайта». Что каждый документ ранжируется индивидуально. Утечка прямо показывает атрибут siteAuthority. Он агрегирует множество сигналов на уровне всего домена.
  2. Клики как ранжирующий сигнал: Как я уже говорил, Google долго отрицал прямое влияние кликов на ранжирование. NavBoost и его атрибуты goodClicks, badClicks, lastLongestClicks доказывают обратное. Клики — не просто статистический показатель. Это один из важнейших качественных сигналов.
  3. Использование данных из Chrome (chromeInTotal): Представители Google заявляли: данные из Chrome не используют для ранжирования. Документация ясно показывает, что chromeInTotal — важный фактор в NavBoost. Он отражает общую популярность и посещаемость сайта из браузера Google. Когда Джон Мюллер говорил «Chrome не используем», я уже три года видел в логах своих клиентов, что Chrome-юзеры дают другой паттерн ранжирования. Просто называть это вслух было неприлично.
  4. Sandbox (hostAge): Google утверждал, что нет никакой «песочницы» для новых сайтов. И возраст домена не прямой ранжирующий фактор. Атрибут hostAge и его влияние на siteAuthority показывают: новые домены действительно проходят период, когда им сложнее конкурировать с устоявшимися игроками.
  5. YMYL-классификаторы: Google заявлял, что E-E-A-T (теперь E-E-A-T) — не прямой ранжирующий фактор, а скорее набор рекомендаций. Утечка показывает: существуют чёткие YMYL-классификаторы. Они присваивают сайтам или документам определённый уровень чувствительности. И применяют к ним более строгие требования к качеству и авторитетности.

Эти расхождения не просто подрывают доверие к публичным заявлениям Google. Они показывают, насколько сложна и многогранна их система. И что некоторые аспекты Google предпочитает держать в тайне, чтобы не давать SEO-специалистам "рычаги" для манипуляций.

Что меняется в работе: contentEffort, ссылки-через-клик, отсоединённые сущности

Утечка не дала "секретной кнопки". Но она уточнила многие векторы работы.

contentEffort: Оценка труда в контенте

Атрибут contentEffort — это оценка усилий, вложенных в создание контента. Это не просто длина текста или количество ключевых слов. Google, похоже, использует LLM-модели (большие языковые модели) для оценки качества, глубины, оригинальности и полезности контента. Сюда входят атрибуты OriginalContentScore (насколько контент уникален), ContentChecksum96 (для определения дублей) и shingleInfo (для анализа уникальности фраз). Что делать: Создавать по-настоящему полезный, глубокий и оригинальный контент. Метод «Киборга» (AI + ручная редактура) здесь очень актуален. Но редактура должна быть не поверхностной, а направленной на добавление экспертности и уникальных инсайтов. Контентные конвейеры, генерирующие "воду", получат низкий contentEffort и, как следствие, низкие позиции.

Ссылки-через-клик: Новая эра линкбилдинга

Утечка показала: Google использует трёхуровневый индекс ссылок. В нём учитывается TotalClicks страницы-донора. Это значит, что ссылка со страницы, на которую никто не кликает, или с сайта без трафика, будет иметь значительно меньший вес. А то и вовсе будет проигнорирована. Ссылка без кликов на доноре = невидима для Google. Что делать: Пересмотреть стратегию линкбилдинга. Забыть про дешёвые ссылки с доноров без трафика. Фокусироваться на получении ссылок с реальных, живых сайтов, которые имеют трафик и активность. Это делает крауд-маркетинг (ссылки на форумах, в комментариях, где есть реальные пользователи) и гостевые публикации на трастовых ресурсах с хорошей посещаемостью гораздо более ценными, чем просто покупка ссылок на биржах с сайтов-доноров без трафика. Важен не только siteAuthority донора, но и его реальная "жизнь". Также атрибут anchorMismatchDemotion и анализ fullLeftContext/fullRightContext подтверждают: анкорный профиль должен быть естественным. А ссылки — органично вписаны в контекст. Спамные анкоры или ссылки, вырванные из контекста, будут не только игнорироваться, но и могут привести к демотивации.

Отсоединённые сущности и HCU-фильтр

Шон Андерсон ещё до утечки говорил о концепции "отсоединённых сущностей". Утечка подтверждает: если у автора (authorReputationScore=0) или ресурса нет подтверждённой репутации, это может вызвать каскад негативных сигналов. Они ведут к фильтру Helpful Content System (HCU). Google ищет связь между контентом, автором/сайтом и реальным миром. Что делать: Строить личный бренд автора (если возможно) или бренд компании. Указывать экспертов, источники данных. Повышать E-E-A-T не только декларативно, но и фактически. Создавать контент, который реально демонстрирует экспертность, авторитетность и доверие. Если ваш сайт не имеет "личности" или "лица", ему будет сложнее конкурировать.

А что в Яндексе — короткий честный мостик

После всех этих откровений про Google возникает логичный вопрос: а как же Яндекс? Он ведь остаётся ключевым игроком для российского бизнеса. И здесь, по моим данным, правила совершенно другие.

Главное отличие Яндекса от Google в контексте поведенческих факторов — в масштабе наблюдения за пользователем. У Яндекса есть свой Яндекс.Браузер (на базе Chromium, доля в РФ около 22-25%), есть Алиса, мобильное приложение Яндекс с Поиском, своя Метрика на огромном количестве сайтов. Это даёт Яндексу свой пул сигналов о поведении пользователей — серьёзный, но более узкий чем у Google. Google со своим Chrome (около 50% рынка в РФ), Android (доминирует), Gmail, Maps и YouTube собирает поведение принципиально шире — практически с любого сайта, куда заходит пользователь. Поэтому Яндекс при ранжировании сильнее опирается на сам СЕРП (поведение в выдаче — длинный клик, ластклик, возврат) и на данные Метрики, а не на глобальную «карту» пользователя на любом сайте, как Google через Chrome.

Яндекс же, не имея такого инструмента, опирается в основном на данные из своей поисковой выдачи (SERP) и, в меньшей степени, из Метрики. А данные из SERP гораздо легче поддаются манипуляциям. Именно это и есть техническая причина, почему ПФ (накрутка поведенческих факторов) в Яндексе работает, а в Google — нет.

Яндекс, конечно, борется с накруткой. Он использует антифрод, POW в капче, JA3-фингерпринты, анализирует кликовые vs хостовые ПФ, лайв-выдачу vs XML-выдачу. За последние 4 года непрерывной практики я не видел ни одного подтверждённого бана сайта за накрутку. Яндекс не банит, он давит экономически через антифрод. Он делает накрутку дороже, сложнее в реализации, но не блокирует сайты целиком. Подробнее об этом я писал в статье Почему Яндекс не банит за накрутку ПФ.

Мои исследования по 9 параметрам браузера, которые палят ботов Яндекса и по JA3-fingerprint и TLS-прокси для ПФ активно используются в приватном софте для ПФ, который мы разрабатываем. Это позволяет обходить антифрод-системы Яндекса, которые постоянно меняются. Например, статья POW в капче Яндекса: почему ПФ стала дороже показала, как усложнилась работа.

Таким образом, для российского SEO-специалиста важно понимать:

  • Google: Работаем над реальным пользовательским опытом, брендовым трафиком, качеством контента, ссылками с живых ресурсов. Накрутка поведенческих в Google — прямой путь к фильтрам, так как система слишком умна и имеет слишком много данных.
  • Яндекс: Работаем над техническим SEO, коммерческими факторами, классическим контентом. И да — ПФ до сих пор мощный инструмент для улучшения позиций, если она реализована грамотно и постоянно адаптируется под антифрод-системы. Это не значит, что можно игнорировать качество сайта, но ПФ-методики имеют свой вес.

Эти две поисковые системы требуют разных подходов, особенно в части работы с поведенческими факторами.

Что делать практику в 2026 — чек-лист без воды

Утечка Google Content Warehouse — не конец SEO. Скорее, новое начало. Она дала нам карту, но идти по ней всё равно придётся своими ногами. Вот что я рекомендую делать практику в 2026 году:

  1. Вкладывайтесь в качество контента (contentEffort). Это не просто "много текста". Это глубокий, экспертный, уникальный контент. Он реально решает проблему пользователя. Используйте метод «Киборга» (AI + ручная редактура) для масштабирования, но не экономьте на финальной экспертной доработке.
  2. Стройте реальный бренд и генерируйте "живой" трафик. Для Google NavBoost критически важны прямые заходы, брендовые запросы, переходы из Chrome. Работайте над узнаваемостью, используйте PR, социальные сети, email-маркетинг для привлечения реальных пользователей.
  3. Пересмотрите стратегию линкбилдинга. Забудьте про дешёвые ссылки с доноров без трафика. Фокусируйтесь на получении ссылок с сайтов, где есть реальная аудитория, клики и активность. Крауд-маркетинг, гостевые публикации на трастовых ресурсах с хорошей посещаемостью, упоминания в СМИ — вот что работает.
  4. Управляйте поведенческими факторами для Яндекса. Если ваш бизнес ориентирован на российский рынок, не игнорируйте ПФ. Но подходите к ней с умом: выбирайте подрядчиков, которые понимают принципы POW, JA3-фингерпринтов, лайв vs XML-выдачи, и постоянно адаптируют свои технологии.
  5. Контролируйте техническое SEO. Core Web Vitals, Schema.org, JS-рендеринг — это не исчезло. Это база, на которой строится всё остальное. Без крепкой технической основы даже самый лучший контент не будет ранжироваться.
  6. Будьте готовы к изменениям. Утечка показала: Google постоянно развивается. То, что сейчас выглядит как откровение, через 2 года станет учебником. Дальше будет больше утечек. Не от хакеров — от антимонопольных судов. Изучайте, экспериментируйте, не верьте на слово публичным заявлениям.

SEO — это не про обман поисковиков. Это про понимание их логики и адаптацию под неё. Для Google эта логика всё больше крутится вокруг реального пользователя и его удовлетворения. Для Яндекса, где сбор данных о поведении вне SERP затруднён, остаются свои, специфические методы.


Если вы ищете надёжные и проверенные решения для продвижения в Яндексе, включая эффективные ПФ-методики, которые постоянно адаптируются под меняющиеся алгоритмы антифрода, вы можете узнать подробнее о наших услугах на странице накрутка поведенческих факторов. Мы предлагаем прозрачные условия и реальные результаты, обкатанные на наших клиентских проектах.

Смотрите также

Лайв-выдача vs XML-выдача Яндекса: почему ПФ может крутиться, но не давать результата
Стратегия ПФ·

Лайв-выдача vs XML-выдача Яндекса: почему ПФ может крутиться, но не давать результата

Самый частый вопрос клиента после первой недели работы по ПФ: «Почему Топвизор показывает мой сайт в топ-3, а когда я открываю Яндекс сам — мой сайт не вижу?»

Почему Яндекс не банит за накрутку ПФ — и какой риск на самом деле есть
Стратегия ПФ·

Почему Яндекс не банит за накрутку ПФ — и какой риск на самом деле есть

Четыре года непрерывной практики в накрутке поведенческих факторов — и ни одного подтверждённого бана сайта на наших проектах. Я специально подчёркиваю «подтверждённого», потому что разговоров про «нас забанили за ПФ» в…

POW в капче Яндекса: почему накрутка ПФ стала в 4 раза дороже
Антифрод и техника·

POW в капче Яндекса: почему накрутка ПФ стала в 4 раза дороже

Один сервер раньше генерировал 80 000 кликов в сутки. Сейчас — не больше 20 000. Это разница в 4 раза за то же железо. Виноват POW (proof of work), который Яндекс встроил в капчу в 2024-2025 годах. Это не просто техниче…