Патенты Google · DOJ testimony 2025 · KBT 2015 · API Leak 2024

Как Google оценивает контент

Полная система v2 · 7 слоёв + матрица сигналов + магнитуда факта/действия + Hub-and-Spoke Silo + пороги исключения

Матрица
4 вердикта по комбинации ключи × смысл × связи
KBT + Магнитуда
Fact_magnitude × Action_magnitude из Knowledge-Based Trust
Hub-and-Spoke
Иерархическая закольцовка: siteEmbedding + topical clustering
Пороги
Confidence + Relevance threshold → Discard
7 слоёв L1→QS
Полный pipeline оценки документа
Источники
Патенты US · DOJ 2025 · Leak 2024 · KBT paper 2015
Матрица классификации текста
Google классифицирует документ по трём сигналам: наличие ключей × глубина смысла × качество семантических связей.
Ключи есть + Смысла много
Topical Centrality
entity_centrality_score
Идеал. Ключевая фраза + богатый семантический контекст. Высокая магнитуда фактов, активные предикаты, полные атрибуты сущности.
Ключи есть + Смысла мало
Keyword Stuffing
redundancy_penalty
Много ключей, мало смысла. Нулевые SVO-тройки, слабые предикаты ("у нас есть"), нет числовых фактов.
Ключей мало + Смысла много
Semantic Relevance
semantic_similarity_score
Богатый документ без явных ключей. Google понимает через embeddings и граф синонимов.
Ключей много + Связи слабые
Spam / Gibberish
bad_ss_corrupt_text
Высокая плотность + слабые семантические связи. Co-occurrence не подтверждается корпусной моделью.
C.S.
entity_centrality_score — как достичь Topical Centrality
US20150278366 · Topical Entities · TF × IDF formula
// US20150278366 initial_centrality(E) = sum(outgoing_edge_weights) / sum(all_edge_weights) final_centrality(E) = initial_centrality × TF(E,doc) × IDF_inverse(E,corpus) // "аккредитив" на странице про торговое финансирование = высокий IDF
✓ Высокий centrality
Главная сущность доминирует в тексте
Специфическая терминология ниши (высокий IDF)
Богатые атрибуты и связи вокруг сущности
✗ Низкий centrality
Общие слова: "лучший", "выгодный", "надёжный"
Ключевое слово без контекстных атрибутов
Сущность упоминается, но не описывается
US20150278366entity_centrality_score
Магнитуда факта и магнитуда действия
Из Knowledge-Based Trust (Google Research 2015). Не все SVO-тройки равны. Два независимых веса: значимость факта (Object) и активность предиката (Verb).
Магнитуда факта (Object weight)
Значимость и верифицируемость объекта: Triple_correctness × Non-trivialness × Topic_relevance.
Высокая: "ставка 16,5% при сроке от 91 дня"
Низкая: "выгодные условия по вкладу"
Магнитуда действия (Predicate weight)
Информационный вес предиката. Сильный — изменяет состояние. Слабый — описывает существование.
Высокая: "снижает", "составляет", "превышает"
Низкая: "есть", "имеет", "предлагает"
Примеры из финансовой тематики
Ставка по вкладу «Максимум»составляет16,5% годовых при сроке от 91 дняФакт ↑ Действие ↑
ЦБ РФповысилключевую ставку с 13% до 16% на заседании 15.12.2023Факт ↑ Действие ↑
Досрочное расторжениеснижаетдоходность до 0,01% годовых (ставка до востребования)Факт ↑ Действие ↑
Сбербанкпредлагаетвыгодные условия по вкладам для клиентовФакт ↓ Действие ↓
У насестьвысокие ставки и надёжностьФакт ↓ Действие ↓
4 критерия KBT (2.8B triples · 119M web pages)
Triple correctness
Соответствие Knowledge Vault. P(fact correct | source) → confidence level.
Числа из ЦБ РФ = высокий correctness
Extraction correctness
Уверенность в правильном извлечении SVO из текста. Явная конструкция → высокий score.
Чёткое SVO → extraction score ↑
Topic relevance
Релевантность факта теме источника. Ставка ЦБ на финансовом сайте > на кулинарном.
[ключевая ставка] на finance.ru > food.ru
Non-trivialness
Фильтр тривиального. "Вклад открывается в рублях" — везде, не повышает KBT.
Тривиальный факт = магнитуда ≈ 0
// KBT Score (Google Research 2015): Fact_magnitude = triple_correctness × non_trivialness × topic_relevance Action_magnitude = information_weight(predicate) Triple_value = Fact_magnitude × Action_magnitude × extraction_confidence InformationGain = New_Triples_high_Triple_value / Total_Triples_in_Cluster
V+
Тест на магнитуду + сильные vs слабые предикаты
Практика: удали ключевое слово — что осталось?
Тест: удали ключевое слово. Если ценность сохранилась — Verifiable Unit.
Высокая
"Минимальный порог открытия вклада — 50 000 ₽" → без "вклада": "минимальный порог — 50 000 ₽" — конкретный факт остался
Высокая
"ЦБ повысил ставку с 13% до 16% в декабре 2023" → без "ЦБ": "ставку повысили с 13% до 16% в декабре 2023" — факт и дата сохранились
Нулевая
"У нас лучшие ставки по вкладам" → без "вкладам": "у нас лучшие ставки" — ноль информации
Нулевая
"Наши финансовые продукты — надёжные решения для вас" — это шум, не факт
// Предикаты с ВЫСОКОЙ Action magnitude: снижает / повышает / достигает / превышает / не превышает составляет / равняется / вырос / упал / изменился обеспечивает / гарантирует / ограничивает // Предикаты с НИЗКОЙ Action magnitude: есть / имеет / предлагает / является / реализует / осуществляет
✓ Высокая Action magnitude
"ЦБ повысил ключевую ставку с 13% до 16% (дек. 2023)"
"Досрочное закрытие снижает доход до 0,01% годовых"
"Инфляция достигла 7,4% в годовом выражении"
"Минимальная сумма составляет 50 000 ₽"
✗ Низкая Action magnitude
"У нас есть выгодные вклады для физических лиц"
"Банк предлагает надёжные решения для сбережений"
"Ставки представляют собой конкурентные условия"
"Вклад является хорошим способом сохранить деньги"
KBT 2015L1: Proposition LayerT: Triplet Layer
Триплетная уникальность: новый факт, не новое слово
Классическое SEO: уникальность = заменил "начисляет" на "выдаёт". Инженерное SEO: уникальность = новая SVO-тройка с высокой магнитудой, которой нет у конкурентов в Knowledge Vault кластера.
InformationGain  =  New_Triples (высокая Fact × Action magnitude)Total_Triples_in_Cluster
Тройки со слабыми предикатами или тривиальными объектами НЕ увеличивают IG — они отфильтровываются через KBT Non-trivialness.
Финансовая тема — разная ценность триплетов
Ставка по вкладу «Накопительный»составляет15,5% при автопополнении от 10 000 ₽IG +1
НДФЛ на доход по вкладуначисляетсяна сумму свыше 150 000 ₽ (ключ. ставка × 1 млн)IG +1
Капитализация процентовувеличиваетэффективную ставку с 16% до 17,23% годовыхIG +1
Сбербанкпредлагаетвклады с высокими ставкамиIG +0 (тривиально)
Открыть вкладможнов отделении банка или онлайнIG +0 (тривиально)
+IG
Источники новых триплетов — финансовая тематика
Что добавляет IG, чего нет у конкурентов
// Шаблоны с высоким Triple_value: "[Продукт X] [активный глагол] [конкретное значение + условие]" "По данным ЦБ РФ за [дата]: [показатель] [изменился] на [число]%" "При [условие]: [субъект] [глагол изменения] [результат с числом]" "[Продукт A] отличается от [Продукт B] тем, что [конкретный атрибут]" // НЕ создают IG (Triple_value ≈ 0): "[Банк] предлагает [прилагательное] [продукт]" "У нас [нечто хорошее] для [целевой аудитории]"
✓ Новый триплет (IG+)
Конкретная ставка + условие + срок действия
Расчёт НДФЛ с точным порогом и формулой
Сравнение эффективной ставки с/без капитализации
Условие досрочного закрытия с точным снижением
Исторические данные: ставка 6 месяцев назад vs сейчас
✗ Нулевой IG
Прилагательные без числового подтверждения
"Надёжный банк с многолетней историей"
Повторение того же факта другими словами
"Вклад можно открыть быстро и удобно"
Information Gain patent 2022KBT 2015T Layer
Hub-and-Spoke Topical Silo (L3.1)
Layer 3: Structural Integrity. Базируется на P16 (Vertical Topical Silos). Формула: [Хаб] ↔ [Дочерняя] ↔ [Страница продукта]. Поисковик должен видеть "дерево знаний".
Хаб: Вклады физических лиц (общая страница темы)
↕   ↕   ↕
Вклады с капитализацией
Вклады с пополнением
Валютные вклады
↕   ↕   ↕
Вклад «Максимум» Сбербанк
Вклад «Надёжный» ВТБ
Обзор Сбербанк 2025
Нарушения Silo:
✗ Статья «Вклад Сбербанк» → Главная сайта
✗ Статья «Вклад ВТБ» → Статья «Как взять ипотеку»
Machine-aligned signals (Google Leak 2024 + P16)
siteEmbedding stability
Семантический вектор сайта стабилен. siteFocusScore из Leak 2024 измеряет концентрацию тематики.
topical clustering
Страницы кластеризуются в тематические группы. LDA/LSA на уровне сайта.
link-graph relevance
Граф внутренних ссылок отражает семантическую иерархию. Ссылки между далёкими темами — штраф.
path-based intent satisfaction
Пользователь находит ответ всех уровней запроса внутри кластера без выхода наружу.
// P16: Vertical Topical Silos Hub ↔ Spoke ↔ ProductPage // двусторонняя перелинковка с каноническим анкором for each leaf in cluster: assert link_to_parent_hub(leaf) // ссылка вверх assert link_from_hub(leaf) // ссылка вниз assert not links_to_distant_topic() // нет прыжков // siteFocusScore (Google Leak 2024): siteFocusScore = consistency(topic_vector across all_pages)
Как построить правильный Topical Silo — финансовая тематика
Что проверять · Сильно vs слабо
✓ Сильная структура
Статья «Вклад Сбербанк» → Хаб [Вклады с капитализацией]
Статья «Вклад Сбербанк» → Обзор Сбербанка 2025
Хаб «Все вклады» → все дочерние страницы по видам
Каждая листовая страница ссылается на хаб И на бренд-страницу
✗ Слабая структура
Статья про вклад → главная сайта (нет тематического хаба)
Статья про вклады → статья про ипотеку в том же тексте
Листовая страница без ссылки на родительский хаб
Ссылки только вниз по иерархии, но не вверх
Хаб существует?
Есть главная страница темы "Вклады" / "Кредиты"?
Дочерние страницы?
Есть узкие интенты — конкретные типы и продукты?
Закольцовка?
Каждая листовая → хаб AND → бренд-страница банка?
Изоляция?
Нет ссылок на семантически далёкие темы в теле?
P16: Vertical Topical SilossiteFocusScoresiteEmbedding stability
Пороги исключения из выборки
Недостаточно быть "в тематике". Если score ниже порога — документ физически исчезает из consideration set. Это не низкая позиция — это полное отсутствие.
Зоны scoring документа для данного запроса
0Confidence thresholdRelevance thresholdTop
Discard — физически удалён из выборки
Low confidence — конкретный факт отброшен
Consideration set — ранжируется
Порог уверенности (Confidence)
Если конкретный факт имеет низкий KBT confidence — он discarded при формировании ответа. Google не снижает вес — он игнорирует факт полностью.
fact → discarded → не в Answer Box
Порог релевантности (Relevance)
Если Relevance Score документа ниже Threshold Value — "Discard the given search result". Физическое исключение из consideration set для запроса.
→ Discard the given search result
// Relevance Threshold: if Relevance_Score(doc, query) < Threshold_Value: action = "Discard the given search result" // Confidence Threshold (KBT): if KBT_confidence(fact) < confidence_threshold: action = "Discard fact" // не попадает в Answer Box // Требования для преодоления Relevance Threshold: Required: T*_Body_score + passage_fit + entity_coverage + intent_match
✓ Высокий confidence
Конкретная ставка с единицами: "16,5% годовых"
Источник и дата: "По данным ЦБ РФ на 01.04.2025"
Консенсус с авторитетными источниками
Schema.org разметка подтверждает факт структурно
✗ Низкий confidence → discarded
Расплывчато: "ставки от 10 до 20 процентов"
Факт без источника и даты актуальности
Противоречит данным ЦБ РФ или авторитетных источников
Нет структурного подтверждения (Schema, таблица)
E-E-A-T как алгоритм: что реально хранит Google
E-E-A-T не единый score — это концепция, реализованная через десятки отдельных атрибутов. Источник: Google Content Warehouse API Leak 2024 (подтверждён Google) + патенты. Фокус: только сигналы связанные с написанием и содержимым текста.
Experience
Опыт автора в теме
contentEffort
OriginalContentScore
isAuthor
contentEffort — LLM-оценка усилий, вложенных в создание текста. Прокси для Helpful Content System. Измеряет: уникальность данных, сложность анализа, наличие первичных источников.

OriginalContentScore — шкала 0–512 (для коротких материалов максимум 127). Тонкий контент без подложки — низкий score вне зависимости от объёма.

isAuthor — boolean: Google может идентифицировать автора на странице или нет. Если не может — confidence в экспертизе снижается.
Leak 2024: QualityNsrPQData module · PerDocData model
Expertise
Экспертиза автора по теме
authorReputationScore
Author Vectors (US11275895)
normalizedTopicality
authorReputationScore — прямая метрика авторитетности автора (WebrefMentionRatings module). Нейросеть строит "вектор автора" по стилю — может идентифицировать без явного byline.

normalizedTopicality — нормализованный score: насколько весь документ посвящён сущности/теме. Высокий = автор фокусирован, не распыляется.

Патент US11275895 (2020): Author Vector System — нейросеть классифицирует авторов даже без подписи, по стилю и выбору слов.
Leak 2024: WebrefMentionRatings · Patent US11275895
Authoritativeness
Авторитетность источника
siteAuthority
siteFocusScore
authorityPromotion
siteAuthority — подтверждён в Leak 2024 (CompressedQualitySignals). Вопреки публичным заявлениям Google — существует и влияет на Q* ranking system.

siteFocusScore — тематическая концентрация сайта. Сайт "обо всём" → низкий siteFocusScore → слабая авторитетность по каждой теме.

authorityPromotion — прямой буст ранга при высоком authority score (подтверждён анализом Hobo Web).
Leak 2024: CompressedQualitySignals · Q* system
Trustworthiness
Доверие к контенту
bylineDate
syntacticDate
semanticDate
KBT confidence
Три типа дат: bylineDate (явно указана), syntacticDate (из URL/заголовка), semanticDate (выведена из содержимого). Несовпадение между ними — сигнал недоверия.

KBT confidence — уровень уверенности в верности конкретных фактов (2.8B triples, Knowledge Vault). Факты с низким confidence → discarded из Answer Box.

Q-Star (Q*) — итоговый quality score сайта, подтверждён в DOJ testimony 2025.
Leak 2024: bylineDate/syntacticDate/semanticDate · KBT 2015 · DOJ Q*
EE1
contentEffort — как LLM оценивает усилия в тексте
QualityNsrPQData · Helpful Content System · текстовые сигналы
contentEffort — LLM-based effort estimation for article pages. Это вероятно ключевой технический механизм Helpful Content Update (HCU). Измеряет не объём, а реальную сложность создания.
// Что повышает contentEffort (по анализу Leak 2024): + Собственные данные которые нельзя скопировать (первичные источники) + Оригинальные изображения, схемы, графики (не stock photos) + Числовые факты с источниками и датой (KBT-совместимые тройки) + Личный опыт или экспертный анализ (не пересказ) + Высокая сложность воспроизведения: интервью, тесты, измерения // Что снижает contentEffort: - Текст который легко воспроизвести (пересказ общеизвестного) - Отсутствие уникальных данных - AI-генерация без редактуры (паттерны шаблонного текста)
✓ Высокий contentEffort
Собственные расчёты: "мы протестировали вклад X — реальная доходность составила Y"
Первичные источники: прямая цитата из официального документа ЦБ РФ
Оригинальные схемы, таблицы сравнений которых нет у конкурентов
Личный опыт: "при открытии вклада менеджер сообщил, что..."
Числа с методологией: "по нашему расчёту при капитализации ежемесячно"
✗ Низкий contentEffort
Пересказ с сайта банка без добавленной ценности
Общеизвестные факты без источника и анализа
Структурированный текст без оригинальных данных
Stock photos вместо реальных скриншотов или графиков
AI-текст без редактуры — паттерны шаблонных формулировок
contentEffortQualityNsrPQDataHelpful Content SystemLeak 2024
EE2
Авторство в тексте: isAuthor, bylineDate, Author Vectors
Что нужно писать и указывать чтобы Google идентифицировал автора
// Author Vector System (Patent US11275895, 2020): Author_vector(A) = NN_encode(all_articles_by_A) // Нейросеть строит вектор по стилю — идентифицирует автора без явного byline // isAuthor (Leak 2024): boolean isAuthor = True если Google идентифицировал entity как автора страницы isAuthor = False → confidence в экспертизе снижается // authorReputationScore (WebrefMentionRatings): authorReputationScore = f(упоминания автора в авторитетных источниках, тематическая согласованность публикаций, LDA-кластеры тем автора) // Три даты должны совпадать: bylineDate = дата в byline статьи syntacticDate = дата в URL (/2025/04/) или заголовке semanticDate = дата выведенная из содержимого текста // Несовпадение → сигнал манипуляции датами
✓ Сигналы авторства в тексте
Byline с реальным именем автора в начале статьи
Дата публикации согласована: byline = URL = Schema = текст
Schema Person с sameAs на LinkedIn/официальный профиль
Последовательный стиль письма от одного автора (Author Vector)
Ссылка на страницу автора с историей публикаций по теме
✗ Слабые сигналы авторства
Анонимный контент "Редакция" или без автора
Несовпадение дат: в byline 2023, в URL /2021/
Фиктивный автор без реальных публикаций
Один автор пишет одновременно про финансы, кулинарию, авто
Стиль меняется кардинально — сигнал разных авторов или AI
isAuthorbylineDatesyntacticDatesemanticDateUS11275895authorReputationScore
EE3
Trustworthiness в тексте: факты, источники, KBT
Что делает конкретный текст доверенным на уровне содержимого
// KBT Trustworthiness для конкретных утверждений: KBT_score(fact) = P(fact верен) × P(extraction верен) × Topic_relevance // Консенсус-проверка (от SEMQA до Featured Snippets): Consensus_score(fact) = agreement(fact across authoritative sources) // Факт не принятый другими авторитетными источниками → low confidence → discard // OriginalContentScore (0–512): // Что реально даёт score: + Факты первой публикации (first_seen_timestamp == this_site) + SVO-тройки которых нет у конкурентов в кластере + Уникальные числовые данные, не взятые из общедоступных источников
✓ Высокий Trust в тексте
Факты с конкретным источником: "По данным ЦБ РФ, Вестник Банка России №12 2024"
Дата актуальности рядом с числовыми фактами: "по состоянию на апрель 2025"
Согласованность с другими авторитетными источниками
Явная маркировка мнения vs факта: "по нашей оценке" vs "по данным ЦБ"
Обновление устаревших данных (semanticDate актуальна)
✗ Низкий Trust → confidence penalty
Факт без источника — Google не может верифицировать
Противоречие официальным данным ЦБ без объяснения
Устаревшие данные без обновления (semanticDate старая)
Мнение подаётся как факт без маркировки
Несоответствие между Schema.org и текстом страницы
KBT confidenceOriginalContentScoresemanticDateConsensus scoring
EE4
Experience в тексте: личный опыт как алгоритмический сигнал
Как писать кейсы и пользовательские сценарии которые Google считает Experience
Experience — первый "E" в E-E-A-T, добавлен Google в декабре 2022. Отличается от Expertise: экспертиза = знание теории, опыт = личное столкновение с темой. Алгоритмически измеряется через contentEffort и OriginalContentScore — данные которые невозможно написать без реального взаимодействия с предметом.
Что считается личным опытом в тексте
Пользовательский сценарий (кейс)
Конкретный человек → конкретное действие → конкретный результат с числами. Это SVO-тройка с максимальным Fact_magnitude: субъект реален, предикат активен, объект верифицируем.
"Вася открыл вклад 500 000 ₽ на 12 мес. при 16% → получит 80 000 ₽ дохода, из них 380 ₽ НДФЛ"
Сравнительный расчёт из практики
Два варианта → разница в числах → вывод. Демонстрирует что автор реально сравнивал, а не пересказывает сайт банка.
"С капитализацией 16% → 17,23% эффективная, +612 ₽ к доходу на каждые 50 000 ₽"
НЕ считается опытом
Абстрактные утверждения без конкретного субъекта. Google не может извлечь SVO-тройку — extraction_confidence низкий.
"Многие клиенты выбирают вклады с высокими ставками для сохранения средств"
НЕ считается опытом
Пересказ условий с сайта банка без личного взаимодействия. contentEffort низкий — это легко воспроизводимо.
"Вклад открывается в отделении или онлайн, срок от 1 до 36 месяцев"
Анатомия кейса с высоким contentEffort
Пример финансового кейса — разбор по слоям
[Субъект] Вася — программист, 32 года, Москва — [ситуация] накопил 500 000 ₽ и выбирал между тремя вкладами на финансовом маркетплейсе. [Действие] Он выбрал вклад Сбербанк «Лучший%» — 16% годовых, срок 12 месяцев, с ежемесячной капитализацией. [Числовой результат] За год Вася получит 86 150 ₽ дохода (эффективная ставка 17,23% из-за капитализации). [Налог] НДФЛ составит 0 ₽ — необлагаемый лимит в 2025 году: 16% × 1 000 000 ₽ = 160 000 ₽, а доход Васи ниже. [Вывод] Если бы он выбрал вариант без капитализации (те же 16%), доход составил бы 80 000 ₽ — разница 6 150 ₽ только за счёт капитализации.
SVO-тройки
Вася выбрал вклад 16%
Вася получит 86 150 ₽
НДФЛ составит 0 ₽
Капитализация даёт +6 150 ₽
Что делает Experience
Конкретный субъект
Реальная сумма (500 тыс)
Реальный расчёт
Сравнение двух вариантов
contentEffort сигналы
Нельзя скопировать
Расчёт с методологией
Числа проверяемы
Нетривиальный факт
Шаблон кейса — как писать
// Структура личного опыта / пользовательского кейса: [Субъект с контекстом] = конкретный человек или тип с деталями → НЕ "пользователь", а "Вася, программист, 500 000 ₽" [Ситуация / задача] = что именно искал/хотел решить → "выбирал между 3 вкладами на маркетплейсе" [Действие с параметрами] = что конкретно сделал и на каких условиях → "открыл Сбербанк 16%, 12 мес., капитализация ежемесячно" [Числовой результат] = конкретные цифры, формула расчёта → "получит 86 150 ₽ (эфф. ставка 17,23%)" → "НДФЛ = 0 ₽, т.к. доход < необлагаемого лимита 160 000 ₽" [Сравнение / альтернатива] = что было бы при другом выборе → "без капитализации: 80 000 ₽ — разница 6 150 ₽" [Вывод / рекомендация] = что это означает для читателя → "капитализация имеет смысл при сроке от 6 мес."
✓ Experience в тексте (contentEffort ↑)
Конкретный субъект с деталями: возраст, сумма, город, ситуация
Реальные числа в расчёте которые можно проверить
Сравнение двух или более вариантов с разницей в цифрах
Расчёт налога, комиссии, реальной доходности — то что обычно не на сайте банка
Вывод который можно применить ("для сумм до X капитализация не окупается")
Скриншот из приложения/кабинета рядом с кейсом
✗ Не Experience (contentEffort ↓)
"Многие выбирают вклады для сохранения" — нет субъекта
"Вклад открывается за 5 минут" — без контекста и числа
Пересказ условий с сайта банка — высокая replication difficulty = 0
Абстрактные советы без конкретного сценария
Кейс без числового результата — "Вася остался доволен"
contentEffort (Leak 2024)Experience = первый E в E-E-A-TOriginalContentScoreKBT: Non-trivialness
Повышающие и понижающие коэффициенты
Google применяет модификаторы к базовому score документа — одни буст, другие — demotion или полное исключение. Источник: Leak 2024 (CompressedQualitySignals, PerDocData) + патенты + DOJ testimony.
↑ Повышающие (Boost)
authorityPromotion
Прямой буст ранга при высоком siteAuthority + authorReputationScore. Применяется через Q* system. Leak 2024: CompressedQualitySignals
contentEffort ↑
Высокий effort score → буст в Helpful Content System. Прокси экспертности: уникальные данные, первичные источники, оригинальный анализ. Leak 2024: QualityNsrPQData
OriginalContentScore ↑
0–512 баллов за уникальность. Особенно критично для коротких материалов (макс. 127). Первые SVO-тройки в кластере = максимум. Leak 2024: PerDocData
goodClicks (Navboost)
Длинные клики (dwell time) = "goodClick". Пользователь нашёл ответ и не вернулся → per-topic popularity score растёт. Leak 2024: NavBoost module · DOJ 2023
siteFocusScore ↑
Тематическая концентрация сайта. Все страницы об одной теме → высокий siteFocusScore → буст каждой страницы. Leak 2024: siteEmbedding module
KBT confidence ↑
Факты с высоким KBT confidence → приоритет в Featured Snippets и Answer Box. Консенсус между источниками усиливает. KBT paper 2015 · Consensus scoring
smallPersonalSite
Атрибут малого экспертного сайта. Может давать буст нишевым авторитетным источникам (механизм точно не известен, но атрибут присутствует). Leak 2024: специальный twiddler-атрибут
↓ Понижающие (Demotion)
pandaDemotion
Постоянный site-wide demotion для доменов с высокой долей тонкого, дублированного или низкокачественного контента. Применяется как модификатор ко всему домену. Leak 2024: CompressedQualitySignals
redundancy_penalty
Штраф за keyword stuffing: Actual_N related phrases > 2×Expected_N → down-weight в SPAM_TABLE. Применяется к топ-3 ключевым фразам документа. US8078629: Spam detection via phrases
badClicks (Navboost)
Быстрый возврат к SERP (pogo-sticking) = "badClick". Снижает per-topic popularity score. Не компенсируется количеством кликов. Leak 2024: NavBoost module · DOJ 2023
navDemotion
Demotion за плохую навигацию или UX. Хранится в CompressedQualitySignals — применяется быстро на этапе Mustang (предварительный скоринг). Leak 2024: CompressedQualitySignals
clutterScore ↑
Штраф за "захламлённость" страницы: избыток рекламы, попапов, нерелевантных элементов. Высокий clutterScore = demotion. Leak 2024: PerDocData
anchorMismatch
Несоответствие анкорного текста входящей ссылки содержимому страницы → снижение link value и траст-сигнала. Leak 2024: link signals module
Discard (threshold)
Если Relevance Score < Threshold Value или KBT confidence < порога → физическое исключение из выборки. Не "низкая позиция" — полное отсутствие. Fig. 4 patent flowchart · KBT paper 2015
Q*
Q* — итоговый quality score и pipeline применения коэффициентов
Как модификаторы складываются в финальный ранг
// Pipeline применения коэффициентов (по анализу Leak 2024): // Этап 1: Mustang — быстрый предварительный скоринг // Читает CompressedQualitySignals (Flash memory, очень быстро): Mustang_score = T*_score × siteAuthority_modifier × pandaDemotion_modifier // Этап 2: TeraGoogle — полный скоринг // Читает PerDocData (полный набор сигналов): TeraGoogle_score = f( T*_score, // Anchors + Body + Clicks Q*_score, // долгосрочный quality score contentEffort, // effort estimation OriginalContentScore, NavBoost_signals, // goodClicks vs badClicks KBT_confidence, // факты верифицированы siteAuthority, // авторитет домена siteFocusScore // тематическая концентрация ) // Модификаторы применяются как множители: Final_score = Base_score × authorityPromotion_factor // ↑ если высокий authority × pandaDemotion_factor // ↓ если много thin content × navDemotion_factor // ↓ если плохой UX × contentEffort_factor // ↑ или ↓ в зависимости от effort // Если Final_score < Relevance_Threshold → Discard
Q* (Q-star)
Долгосрочный quality score. "Largely static" — строится годами. Подтверждён в DOJ testimony 2025.
CompressedQualitySignals
Кэш критических сигналов для быстрого Mustang scoring. Включает: siteAuthority, pandaDemotion, navDemotion.
PerDocData
"Цифровое досье" каждого URL. Содержит: contentEffort, OriginalContentScore, freshness, spam signals.
VersionedFloatSignal
Google хранит историю последних 20 версий страницы. predictedDefaultNsr отслеживает тренд качества.
Q* DOJ 2025Mustang systemTeraGoogleCompressedQualitySignalsLeak 2024
Как применять коэффициенты при написании текста
Практика: что конкретно делать с каждым модификатором
✓ Максимизируй boost сигналы
contentEffort: добавь данные которые нельзя скопировать — собственный расчёт, скриншот личного кабинета, интервью с экспертом
OriginalContentScore: новые SVO-тройки в кластере, уникальные числа с методологией, первичная публикация данных
isAuthor + authorReputation: byline реального эксперта + Schema Person + дата совпадает везде
KBT confidence: каждый числовой факт с источником + датой + Schema-разметкой = проходит порог confidence
siteFocusScore: одна публикация укрепляет авторитет сайта только если тематически согласована с остальными
✗ Избегай demotion триггеров
pandaDemotion: один слабый материал на сайте с высоким pandaDemotion тянет вниз всё — не публикуй thin content
redundancy_penalty: LSI-ключи вброшенные списком, повторение Related Phrases в одном блоке — триггер spam detection
badClicks: заголовок обещает одно, текст даёт другое → pogo-sticking → Navboost demotion
clutterScore: рекламные блоки до основного контента, попапы при загрузке — повышают clutter → demotion
anchorMismatch: не создавай страницы под анкоры которые не соответствуют реальному содержимому
contentEffortpandaDemotionclutterScoreNavBoostKBT
AS — Anti-Stuffing Layer
Отдельный защитный слой оценки документа. Проверяет не что сказано, а как часто и насколько естественно. Google смотрит на весь документ целиком и сравнивает профиль фраз с кластером. Шесть субметрик.
Phrase Spam Excess
Actual_N Related Phrases vs 2×Expected_N. Превышение → SPAM_TABLE → down-weight всего документа
Related Phrase Support
Наличие семантически связанных фраз рядом с ключевой. Low support при high exact phrase = stuffing
Co-occurrence Consistency
Related Phrases распределены равномерно по всем разделам. Концентрация в одном блоке = флаг
Contextual Co-occurrence
Пары фраз встречаются вместе там где это естественно, а не подряд в одном предложении
Synthetic Pressure
Ощущение что фразы вставлены искусственно. Выявляется через PMI: низкий PMI у соседних слов = signal
Information Gain Ratio
Новые уникальные тройки / все тройки. Высокий IG = настоящее содержание. Низкий = разбавленный рерайт
AS1
Phrase Spam Excess — граница между нормой и штрафом
Как посчитать Expected_N и не пересечь порог
// US8078629: Spam detection via phrase model Expected_N = median(related_phrase_count per doc in cluster_top10) // Три зоны: N < Expected_N → хорошо, тема раскрыта умеренно Expected_N ≤ N ≤ 2×N → норма, плотный но не спам N > 2×Expected_N → SPAM_TABLE → down-weight документа // Пример (финансы): // Топ-10 медиана по фразе "вклад": 8 упоминаний // Expected_N = 8, порог = 16 // Если в твоём тексте 20 упоминаний → флаг stuffing
✓ Норма
Ключевая фраза встречается ~как у конкурентов из топ-10
Каждое упоминание несёт новый смысл — другой атрибут или контекст
Related Phrases варьируются: синонимы, парафразы, дочерние термины
Плотность стабильна по всему тексту — нет пиков в начале/конце
✗ Stuffing триггеры
Ключевая фраза вставлена в каждое предложение раздела
LSI-список в конце статьи "для SEO"
Все Related Phrases сосредоточены в intro и outro
Синонимы повторяются без нового смысла
US8078629Expected_N = medianSPAM_TABLE
AS2
Co-occurrence Consistency — равномерность vs концентрация
Почему распределение фраз важнее их количества
// Co-occurrence Consistency Score: Consistency = 1 - variance(phrase_density per section) / mean_density // Высокий = фразы распределены равномерно → organic text // Низкий = пики концентрации → synthetic/stuffed text // Пример: // Раздел 1: 3 упоминания "вклад" // Раздел 2: 0 упоминаний // Раздел 3: 8 упоминаний ← пик → low consistency → флаг
Это один из ключевых сигналов отличия AI-текста без редактуры от живого: LLM часто накапливает фразы в определённых местах (обычно в intro и заключении) и пропускает их в середине. Высокая Consistency = признак что автор думал о теме последовательно.
Co-occurrence consistencyM Layer (ABC)US7536408
AS3
Synthetic Pressure — как детектируется искусственный текст
PMI, co-occurrence naturalness, phrase injection patterns
// Pointwise Mutual Information (PMI) для пары слов: PMI(w1, w2) = log[ P(w1,w2) / (P(w1) × P(w2)) ] // Высокий PMI = слова естественно встречаются вместе в корпусе // Низкий PMI = слова поставлены рядом искусственно // Признаки Synthetic Pressure в тексте: 1. Ключевые фразы вставлены в предложения где они грамматически неловки 2. Фраза начинает предложение без логической связи с предыдущим 3. Определение термина повторяется несколько раз разными словами 4. Абзац заканчивается "keyword anchor" без смысловой необходимости
✓ Низкий Synthetic Pressure
"Ставка по вкладу составляет 16,5%" — фраза органична
Каждое введение термина обосновано контекстом
Соседние слова имеют высокий PMI в языковом корпусе
✗ Высокий Synthetic Pressure
"Вклад — это вклад в банке, позволяющий открыть вклад" — тавтология
Фраза вставлена в конец абзаца без логической связи
Определение повторяется трижды разными формулировками
PMI: Pointwise Mutual Informationbad_ss_corrupt_textUS8078629
M — Algorithmic Document Signals: 8 субметрик
Слой M состоит из восьми независимых субметрик. Общий M-score = взвешенная сумма. Каждая субметрика измеряет отдельный аспект качества документа на алгоритмическом уровне.
M1 — Salient Term Coverage
Наличие характерных терминов темы в документе. Проверяется по Good Phrase List кластера
M2 — Co-Term Coverage
Наличие устойчивых пар терминов: укус ↔ 72 часа, ставка ↔ срок, полис ↔ покрытие
M3 — Section-Weighted Topic Support
Главная тема поддерживается в каждом разделе, не только в intro и H1
M4 — Topic Drift Penalty
cosine_distance(topic_start, topic_end). Высокий drift = штраф T* score
M5 — Best Passage Score
Query Match × Answer Match для лучшего пассажа. Кандидат на Featured Snippet
M6 — Snippet Sentence Score
Доля предложений пригодных для извлечения как snippet-ответ. Нужны короткие прямые ответы
M7 — Rewrite Safety
Устойчивость документа к разным формулировкам запроса: синонимы, парафразы, смежные интенты
M8 — Segmentation Stability
Насколько стабильно Google может сегментировать документ на независимые пассажи
M1–2
Salient Terms + Co-Term Coverage
Как проверить что все нужные слова и пары присутствуют
// M1: Salient Term Coverage Salient_terms = Good Phrases с высоким TF-IDF в кластере топ-10 Coverage_M1 = |{salient_terms в doc}| / |{salient_terms ожидаемых}| // Цель: Coverage_M1 > 0.85 // M2: Co-Term Coverage — устойчивые пары по PMI Cluster_pairs = [(t1, t2) | PMI(t1,t2) высокий в корпусе кластера] Coverage_M2 = |{пары в doc}| / |{пар ожидаемых}| // Примеры сильных пар для финансовой темы: // вклад ↔ ставка | ипотека ↔ первый взнос // капитализация ↔ эффективная ставка // НДФЛ ↔ необлагаемый лимит // ЦБ РФ ↔ ключевая ставка
✓ Высокий M1-M2
Все ожидаемые термины темы присутствуют в тексте
Устойчивые пары встречаются вместе, а не порознь
Нишевая терминология использована правильно и в контексте
✗ Низкий M1-M2
Ключевые термины темы заменены синонимами везде
Пары разорваны — "ставка" в одном разделе, "срок" в другом без связи
Отсутствуют нишевые термины которые есть у всех конкурентов
Salient Term CoveragePMI Co-occurrenceGood Phrase List
M3–4
Section-Weighted Topic Support + Topic Drift Penalty
Тема должна работать в каждом разделе, а не только в заголовке
// M3: Section-Weighted Topic Support // Для каждого раздела: есть ли связь с главной темой? Section_support(S) = cosine_sim(section_vector, main_topic_vector) M3_score = weighted_avg(Section_support × block_weight) // block_weight: H2-раздел = 1.0, aside = 0.3 // M4: Topic Drift Penalty Topic_start = topic_vector первых 20% документа Topic_end = topic_vector последних 20% документа Drift = cosine_distance(Topic_start, Topic_end) // Drift > 0.3 → penalty T* score (DOJ, HJ Kim 2025)
✓ Высокий M3, низкий M4 drift
FAQ в конце статьи тоже про ту же тему что H1
Каждый H2-раздел начинается с упоминания главной сущности
Тема начала и конца — одна и та же
✗ Низкий M3, высокий M4 drift
Последние разделы уходят в смежную тему (FAQ про другой продукт)
Раздел "О компании" в конце статьи — drift penalty
Начали про вклады, закончили про инвестиционные продукты
Section-Weighted Topic SupportTopic Drift · DOJ HJ Kim 2025
M5–6
Best Passage Score + Snippet Sentence Score
Как писать для Featured Snippets и Answer Box
// M5: Best Passage Score (US10783156) Passage_score = query_term_match(P, Q) × answer_term_match(P, Q_type) + context_boost(H2_над_пассажем) + structured_bonus(list/table) // Лучший пассаж документа = Featured Snippet кандидат // M6: Snippet Sentence Score // Идеальный snippet-ответ: Self_contained = 1 // понятен без контекста Direct_answer = 1 // отвечает на вопрос напрямую Length = 40–60 слов // оптимальная длина Has_number = +0.2 // числа повышают score
✓ Высокий M5-M6
Первый абзац под H2 = прямой ответ с числом
Пассаж самодостаточен — понятен без чтения остального
Ответ на "что такое / сколько стоит / как работает" — в одном предложении
Списки и таблицы дают structured_bonus к Passage Score
✗ Низкий M5-M6
Ответ на вопрос H2 только в середине раздела после вступления
Пассаж требует контекста — непонятен без предыдущего абзаца
Нет числовых фактов в первом предложении раздела
US10783156: Passage scoringFeatured SnippetSEMQA 2024
M7–8
Rewrite Safety + Segmentation Stability
Устойчивость к разным формулировкам запроса и пассажной нарезке
// M7: Rewrite Safety // Документ должен ранжироваться для всего семейства запросов: Query_family = { "вклад Сбербанк 2025", "открыть вклад Сбербанк", "ставка по вкладу Сбербанк", "выгодные вклады Сбербанк" } // Rewrite_safety = доля запросов семьи для которых doc остаётся релевантным // M8: Segmentation Stability // Google должен уметь нарезать документ на независимые пассажи // Каждый пассаж = потенциальный ответ на подзапрос // Плохо: все факты перемешаны в одном длинном абзаце // Хорошо: каждый H2-раздел = отдельная мысль с началом и выводом
✓ Высокий M7-M8
Синонимы и вариации термина использованы естественно в тексте
Каждый раздел начинается и заканчивается самодостаточно
Один H2 = одна мысль = один пассаж для Google
Canonical phrase balance: основная фраза + 2–3 синонима по тексту
✗ Низкий M7-M8
Только одна точная форма фразы, никаких вариаций
Факты из разных тем перемешаны в одном абзаце
Раздел начинается с "Как уже говорилось выше..." — не самодостаточен
Rewrite SafetySegmentation StabilityUS7392244: Synonym Graph
QS — Query/Session Context: 4 субметрики
Слой QS оценивает документ не изолированно, а в контексте поискового сеанса. Четыре субметрики отражают разные аспекты того как страница вписывается в пользовательский путь.
Intent Refinement Coverage
Покрывает ли страница уточнённые версии запроса (Q1 broad → Q2 refined → Q3 specific)
Implicit Question Fit
Отвечает ли на вопросы которые пользователь не задал явно но подразумевал
Template Family Support
Поддерживает ли страница семейство запросов: синонимы, парафразы, смежные формулировки
Stable Core Preservation
Сохраняется ли основная тема при любом варианте запроса — документ не "плывёт"
QS1
Intent Refinement Coverage — покрытие query chain
Пользователь уточняет запрос — страница должна закрыть всю цепочку
// Типичная query chain (финансы): Q1 (broad): "вклады 2025" Q2 (refined): "вклады Сбербанк 2025 ставки" Q3 (specific): "вклад Сбербанк Лучший процент условия досрочного закрытия" Q4 (action): "как открыть вклад Сбербанк онлайн" // Intent_Refinement_Coverage: IRC = |{вопросов chain покрытых страницей}| / |{вопросов в chain}| // Цель: IRC > 0.75 // Источник данных для построения chain: // People Also Ask + Related Searches + GSC query report
✓ Высокий IRC
Страница отвечает и на широкий ("что такое вклад") и на узкий ("ставка при досрочном закрытии") запрос
People Also Ask покрыты явными разделами или FAQ
Есть переходы к более узким страницам (Hub-and-Spoke)
✗ Низкий IRC
Страница отвечает только на Q1 (широкий), Q3 и Q4 игнорирует
People Also Ask не покрыты ни текстом ни ссылками
Нет перехода к более узкому интенту
US8595225: Navboost per-topicQuery chain coveragePeople Also Ask
QS2
Implicit Question Fit — невысказанные вопросы
Что пользователь подразумевал но не написал в строке поиска
// Implicit Questions — то что пользователь НЕ пишет но ожидает: Explicit: "ставка по вкладу Сбербанк" Implicit: - безопасен ли Сбербанк (надёжность) - что будет при банкротстве (страховка АСВ) - можно ли пополнять (условия пополнения) - когда начисляются проценты (капитализация) - что если понадоблются деньги раньше (досрочное) // Implicit_Question_Fit: IQF = |{implicit вопросов закрытых страницей}| // Нет формальной нормализации — больше = лучше // Источник: анализ топ-10 + Related Searches + форумы
Implicit Questions — это разница между "отвечает на запрос" и "действительно помогает пользователю". Страница с высоким IQF закрывает сеанс поиска — пользователь не возвращается на SERP. Это прямо влияет на goodClicks / lastLongestClicks в Navboost.
✓ Высокий IQF
Раздел про страховку АСВ рядом с информацией о вкладе
Объяснение как работает капитализация без явного запроса
Предупреждение о досрочном закрытии в разделе про открытие
✗ Низкий IQF
Только явный запрос закрыт — ставка есть, про условия ни слова
Нет ответов на практические "а что если..."
Читатель уходит на SERP за дополнительными ответами
Implicit Question FitgoodClicks · lastLongestClicks (Leak 2024)Session satisfaction
QS3-4
Template Family Support + Stable Core Preservation
Семейство запросов и устойчивость основной темы
// QS3: Template Family Support // Одна тема — много формулировок запроса: Template_family = { "вклад Сбербанк", // exact "депозит Сбербанк", // synonym "открыть вклад в Сбербанке", // action form "Сбербанк вклады физических лиц", // attribute form "Сбербанк вклад проценты 2025" // temporal form } TFS = доля семьи для которой документ семантически релевантен // QS4: Stable Core Preservation // Основная тема сохраняется при любом варианте запроса // Документ не "подстраивается" под каждый запрос отдельно // Один документ = одна сущность = один canonical intent
✓ Высокий TFS + SCP
Синонимы использованы естественно: вклад, депозит, накопительный счёт
Действие "открыть" присутствует рядом с описанием условий
Год и актуальность указаны — поддержка temporal form
Центральная сущность не меняется от раздела к разделу
✗ Низкий TFS + SCP
Только одна форма фразы, синонимы отсутствуют
Нет временных маркеров — непонятно актуален ли текст
Разные разделы де-факто про разные сущности
Template Family SupportStable Core PreservationUS7392244: Synonym GraphNavboost per-topic
Патенты Google · Leak 2024 · KBT · DOJ testimony 2025
Идеальный процесс создания контента
Операциональный флоу: парсим топ → NLP-анализ → взвешиваем → структура → пишем → E-E-A-T → чеклист. Каждый шаг привязан к алгоритму.
01
Парсим топ
02
NLP-анализ
03
Взвешиваем
04
Структура
05
Пишем
06
E-E-A-T
07
✓ Чеклист
01
Парсим топ-10 конкурентов по запросу
Собираем корпус — эталон для всех расчётов: IG, Expected_N, EA Coverage, Template
1
Собери топ-10 URL и основной текст каждого
Инкогнито или API (DataForSEO, Serpstack). Извлекай только main content — без навигации, сайдбара, футера. Это твой кластер — с ним Google сравнивает твой документ при расчёте InformationGain и Expected_N Related Phrases.
InformationGain = New_Triples / Total_Triples_in_Cluster · US8078629: Expected_N
2
Извлеки структуру: H1, H2/H3, первые абзацы, Schema, bylineDate
Для каждого URL: все заголовки, первый абзац каждого раздела, мета-дата, Schema.org. Это покажет какие аспекты Google уже считает ожидаемыми — Template Coverage кластера.
Template coverage · Block architecture · bylineDate (Leak 2024)
3
Определи главную сущность кластера (Dominance > 0.7)
Какая Named Entity встречается во всех 10 документах? Dominance(E) = count_mentions(E) / total_entity_mentions. Это целевая сущность твоего документа. Твой документ должен иметь Dominance > 0.7 для этой же сущности.
US8732167: Disambiguation · entity_centrality_score
!
Зафиксируй Expected Attributes типа сущности
Выпиши все атрибуты встречающиеся у большинства топ-10. Для вклада: ставка, срок, сумма, условия, НДФЛ, досрочное закрытие. Это Expected_attrs(entity_type) — пропуск любого = низкий EA Coverage Score.
US9047278: Entity Attribute Ranking · EA Coverage formula
02
NLP-анализ корпуса: Good Phrases, NER, SVO-тройки
Извлекаем из топ-10 всё что Google считает нормой для этой темы
// Инструменты: spaCy / Stanza / Natasha (рус.) — POS tagging, NER, dependency parsing KeyBERT / YAKE / Rake-NLTK — Good Phrases (биграммы, триграммы) sklearn TF-IDF — Salient Terms, Related Phrases весовой spaCy (nsubj+ROOT+dobj) — SVO-тройки (Subject-Verb-Object) NLTK / scipy — Expected_N через median по корпусу
A
Извлеки Good Phrases (2–5 граммы) + TF-IDF весовой
Токенизируй весь корпус, извлеки N-граммы (2–5). Отфильтруй по TF-IDF: высокий TF в корпусе + высокий IDF в общем языке = Good Phrase темы (Related Phrase). Это фразы которые Google ожидает видеть в твоём тексте — их отсутствие снижает Body Score в T* ABC.
US7536408/US7599914: Phrase-Based Indexing · Good Phrase List · T* Body Score
B
NER: Named Entities + Document Frequency по кластеру
Прогони корпус через NER (spaCy или Natasha для рус.). Для каждой Entity: DF = сколько из 10 документов упоминают. DF=10/10 → обязательная. DF=3–6/10 → желательная. DF=0–2/10 → уникальная = потенциальный IG. Known Entities с высоким DF дают Cold Start boost новой странице.
US10303684: Cold Start via STESV · Entity Salience scoring
C
SVO-тройки: dependency parser → собери Total_Triples_in_Cluster
Dependency parser: nsubj (субъект) + ROOT (глагол) + dobj/attr (объект). Для каждого из 10 документов: список SVO-троек. Объедини в Total_Triples_in_Cluster. Тройки которых нет ни у кого = твой IG потенциал. Твои уникальные тройки / Total = Information Gain Score.
InformationGain = New_Triples / Total_Triples_in_Cluster · KBT 2015
D
Expected_N: считай медиану Related Phrases по кластеру
Для главной ключевой фразы: посчитай количество Related Phrases в каждом из 10 документов. Expected_N = median этих 10 значений. При написании: держи своё N ниже 2×Expected_N. Превышение = автоматический spam detection флаг → SPAM_TABLE → down-weight.
US8078629: Expected_N = median · Spam threshold = 2×Expected_N
03
Взвешиваем: Content Gap, IG-потенциал, Fact magnitude
Три таблицы которые превращают анализ в план написания
// Таблица 1: Content Gap (что покрыть) | Аспект | DF топ-10 | Приоритет | | Ставка | 10/10 | MUST | | Условия пополн. | 8/10 | MUST | | Расчёт НДФЛ | 4/10 | SHOULD | | Собств. расчёт | 0/10 | IG++ | // Таблица 2: IG-кандидаты (уникальные тройки) | SVO-тройка | Fact_mag | Action_mag | | "Ставка составляет 16.5%..." | высокая | высокая | | "У нас лучшие условия" | нулевая | низкая | // Таблица 3: Fact magnitude check для каждого факта ? Верифицируемо — источник есть? да/нет ? Нетривиально — нет в топ-10? да/нет ? Релевантно главной сущности? да/нет → Все три "да" = включай → Хоть одно "нет" = улучши или удали
G
Content Gap: три приоритета — MUST / SHOULD / IG
Из NLP-анализа шага 02: (1) DF=10/10 → MUST включить, (2) DF=5–9/10 → SHOULD включить, (3) DF=0–2/10 → IG потенциал. Третья колонка — единственный источник реального Information Gain. Всё остальное — пересказ кластера с нулевым IG.
EA Coverage · InformationGain · Template coverage gaps
M
Fact magnitude: каждый запланированный факт через 3 вопроса
Triple_value = Fact_magnitude × Action_magnitude × confidence. Для каждого факта: (1) Есть конкретное число/дата/условие? (2) Активный предикат — снижает/составляет, не "есть"? (3) Источник верифицируемый? Если "нет" хоть на один → это не Verifiable Unit → переписать или удалить.
KBT: Triple_value · Non-trivialness · Action_magnitude
04
Проектируем структуру документа
H1, H2 из Gap, пассажи, место в Silo, zero-drift план
S
H1 = сущность + ключевой атрибут + год
Формула: [Название сущности] + [главный атрибут] + [год]. Пример: "Вклад «Максимум» Сбербанк: ставка 16,5% — условия 2025". titlematchScore (Leak 2024) измеряет совпадение title с запросом — первый disambiguation сигнал.
titlematchScore · entity_centrality_score (Leak 2024)
H
H2 = каждый MUST-аспект из Gap → конкретный вопрос
Берёшь список MUST из шага 03 → каждый аспект становится H2 в виде вопроса. "Какова ставка при досрочном закрытии?" — не "Досрочное закрытие". H2 даёт context_boost(H2) для пассажа под ним: Passage_score += boost.
US9940367: Context scoring for passages · H2 context boost
P
Первый абзац каждого раздела = самодостаточный пассаж
Self_contained(P) = 1. Первое предложение = прямой ответ на вопрос H2 с числом/фактом. Остальные предложения — развёртка. Именно этот пассаж — Featured Snippet кандидат. Passage_score = query_match × answer_match + H2_context.
US10783156: Passage scoring · SEMQA 2024
L
Место в Silo → двусторонняя перелинковка
Leaf → Spoke → Hub. Каждая leaf-страница ссылается на родительский spoke/hub. Hub ссылается на все spokes. Отсутствие ссылки вверх = нарушение link-graph relevance → штраф siteFocusScore всего сайта.
P16: Vertical Topical Silos · siteFocusScore (Leak 2024)
!
Проверь Topic Drift заранее: все H2 об одной сущности?
Topic_drift = cosine_distance(topic_start, topic_end). До написания просмотри список H2 — все ли про одну сущность? Если нет — это либо отдельный URL, либо нарушение coherence → штраф T* score.
Topic drift · DOJ HJ Kim 2025 · T* score penalty
05
Пишем текст по алгоритмическим правилам
SVO + Triple_value, равномерные Related Phrases, явные субъекты, IG-тройки
Каждое ключевое предложение = SVO + число + источник
Шаблон: [Named Entity] + [активный предикат] + [конкретное значение]. "Ставка по вкладу «Максимум» составляет 16,5% годовых при сроке от 91 дня — ПАО Сбербанк, апрель 2025." Тест: удали "вклад" — "16,5% при сроке от 91 дня" остался ценным? Да = Verifiable Unit.
Triple_value = Fact_magnitude × Action_magnitude × confidence
Related Phrases из шага 02 — равномерно по всем разделам
Co-occurrence consistency: Related Phrases должны быть в каждом разделе, не только в intro. После каждого раздела проверяй: 2–3 Related Phrases темы присутствуют? Все фразы в одном блоке = низкая consistency = stuffing риск даже при нормальной общей плотности.
Co-occurrence consistency · M Layer (ABC) · US7536408
Субъект явно в первом предложении каждого абзаца
Co-reference penalty: "он/она/это/продукт" без антецедента = штраф L1. Первое предложение каждого абзаца называет субъект по имени — это повышает extraction_confidence для SVO-троек → выше Triple_value всего раздела.
L1: Co-reference Resolution · extraction_confidence
Вставь IG-тройки из шага 03 — уникальные факты
Список фактов которых нет у топ-10 → формулируй как SVO с высоким Triple_value. IG_score = New_Triples_high_value / Total_Triples_in_Cluster. 3 уникальных факта из 30 в кластере = IG ≈ 10%. Это единственный способ создать документ с реально высоким IG Score.
InformationGain = New_Triples_high_value / Total_Triples_in_Cluster
!
Проверь N Related Phrases — не превышай 2×Expected_N
После написания: посчитай Related Phrases главной темы. Сравни с Expected_N из шага 02. N > 2×Expected_N = SPAM_TABLE = down-weight. Также: разные разделы не должны повторять одно и то же (Redundancy_penalty = avg cosine_sim(section_pairs)).
US8078629: spam threshold = 2×Expected_N · Redundancy_penalty
06
Встраиваем E-E-A-T и Trust-сигналы
Personal Experience (кейс), contentEffort, три даты, KBT confidence, Schema.org, IndexNow
X
Добавь пользовательский кейс — Personal Experience (первый E)
Experience ≠ Expertise. Google хочет видеть личное столкновение с предметом — не теорию, а конкретный сценарий с числами. Шаблон: [субъект с деталями] → [действие с параметрами] → [числовой результат] → [сравнение / вывод].

Пример: "Вася — программист, 500 000 ₽ — выбрал вклад Сбербанк 16% с ежемесячной капитализацией на 12 мес. За год получит 86 150 ₽ (эффективная ставка 17,23%). НДФЛ = 0 ₽ — лимит 160 000 ₽ не превышен. Без капитализации было бы 80 000 ₽ — разница 6 150 ₽."

Это даёт 4 SVO-тройки с высоким Triple_value (Вася выбрал / получит / составит / даёт) и максимальный contentEffort — невозможно написать без реального расчёта.
contentEffort · Experience (E-E-A-T декабрь 2022) · OriginalContentScore · KBT Non-trivialness
E
Другие данные которые нельзя скопировать → contentEffort ↑
contentEffort = LLM-оценка сложности воспроизведения. Помимо кейсов: (1) собственный расчёт с методологией, (2) скриншот из личного кабинета или официального документа, (3) прямая цитата первичного источника, (4) результат собственного теста с числами. Всё что делает difficulty_of_replication высоким.
contentEffort · QualityNsrPQData (Leak 2024) · Difficulty of replication
A
Три типа дат должны совпадать: bylineDate = syntacticDate = semanticDate
isAuthor (boolean Leak 2024): Google идентифицировал автора → confidence растёт. Проверь: (1) bylineDate в тексте статьи, (2) syntacticDate в URL (/2025/04/), (3) semanticDate — все числовые данные актуальны на эту дату. Несовпадение любых двух = trust signal penalty.
isAuthor · bylineDate · syntacticDate · semanticDate (Leak 2024)
T
Каждый числовой факт = KBT-тройка с источником и датой
Формат: "[Факт с числом]" — [источник], [дата]. KBT confidence = P(fact correct | source). Факт без источника = low confidence = discarded из Answer Box. Консенсус с другими авторитетными источниками повышает confidence дополнительно.
KBT confidence · Triple correctness · Discard threshold
S
Schema.org + IndexNow сразу после публикации
Schema минимум: Article (author, datePublished, dateModified) + FinancialProduct (если продукт) + FAQPage (если Q&A). После публикации — сразу IndexNow или GSC. first_seen_timestamp должен быть у тебя — кто первый проиндексирован, тот получает OriginalContentScore.
Schema consensus · OriginalContentScore · US8577866: first_seen · IndexNow
07
Финальный чеклист перед публикацией
27 пунктов — отмечай каждый раз перед нажатием "Опубликовать"
0 / 25