Патенты Google · DOJ testimony 2025 · KBT 2015 · API Leak 2024

Как Google оценивает контент

Полная система v2 · 7 слоёв + матрица сигналов + магнитуда факта/действия + Hub-and-Spoke Silo + пороги исключения

Матрица

4 вердикта по комбинации ключи × смысл × связи

KBT + Магнитуда

Fact_magnitude × Action_magnitude из Knowledge-Based Trust

Hub-and-Spoke

Иерархическая закольцовка: siteEmbedding + topical clustering

Пороги

Confidence + Relevance threshold → Discard

7 слоёв L1→QS

Полный pipeline оценки документа

Источники

Патенты US · DOJ 2025 · Leak 2024 · KBT paper 2015

Матрица классификации текста

Google классифицирует документ по трём сигналам: наличие ключей × глубина смысла × качество семантических связей.

Ключи есть + Смысла много

Topical Centrality

entity_centrality_score

Идеал. Ключевая фраза + богатый семантический контекст. Высокая магнитуда фактов, активные предикаты, полные атрибуты сущности.

Ключи есть + Смысла мало

Keyword Stuffing

redundancy_penalty

Много ключей, мало смысла. Нулевые SVO-тройки, слабые предикаты ("у нас есть"), нет числовых фактов.

Ключей мало + Смысла много

Semantic Relevance

semantic_similarity_score

Богатый документ без явных ключей. Google понимает через embeddings и граф синонимов.

Ключей много + Связи слабые

Spam / Gibberish

bad_ss_corrupt_text

Высокая плотность + слабые семантические связи. Co-occurrence не подтверждается корпусной моделью.

C.S.

entity_centrality_score — как достичь Topical Centrality

US20150278366 · Topical Entities · TF × IDF formula

▼

// US20150278366 initial_centrality(E) = sum(outgoing_edge_weights) / sum(all_edge_weights) final_centrality(E) = initial_centrality × TF(E,doc) × IDF_inverse(E,corpus) // "аккредитив" на странице про торговое финансирование = высокий IDF

✓ Высокий centrality

Главная сущность доминирует в тексте

Специфическая терминология ниши (высокий IDF)

Богатые атрибуты и связи вокруг сущности

✗ Низкий centrality

Общие слова: "лучший", "выгодный", "надёжный"

Ключевое слово без контекстных атрибутов

Сущность упоминается, но не описывается

US20150278366entity_centrality_score

Магнитуда факта и магнитуда действия

Из Knowledge-Based Trust (Google Research 2015). Не все SVO-тройки равны. Два независимых веса: значимость факта (Object) и активность предиката (Verb).

Магнитуда факта (Object weight)

Значимость и верифицируемость объекта: Triple_correctness × Non-trivialness × Topic_relevance.

Высокая: "ставка 16,5% при сроке от 91 дня"
Низкая: "выгодные условия по вкладу"

Магнитуда действия (Predicate weight)

Информационный вес предиката. Сильный — изменяет состояние. Слабый — описывает существование.

Высокая: "снижает", "составляет", "превышает"
Низкая: "есть", "имеет", "предлагает"

Примеры из финансовой тематики

Ставка по вкладу «Максимум»составляет16,5% годовых при сроке от 91 дняФакт ↑ Действие ↑

ЦБ РФповысилключевую ставку с 13% до 16% на заседании 15.12.2023Факт ↑ Действие ↑

Досрочное расторжениеснижаетдоходность до 0,01% годовых (ставка до востребования)Факт ↑ Действие ↑

Сбербанкпредлагаетвыгодные условия по вкладам для клиентовФакт ↓ Действие ↓

У насестьвысокие ставки и надёжностьФакт ↓ Действие ↓

4 критерия KBT (2.8B triples · 119M web pages)

Triple correctness

Соответствие Knowledge Vault. P(fact correct | source) → confidence level.

Числа из ЦБ РФ = высокий correctness

Extraction correctness

Уверенность в правильном извлечении SVO из текста. Явная конструкция → высокий score.

Чёткое SVO → extraction score ↑

Topic relevance

Релевантность факта теме источника. Ставка ЦБ на финансовом сайте > на кулинарном.

[ключевая ставка] на finance.ru > food.ru

Non-trivialness

Фильтр тривиального. "Вклад открывается в рублях" — везде, не повышает KBT.

Тривиальный факт = магнитуда ≈ 0

// KBT Score (Google Research 2015): Fact_magnitude = triple_correctness × non_trivialness × topic_relevance Action_magnitude = information_weight(predicate) Triple_value = Fact_magnitude × Action_magnitude × extraction_confidence InformationGain = New_Triples_high_Triple_value / Total_Triples_in_Cluster

V+

Тест на магнитуду + сильные vs слабые предикаты

Практика: удали ключевое слово — что осталось?

▼

Тест: удали ключевое слово. Если ценность сохранилась — Verifiable Unit.

Высокая

"Минимальный порог открытия вклада — 50 000 ₽" → без "вклада": "минимальный порог — 50 000 ₽" — конкретный факт остался

Высокая

"ЦБ повысил ставку с 13% до 16% в декабре 2023" → без "ЦБ": "ставку повысили с 13% до 16% в декабре 2023" — факт и дата сохранились

Нулевая

"У нас лучшие ставки по вкладам" → без "вкладам": "у нас лучшие ставки" — ноль информации

Нулевая

"Наши финансовые продукты — надёжные решения для вас" — это шум, не факт

// Предикаты с ВЫСОКОЙ Action magnitude: снижает / повышает / достигает / превышает / не превышает составляет / равняется / вырос / упал / изменился обеспечивает / гарантирует / ограничивает // Предикаты с НИЗКОЙ Action magnitude: есть / имеет / предлагает / является / реализует / осуществляет

✓ Высокая Action magnitude

"ЦБ повысил ключевую ставку с 13% до 16% (дек. 2023)"

"Досрочное закрытие снижает доход до 0,01% годовых"

"Инфляция достигла 7,4% в годовом выражении"

"Минимальная сумма составляет 50 000 ₽"

✗ Низкая Action magnitude

"У нас есть выгодные вклады для физических лиц"

"Банк предлагает надёжные решения для сбережений"

"Ставки представляют собой конкурентные условия"

"Вклад является хорошим способом сохранить деньги"

KBT 2015L1: Proposition LayerT: Triplet Layer

Триплетная уникальность: новый факт, не новое слово

Классическое SEO: уникальность = заменил "начисляет" на "выдаёт". Инженерное SEO: уникальность = новая SVO-тройка с высокой магнитудой, которой нет у конкурентов в Knowledge Vault кластера.

InformationGain = New_Triples (высокая Fact × Action magnitude)Total_Triples_in_Cluster

Тройки со слабыми предикатами или тривиальными объектами НЕ увеличивают IG — они отфильтровываются через KBT Non-trivialness.

Финансовая тема — разная ценность триплетов

Ставка по вкладу «Накопительный»составляет15,5% при автопополнении от 10 000 ₽IG +1

НДФЛ на доход по вкладуначисляетсяна сумму свыше 150 000 ₽ (ключ. ставка × 1 млн)IG +1

Капитализация процентовувеличиваетэффективную ставку с 16% до 17,23% годовыхIG +1

Сбербанкпредлагаетвклады с высокими ставкамиIG +0 (тривиально)

Открыть вкладможнов отделении банка или онлайнIG +0 (тривиально)

+IG

Источники новых триплетов — финансовая тематика

Что добавляет IG, чего нет у конкурентов

▼

// Шаблоны с высоким Triple_value: "[Продукт X] [активный глагол] [конкретное значение + условие]" "По данным ЦБ РФ за [дата]: [показатель] [изменился] на [число]%" "При [условие]: [субъект] [глагол изменения] [результат с числом]" "[Продукт A] отличается от [Продукт B] тем, что [конкретный атрибут]" // НЕ создают IG (Triple_value ≈ 0): "[Банк] предлагает [прилагательное] [продукт]" "У нас [нечто хорошее] для [целевой аудитории]"

✓ Новый триплет (IG+)

Конкретная ставка + условие + срок действия

Расчёт НДФЛ с точным порогом и формулой

Сравнение эффективной ставки с/без капитализации

Условие досрочного закрытия с точным снижением

Исторические данные: ставка 6 месяцев назад vs сейчас

✗ Нулевой IG

Прилагательные без числового подтверждения

"Надёжный банк с многолетней историей"

Повторение того же факта другими словами

"Вклад можно открыть быстро и удобно"

Information Gain patent 2022KBT 2015T Layer

Hub-and-Spoke Topical Silo (L3.1)

Layer 3: Structural Integrity. Базируется на P16 (Vertical Topical Silos). Формула: [Хаб] ↔ [Дочерняя] ↔ [Страница продукта]. Поисковик должен видеть "дерево знаний".

Хаб: Вклады физических лиц (общая страница темы)

↕ ↕ ↕

Вклады с капитализацией

Вклады с пополнением

Валютные вклады

↕ ↕ ↕

Вклад «Максимум» Сбербанк

Вклад «Надёжный» ВТБ

Обзор Сбербанк 2025

Нарушения Silo:

✗ Статья «Вклад Сбербанк» → Главная сайта

✗ Статья «Вклад ВТБ» → Статья «Как взять ипотеку»

Machine-aligned signals (Google Leak 2024 + P16)

siteEmbedding stability

Семантический вектор сайта стабилен. siteFocusScore из Leak 2024 измеряет концентрацию тематики.

topical clustering

Страницы кластеризуются в тематические группы. LDA/LSA на уровне сайта.

link-graph relevance

Граф внутренних ссылок отражает семантическую иерархию. Ссылки между далёкими темами — штраф.

path-based intent satisfaction

Пользователь находит ответ всех уровней запроса внутри кластера без выхода наружу.

// P16: Vertical Topical Silos Hub ↔ Spoke ↔ ProductPage // двусторонняя перелинковка с каноническим анкором for each leaf in cluster: assert link_to_parent_hub(leaf) // ссылка вверх assert link_from_hub(leaf) // ссылка вниз assert not links_to_distant_topic() // нет прыжков // siteFocusScore (Google Leak 2024): siteFocusScore = consistency(topic_vector across all_pages)

▶

Как построить правильный Topical Silo — финансовая тематика

Что проверять · Сильно vs слабо

▼

✓ Сильная структура

Статья «Вклад Сбербанк» → Хаб [Вклады с капитализацией]

Статья «Вклад Сбербанк» → Обзор Сбербанка 2025

Хаб «Все вклады» → все дочерние страницы по видам

Каждая листовая страница ссылается на хаб И на бренд-страницу

✗ Слабая структура

Статья про вклад → главная сайта (нет тематического хаба)

Статья про вклады → статья про ипотеку в том же тексте

Листовая страница без ссылки на родительский хаб

Ссылки только вниз по иерархии, но не вверх

Хаб существует?

Есть главная страница темы "Вклады" / "Кредиты"?

Дочерние страницы?

Есть узкие интенты — конкретные типы и продукты?

Закольцовка?

Каждая листовая → хаб AND → бренд-страница банка?

Изоляция?

Нет ссылок на семантически далёкие темы в теле?

P16: Vertical Topical SilossiteFocusScoresiteEmbedding stability

Пороги исключения из выборки

Недостаточно быть "в тематике". Если score ниже порога — документ физически исчезает из consideration set. Это не низкая позиция — это полное отсутствие.

Зоны scoring документа для данного запроса

0Confidence thresholdRelevance thresholdTop

Discard — физически удалён из выборки

Low confidence — конкретный факт отброшен

Consideration set — ранжируется

Порог уверенности (Confidence)

Если конкретный факт имеет низкий KBT confidence — он discarded при формировании ответа. Google не снижает вес — он игнорирует факт полностью.

fact → discarded → не в Answer Box

Порог релевантности (Relevance)

Если Relevance Score документа ниже Threshold Value — "Discard the given search result". Физическое исключение из consideration set для запроса.

→ Discard the given search result

// Relevance Threshold: if Relevance_Score(doc, query) < Threshold_Value: action = "Discard the given search result" // Confidence Threshold (KBT): if KBT_confidence(fact) < confidence_threshold: action = "Discard fact" // не попадает в Answer Box // Требования для преодоления Relevance Threshold: Required: T*_Body_score + passage_fit + entity_coverage + intent_match

✓ Высокий confidence

Конкретная ставка с единицами: "16,5% годовых"

Источник и дата: "По данным ЦБ РФ на 01.04.2025"

Консенсус с авторитетными источниками

Schema.org разметка подтверждает факт структурно

✗ Низкий confidence → discarded

Расплывчато: "ставки от 10 до 20 процентов"

Факт без источника и даты актуальности

Противоречит данным ЦБ РФ или авторитетных источников

Нет структурного подтверждения (Schema, таблица)

E-E-A-T как алгоритм: что реально хранит Google

E-E-A-T не единый score — это концепция, реализованная через десятки отдельных атрибутов. Источник: Google Content Warehouse API Leak 2024 (подтверждён Google) + патенты. Фокус: только сигналы связанные с написанием и содержимым текста.

Experience

Опыт автора в теме

contentEffort

OriginalContentScore

isAuthor

contentEffort — LLM-оценка усилий, вложенных в создание текста. Прокси для Helpful Content System. Измеряет: уникальность данных, сложность анализа, наличие первичных источников.

OriginalContentScore — шкала 0–512 (для коротких материалов максимум 127). Тонкий контент без подложки — низкий score вне зависимости от объёма.

isAuthor — boolean: Google может идентифицировать автора на странице или нет. Если не может — confidence в экспертизе снижается.

Leak 2024: QualityNsrPQData module · PerDocData model

Expertise

Экспертиза автора по теме

authorReputationScore

Author Vectors (US11275895)

normalizedTopicality

authorReputationScore — прямая метрика авторитетности автора (WebrefMentionRatings module). Нейросеть строит "вектор автора" по стилю — может идентифицировать без явного byline.

normalizedTopicality — нормализованный score: насколько весь документ посвящён сущности/теме. Высокий = автор фокусирован, не распыляется.

Патент US11275895 (2020): Author Vector System — нейросеть классифицирует авторов даже без подписи, по стилю и выбору слов.

Leak 2024: WebrefMentionRatings · Patent US11275895

Authoritativeness

Авторитетность источника

siteAuthority

siteFocusScore

authorityPromotion

siteAuthority — подтверждён в Leak 2024 (CompressedQualitySignals). Вопреки публичным заявлениям Google — существует и влияет на Q* ranking system.

siteFocusScore — тематическая концентрация сайта. Сайт "обо всём" → низкий siteFocusScore → слабая авторитетность по каждой теме.

authorityPromotion — прямой буст ранга при высоком authority score (подтверждён анализом Hobo Web).

Leak 2024: CompressedQualitySignals · Q* system

Trustworthiness

Доверие к контенту

bylineDate

syntacticDate

semanticDate

KBT confidence

Три типа дат: bylineDate (явно указана), syntacticDate (из URL/заголовка), semanticDate (выведена из содержимого). Несовпадение между ними — сигнал недоверия.

KBT confidence — уровень уверенности в верности конкретных фактов (2.8B triples, Knowledge Vault). Факты с низким confidence → discarded из Answer Box.

Q-Star (Q*) — итоговый quality score сайта, подтверждён в DOJ testimony 2025.

Leak 2024: bylineDate/syntacticDate/semanticDate · KBT 2015 · DOJ Q*

EE1

contentEffort — как LLM оценивает усилия в тексте

QualityNsrPQData · Helpful Content System · текстовые сигналы

▼

contentEffort — LLM-based effort estimation for article pages. Это вероятно ключевой технический механизм Helpful Content Update (HCU). Измеряет не объём, а реальную сложность создания.

// Что повышает contentEffort (по анализу Leak 2024): + Собственные данные которые нельзя скопировать (первичные источники) + Оригинальные изображения, схемы, графики (не stock photos) + Числовые факты с источниками и датой (KBT-совместимые тройки) + Личный опыт или экспертный анализ (не пересказ) + Высокая сложность воспроизведения: интервью, тесты, измерения // Что снижает contentEffort: - Текст который легко воспроизвести (пересказ общеизвестного) - Отсутствие уникальных данных - AI-генерация без редактуры (паттерны шаблонного текста)

✓ Высокий contentEffort

Собственные расчёты: "мы протестировали вклад X — реальная доходность составила Y"

Первичные источники: прямая цитата из официального документа ЦБ РФ

Оригинальные схемы, таблицы сравнений которых нет у конкурентов

Личный опыт: "при открытии вклада менеджер сообщил, что..."

Числа с методологией: "по нашему расчёту при капитализации ежемесячно"

✗ Низкий contentEffort

Пересказ с сайта банка без добавленной ценности

Общеизвестные факты без источника и анализа

Структурированный текст без оригинальных данных

Stock photos вместо реальных скриншотов или графиков

AI-текст без редактуры — паттерны шаблонных формулировок

contentEffortQualityNsrPQDataHelpful Content SystemLeak 2024

EE2

Авторство в тексте: isAuthor, bylineDate, Author Vectors

Что нужно писать и указывать чтобы Google идентифицировал автора

▼

// Author Vector System (Patent US11275895, 2020): Author_vector(A) = NN_encode(all_articles_by_A) // Нейросеть строит вектор по стилю — идентифицирует автора без явного byline // isAuthor (Leak 2024): boolean isAuthor = True если Google идентифицировал entity как автора страницы isAuthor = False → confidence в экспертизе снижается // authorReputationScore (WebrefMentionRatings): authorReputationScore = f(упоминания автора в авторитетных источниках, тематическая согласованность публикаций, LDA-кластеры тем автора) // Три даты должны совпадать: bylineDate = дата в byline статьи syntacticDate = дата в URL (/2025/04/) или заголовке semanticDate = дата выведенная из содержимого текста // Несовпадение → сигнал манипуляции датами

✓ Сигналы авторства в тексте

Byline с реальным именем автора в начале статьи

Дата публикации согласована: byline = URL = Schema = текст

Schema Person с sameAs на LinkedIn/официальный профиль

Последовательный стиль письма от одного автора (Author Vector)

Ссылка на страницу автора с историей публикаций по теме

✗ Слабые сигналы авторства

Анонимный контент "Редакция" или без автора

Несовпадение дат: в byline 2023, в URL /2021/

Фиктивный автор без реальных публикаций

Один автор пишет одновременно про финансы, кулинарию, авто

Стиль меняется кардинально — сигнал разных авторов или AI

isAuthorbylineDatesyntacticDatesemanticDateUS11275895authorReputationScore

EE3

Trustworthiness в тексте: факты, источники, KBT

Что делает конкретный текст доверенным на уровне содержимого

▼

// KBT Trustworthiness для конкретных утверждений: KBT_score(fact) = P(fact верен) × P(extraction верен) × Topic_relevance // Консенсус-проверка (от SEMQA до Featured Snippets): Consensus_score(fact) = agreement(fact across authoritative sources) // Факт не принятый другими авторитетными источниками → low confidence → discard // OriginalContentScore (0–512): // Что реально даёт score: + Факты первой публикации (first_seen_timestamp == this_site) + SVO-тройки которых нет у конкурентов в кластере + Уникальные числовые данные, не взятые из общедоступных источников

✓ Высокий Trust в тексте

Факты с конкретным источником: "По данным ЦБ РФ, Вестник Банка России №12 2024"

Дата актуальности рядом с числовыми фактами: "по состоянию на апрель 2025"

Согласованность с другими авторитетными источниками

Явная маркировка мнения vs факта: "по нашей оценке" vs "по данным ЦБ"

Обновление устаревших данных (semanticDate актуальна)

✗ Низкий Trust → confidence penalty

Факт без источника — Google не может верифицировать

Противоречие официальным данным ЦБ без объяснения

Устаревшие данные без обновления (semanticDate старая)

Мнение подаётся как факт без маркировки

Несоответствие между Schema.org и текстом страницы

KBT confidenceOriginalContentScoresemanticDateConsensus scoring

EE4

Experience в тексте: личный опыт как алгоритмический сигнал

Как писать кейсы и пользовательские сценарии которые Google считает Experience

▼

Experience — первый "E" в E-E-A-T, добавлен Google в декабре 2022. Отличается от Expertise: экспертиза = знание теории, опыт = личное столкновение с темой. Алгоритмически измеряется через contentEffort и OriginalContentScore — данные которые невозможно написать без реального взаимодействия с предметом.

Что считается личным опытом в тексте

Пользовательский сценарий (кейс)

Конкретный человек → конкретное действие → конкретный результат с числами. Это SVO-тройка с максимальным Fact_magnitude: субъект реален, предикат активен, объект верифицируем.

"Вася открыл вклад 500 000 ₽ на 12 мес. при 16% → получит 80 000 ₽ дохода, из них 380 ₽ НДФЛ"

Сравнительный расчёт из практики

Два варианта → разница в числах → вывод. Демонстрирует что автор реально сравнивал, а не пересказывает сайт банка.

"С капитализацией 16% → 17,23% эффективная, +612 ₽ к доходу на каждые 50 000 ₽"

НЕ считается опытом

Абстрактные утверждения без конкретного субъекта. Google не может извлечь SVO-тройку — extraction_confidence низкий.

"Многие клиенты выбирают вклады с высокими ставками для сохранения средств"

НЕ считается опытом

Пересказ условий с сайта банка без личного взаимодействия. contentEffort низкий — это легко воспроизводимо.

"Вклад открывается в отделении или онлайн, срок от 1 до 36 месяцев"

Анатомия кейса с высоким contentEffort

Пример финансового кейса — разбор по слоям

[Субъект] Вася — программист, 32 года, Москва — [ситуация] накопил 500 000 ₽ и выбирал между тремя вкладами на финансовом маркетплейсе. [Действие] Он выбрал вклад Сбербанк «Лучший%» — 16% годовых, срок 12 месяцев, с ежемесячной капитализацией. [Числовой результат] За год Вася получит 86 150 ₽ дохода (эффективная ставка 17,23% из-за капитализации). [Налог] НДФЛ составит 0 ₽ — необлагаемый лимит в 2025 году: 16% × 1 000 000 ₽ = 160 000 ₽, а доход Васи ниже. [Вывод] Если бы он выбрал вариант без капитализации (те же 16%), доход составил бы 80 000 ₽ — разница 6 150 ₽ только за счёт капитализации.

SVO-тройки

Вася выбрал вклад 16%
Вася получит 86 150 ₽
НДФЛ составит 0 ₽
Капитализация даёт +6 150 ₽

Что делает Experience

Конкретный субъект
Реальная сумма (500 тыс)
Реальный расчёт
Сравнение двух вариантов

contentEffort сигналы

Нельзя скопировать
Расчёт с методологией
Числа проверяемы
Нетривиальный факт

Шаблон кейса — как писать

// Структура личного опыта / пользовательского кейса: [Субъект с контекстом] = конкретный человек или тип с деталями → НЕ "пользователь", а "Вася, программист, 500 000 ₽" [Ситуация / задача] = что именно искал/хотел решить → "выбирал между 3 вкладами на маркетплейсе" [Действие с параметрами] = что конкретно сделал и на каких условиях → "открыл Сбербанк 16%, 12 мес., капитализация ежемесячно" [Числовой результат] = конкретные цифры, формула расчёта → "получит 86 150 ₽ (эфф. ставка 17,23%)" → "НДФЛ = 0 ₽, т.к. доход < необлагаемого лимита 160 000 ₽" [Сравнение / альтернатива] = что было бы при другом выборе → "без капитализации: 80 000 ₽ — разница 6 150 ₽" [Вывод / рекомендация] = что это означает для читателя → "капитализация имеет смысл при сроке от 6 мес."

✓ Experience в тексте (contentEffort ↑)

Конкретный субъект с деталями: возраст, сумма, город, ситуация

Реальные числа в расчёте которые можно проверить

Сравнение двух или более вариантов с разницей в цифрах

Расчёт налога, комиссии, реальной доходности — то что обычно не на сайте банка

Вывод который можно применить ("для сумм до X капитализация не окупается")

Скриншот из приложения/кабинета рядом с кейсом

✗ Не Experience (contentEffort ↓)

"Многие выбирают вклады для сохранения" — нет субъекта

"Вклад открывается за 5 минут" — без контекста и числа

Пересказ условий с сайта банка — высокая replication difficulty = 0

Абстрактные советы без конкретного сценария

Кейс без числового результата — "Вася остался доволен"

contentEffort (Leak 2024)Experience = первый E в E-E-A-TOriginalContentScoreKBT: Non-trivialness

Повышающие и понижающие коэффициенты

Google применяет модификаторы к базовому score документа — одни буст, другие — demotion или полное исключение. Источник: Leak 2024 (CompressedQualitySignals, PerDocData) + патенты + DOJ testimony.

↑ Повышающие (Boost)

authorityPromotion

Прямой буст ранга при высоком siteAuthority + authorReputationScore. Применяется через Q* system. Leak 2024: CompressedQualitySignals

contentEffort ↑

Высокий effort score → буст в Helpful Content System. Прокси экспертности: уникальные данные, первичные источники, оригинальный анализ. Leak 2024: QualityNsrPQData

OriginalContentScore ↑

0–512 баллов за уникальность. Особенно критично для коротких материалов (макс. 127). Первые SVO-тройки в кластере = максимум. Leak 2024: PerDocData

goodClicks (Navboost)

Длинные клики (dwell time) = "goodClick". Пользователь нашёл ответ и не вернулся → per-topic popularity score растёт. Leak 2024: NavBoost module · DOJ 2023

siteFocusScore ↑

Тематическая концентрация сайта. Все страницы об одной теме → высокий siteFocusScore → буст каждой страницы. Leak 2024: siteEmbedding module

KBT confidence ↑

Факты с высоким KBT confidence → приоритет в Featured Snippets и Answer Box. Консенсус между источниками усиливает. KBT paper 2015 · Consensus scoring

smallPersonalSite

Атрибут малого экспертного сайта. Может давать буст нишевым авторитетным источникам (механизм точно не известен, но атрибут присутствует). Leak 2024: специальный twiddler-атрибут

↓ Понижающие (Demotion)

pandaDemotion

Постоянный site-wide demotion для доменов с высокой долей тонкого, дублированного или низкокачественного контента. Применяется как модификатор ко всему домену. Leak 2024: CompressedQualitySignals

redundancy_penalty

Штраф за keyword stuffing: Actual_N related phrases > 2×Expected_N → down-weight в SPAM_TABLE. Применяется к топ-3 ключевым фразам документа. US8078629: Spam detection via phrases

badClicks (Navboost)

Быстрый возврат к SERP (pogo-sticking) = "badClick". Снижает per-topic popularity score. Не компенсируется количеством кликов. Leak 2024: NavBoost module · DOJ 2023

navDemotion

Demotion за плохую навигацию или UX. Хранится в CompressedQualitySignals — применяется быстро на этапе Mustang (предварительный скоринг). Leak 2024: CompressedQualitySignals

clutterScore ↑

Штраф за "захламлённость" страницы: избыток рекламы, попапов, нерелевантных элементов. Высокий clutterScore = demotion. Leak 2024: PerDocData

anchorMismatch

Несоответствие анкорного текста входящей ссылки содержимому страницы → снижение link value и траст-сигнала. Leak 2024: link signals module

Discard (threshold)

Если Relevance Score < Threshold Value или KBT confidence < порога → физическое исключение из выборки. Не "низкая позиция" — полное отсутствие. Fig. 4 patent flowchart · KBT paper 2015

Q* — итоговый quality score и pipeline применения коэффициентов

Как модификаторы складываются в финальный ранг

▼

// Pipeline применения коэффициентов (по анализу Leak 2024): // Этап 1: Mustang — быстрый предварительный скоринг // Читает CompressedQualitySignals (Flash memory, очень быстро): Mustang_score = T*_score × siteAuthority_modifier × pandaDemotion_modifier // Этап 2: TeraGoogle — полный скоринг // Читает PerDocData (полный набор сигналов): TeraGoogle_score = f( T*_score, // Anchors + Body + Clicks Q*_score, // долгосрочный quality score contentEffort, // effort estimation OriginalContentScore, NavBoost_signals, // goodClicks vs badClicks KBT_confidence, // факты верифицированы siteAuthority, // авторитет домена siteFocusScore // тематическая концентрация ) // Модификаторы применяются как множители: Final_score = Base_score × authorityPromotion_factor // ↑ если высокий authority × pandaDemotion_factor // ↓ если много thin content × navDemotion_factor // ↓ если плохой UX × contentEffort_factor // ↑ или ↓ в зависимости от effort // Если Final_score < Relevance_Threshold → Discard

Q* (Q-star)

Долгосрочный quality score. "Largely static" — строится годами. Подтверждён в DOJ testimony 2025.

CompressedQualitySignals

Кэш критических сигналов для быстрого Mustang scoring. Включает: siteAuthority, pandaDemotion, navDemotion.

PerDocData

"Цифровое досье" каждого URL. Содержит: contentEffort, OriginalContentScore, freshness, spam signals.

VersionedFloatSignal

Google хранит историю последних 20 версий страницы. predictedDefaultNsr отслеживает тренд качества.

Q* DOJ 2025Mustang systemTeraGoogleCompressedQualitySignalsLeak 2024

↕

Как применять коэффициенты при написании текста

Практика: что конкретно делать с каждым модификатором

▼

✓ Максимизируй boost сигналы

contentEffort: добавь данные которые нельзя скопировать — собственный расчёт, скриншот личного кабинета, интервью с экспертом

OriginalContentScore: новые SVO-тройки в кластере, уникальные числа с методологией, первичная публикация данных

isAuthor + authorReputation: byline реального эксперта + Schema Person + дата совпадает везде

KBT confidence: каждый числовой факт с источником + датой + Schema-разметкой = проходит порог confidence

siteFocusScore: одна публикация укрепляет авторитет сайта только если тематически согласована с остальными

✗ Избегай demotion триггеров

pandaDemotion: один слабый материал на сайте с высоким pandaDemotion тянет вниз всё — не публикуй thin content

redundancy_penalty: LSI-ключи вброшенные списком, повторение Related Phrases в одном блоке — триггер spam detection

badClicks: заголовок обещает одно, текст даёт другое → pogo-sticking → Navboost demotion

clutterScore: рекламные блоки до основного контента, попапы при загрузке — повышают clutter → demotion

anchorMismatch: не создавай страницы под анкоры которые не соответствуют реальному содержимому

contentEffortpandaDemotionclutterScoreNavBoostKBT

AS — Anti-Stuffing Layer

Отдельный защитный слой оценки документа. Проверяет не что сказано, а как часто и насколько естественно. Google смотрит на весь документ целиком и сравнивает профиль фраз с кластером. Шесть субметрик.

Phrase Spam Excess

Actual_N Related Phrases vs 2×Expected_N. Превышение → SPAM_TABLE → down-weight всего документа

Related Phrase Support

Наличие семантически связанных фраз рядом с ключевой. Low support при high exact phrase = stuffing

Co-occurrence Consistency

Related Phrases распределены равномерно по всем разделам. Концентрация в одном блоке = флаг

Contextual Co-occurrence

Пары фраз встречаются вместе там где это естественно, а не подряд в одном предложении

Synthetic Pressure

Ощущение что фразы вставлены искусственно. Выявляется через PMI: низкий PMI у соседних слов = signal

Information Gain Ratio

Новые уникальные тройки / все тройки. Высокий IG = настоящее содержание. Низкий = разбавленный рерайт

AS1

Phrase Spam Excess — граница между нормой и штрафом

Как посчитать Expected_N и не пересечь порог

▼

// US8078629: Spam detection via phrase model Expected_N = median(related_phrase_count per doc in cluster_top10) // Три зоны: N < Expected_N → хорошо, тема раскрыта умеренно Expected_N ≤ N ≤ 2×N → норма, плотный но не спам N > 2×Expected_N → SPAM_TABLE → down-weight документа // Пример (финансы): // Топ-10 медиана по фразе "вклад": 8 упоминаний // Expected_N = 8, порог = 16 // Если в твоём тексте 20 упоминаний → флаг stuffing

✓ Норма

Ключевая фраза встречается ~как у конкурентов из топ-10

Каждое упоминание несёт новый смысл — другой атрибут или контекст

Related Phrases варьируются: синонимы, парафразы, дочерние термины

Плотность стабильна по всему тексту — нет пиков в начале/конце

✗ Stuffing триггеры

Ключевая фраза вставлена в каждое предложение раздела

LSI-список в конце статьи "для SEO"

Все Related Phrases сосредоточены в intro и outro

Синонимы повторяются без нового смысла

US8078629Expected_N = medianSPAM_TABLE

AS2

Co-occurrence Consistency — равномерность vs концентрация

Почему распределение фраз важнее их количества

▼

// Co-occurrence Consistency Score: Consistency = 1 - variance(phrase_density per section) / mean_density // Высокий = фразы распределены равномерно → organic text // Низкий = пики концентрации → synthetic/stuffed text // Пример: // Раздел 1: 3 упоминания "вклад" // Раздел 2: 0 упоминаний // Раздел 3: 8 упоминаний ← пик → low consistency → флаг

Это один из ключевых сигналов отличия AI-текста без редактуры от живого: LLM часто накапливает фразы в определённых местах (обычно в intro и заключении) и пропускает их в середине. Высокая Consistency = признак что автор думал о теме последовательно.

Co-occurrence consistencyM Layer (ABC)US7536408

AS3

Synthetic Pressure — как детектируется искусственный текст

PMI, co-occurrence naturalness, phrase injection patterns

▼

// Pointwise Mutual Information (PMI) для пары слов: PMI(w1, w2) = log[ P(w1,w2) / (P(w1) × P(w2)) ] // Высокий PMI = слова естественно встречаются вместе в корпусе // Низкий PMI = слова поставлены рядом искусственно // Признаки Synthetic Pressure в тексте: 1. Ключевые фразы вставлены в предложения где они грамматически неловки 2. Фраза начинает предложение без логической связи с предыдущим 3. Определение термина повторяется несколько раз разными словами 4. Абзац заканчивается "keyword anchor" без смысловой необходимости

✓ Низкий Synthetic Pressure

"Ставка по вкладу составляет 16,5%" — фраза органична

Каждое введение термина обосновано контекстом

Соседние слова имеют высокий PMI в языковом корпусе

✗ Высокий Synthetic Pressure

"Вклад — это вклад в банке, позволяющий открыть вклад" — тавтология

Фраза вставлена в конец абзаца без логической связи

Определение повторяется трижды разными формулировками

PMI: Pointwise Mutual Informationbad_ss_corrupt_textUS8078629

M — Algorithmic Document Signals: 8 субметрик

Слой M состоит из восьми независимых субметрик. Общий M-score = взвешенная сумма. Каждая субметрика измеряет отдельный аспект качества документа на алгоритмическом уровне.

M1 — Salient Term Coverage

Наличие характерных терминов темы в документе. Проверяется по Good Phrase List кластера

M2 — Co-Term Coverage

Наличие устойчивых пар терминов: укус ↔ 72 часа, ставка ↔ срок, полис ↔ покрытие

M3 — Section-Weighted Topic Support

Главная тема поддерживается в каждом разделе, не только в intro и H1

M4 — Topic Drift Penalty

cosine_distance(topic_start, topic_end). Высокий drift = штраф T* score

M5 — Best Passage Score

Query Match × Answer Match для лучшего пассажа. Кандидат на Featured Snippet

M6 — Snippet Sentence Score

Доля предложений пригодных для извлечения как snippet-ответ. Нужны короткие прямые ответы

M7 — Rewrite Safety

Устойчивость документа к разным формулировкам запроса: синонимы, парафразы, смежные интенты

M8 — Segmentation Stability

Насколько стабильно Google может сегментировать документ на независимые пассажи

M1–2

Salient Terms + Co-Term Coverage

Как проверить что все нужные слова и пары присутствуют

▼

// M1: Salient Term Coverage Salient_terms = Good Phrases с высоким TF-IDF в кластере топ-10 Coverage_M1 = |{salient_terms в doc}| / |{salient_terms ожидаемых}| // Цель: Coverage_M1 > 0.85 // M2: Co-Term Coverage — устойчивые пары по PMI Cluster_pairs = [(t1, t2) | PMI(t1,t2) высокий в корпусе кластера] Coverage_M2 = |{пары в doc}| / |{пар ожидаемых}| // Примеры сильных пар для финансовой темы: // вклад ↔ ставка | ипотека ↔ первый взнос // капитализация ↔ эффективная ставка // НДФЛ ↔ необлагаемый лимит // ЦБ РФ ↔ ключевая ставка

✓ Высокий M1-M2

Все ожидаемые термины темы присутствуют в тексте

Устойчивые пары встречаются вместе, а не порознь

Нишевая терминология использована правильно и в контексте

✗ Низкий M1-M2

Ключевые термины темы заменены синонимами везде

Пары разорваны — "ставка" в одном разделе, "срок" в другом без связи

Отсутствуют нишевые термины которые есть у всех конкурентов

Salient Term CoveragePMI Co-occurrenceGood Phrase List

M3–4

Section-Weighted Topic Support + Topic Drift Penalty

Тема должна работать в каждом разделе, а не только в заголовке

▼

// M3: Section-Weighted Topic Support // Для каждого раздела: есть ли связь с главной темой? Section_support(S) = cosine_sim(section_vector, main_topic_vector) M3_score = weighted_avg(Section_support × block_weight) // block_weight: H2-раздел = 1.0, aside = 0.3 // M4: Topic Drift Penalty Topic_start = topic_vector первых 20% документа Topic_end = topic_vector последних 20% документа Drift = cosine_distance(Topic_start, Topic_end) // Drift > 0.3 → penalty T* score (DOJ, HJ Kim 2025)

✓ Высокий M3, низкий M4 drift

FAQ в конце статьи тоже про ту же тему что H1

Каждый H2-раздел начинается с упоминания главной сущности

Тема начала и конца — одна и та же

✗ Низкий M3, высокий M4 drift

Последние разделы уходят в смежную тему (FAQ про другой продукт)

Раздел "О компании" в конце статьи — drift penalty

Начали про вклады, закончили про инвестиционные продукты

Section-Weighted Topic SupportTopic Drift · DOJ HJ Kim 2025

M5–6

Best Passage Score + Snippet Sentence Score

Как писать для Featured Snippets и Answer Box

▼

// M5: Best Passage Score (US10783156) Passage_score = query_term_match(P, Q) × answer_term_match(P, Q_type) + context_boost(H2_над_пассажем) + structured_bonus(list/table) // Лучший пассаж документа = Featured Snippet кандидат // M6: Snippet Sentence Score // Идеальный snippet-ответ: Self_contained = 1 // понятен без контекста Direct_answer = 1 // отвечает на вопрос напрямую Length = 40–60 слов // оптимальная длина Has_number = +0.2 // числа повышают score

✓ Высокий M5-M6

Первый абзац под H2 = прямой ответ с числом

Пассаж самодостаточен — понятен без чтения остального

Ответ на "что такое / сколько стоит / как работает" — в одном предложении

Списки и таблицы дают structured_bonus к Passage Score

✗ Низкий M5-M6

Ответ на вопрос H2 только в середине раздела после вступления

Пассаж требует контекста — непонятен без предыдущего абзаца

Нет числовых фактов в первом предложении раздела

US10783156: Passage scoringFeatured SnippetSEMQA 2024

M7–8

Rewrite Safety + Segmentation Stability

Устойчивость к разным формулировкам запроса и пассажной нарезке

▼

// M7: Rewrite Safety // Документ должен ранжироваться для всего семейства запросов: Query_family = { "вклад Сбербанк 2025", "открыть вклад Сбербанк", "ставка по вкладу Сбербанк", "выгодные вклады Сбербанк" } // Rewrite_safety = доля запросов семьи для которых doc остаётся релевантным // M8: Segmentation Stability // Google должен уметь нарезать документ на независимые пассажи // Каждый пассаж = потенциальный ответ на подзапрос // Плохо: все факты перемешаны в одном длинном абзаце // Хорошо: каждый H2-раздел = отдельная мысль с началом и выводом

✓ Высокий M7-M8

Синонимы и вариации термина использованы естественно в тексте

Каждый раздел начинается и заканчивается самодостаточно

Один H2 = одна мысль = один пассаж для Google

Canonical phrase balance: основная фраза + 2–3 синонима по тексту

✗ Низкий M7-M8

Только одна точная форма фразы, никаких вариаций

Факты из разных тем перемешаны в одном абзаце

Раздел начинается с "Как уже говорилось выше..." — не самодостаточен

Rewrite SafetySegmentation StabilityUS7392244: Synonym Graph

QS — Query/Session Context: 4 субметрики

Слой QS оценивает документ не изолированно, а в контексте поискового сеанса. Четыре субметрики отражают разные аспекты того как страница вписывается в пользовательский путь.

Intent Refinement Coverage

Покрывает ли страница уточнённые версии запроса (Q1 broad → Q2 refined → Q3 specific)

Implicit Question Fit

Отвечает ли на вопросы которые пользователь не задал явно но подразумевал

Template Family Support

Поддерживает ли страница семейство запросов: синонимы, парафразы, смежные формулировки

Stable Core Preservation

Сохраняется ли основная тема при любом варианте запроса — документ не "плывёт"

QS1

Intent Refinement Coverage — покрытие query chain

Пользователь уточняет запрос — страница должна закрыть всю цепочку

▼

// Типичная query chain (финансы): Q1 (broad): "вклады 2025" Q2 (refined): "вклады Сбербанк 2025 ставки" Q3 (specific): "вклад Сбербанк Лучший процент условия досрочного закрытия" Q4 (action): "как открыть вклад Сбербанк онлайн" // Intent_Refinement_Coverage: IRC = |{вопросов chain покрытых страницей}| / |{вопросов в chain}| // Цель: IRC > 0.75 // Источник данных для построения chain: // People Also Ask + Related Searches + GSC query report

✓ Высокий IRC

Страница отвечает и на широкий ("что такое вклад") и на узкий ("ставка при досрочном закрытии") запрос

People Also Ask покрыты явными разделами или FAQ

Есть переходы к более узким страницам (Hub-and-Spoke)

✗ Низкий IRC

Страница отвечает только на Q1 (широкий), Q3 и Q4 игнорирует

People Also Ask не покрыты ни текстом ни ссылками

Нет перехода к более узкому интенту

US8595225: Navboost per-topicQuery chain coveragePeople Also Ask

QS2

Implicit Question Fit — невысказанные вопросы

Что пользователь подразумевал но не написал в строке поиска

▼

// Implicit Questions — то что пользователь НЕ пишет но ожидает: Explicit: "ставка по вкладу Сбербанк" Implicit: - безопасен ли Сбербанк (надёжность) - что будет при банкротстве (страховка АСВ) - можно ли пополнять (условия пополнения) - когда начисляются проценты (капитализация) - что если понадоблются деньги раньше (досрочное) // Implicit_Question_Fit: IQF = |{implicit вопросов закрытых страницей}| // Нет формальной нормализации — больше = лучше // Источник: анализ топ-10 + Related Searches + форумы

Implicit Questions — это разница между "отвечает на запрос" и "действительно помогает пользователю". Страница с высоким IQF закрывает сеанс поиска — пользователь не возвращается на SERP. Это прямо влияет на goodClicks / lastLongestClicks в Navboost.

✓ Высокий IQF

Раздел про страховку АСВ рядом с информацией о вкладе

Объяснение как работает капитализация без явного запроса

Предупреждение о досрочном закрытии в разделе про открытие

✗ Низкий IQF

Только явный запрос закрыт — ставка есть, про условия ни слова

Нет ответов на практические "а что если..."

Читатель уходит на SERP за дополнительными ответами

Implicit Question FitgoodClicks · lastLongestClicks (Leak 2024)Session satisfaction

QS3-4

Template Family Support + Stable Core Preservation

Семейство запросов и устойчивость основной темы

▼

// QS3: Template Family Support // Одна тема — много формулировок запроса: Template_family = { "вклад Сбербанк", // exact "депозит Сбербанк", // synonym "открыть вклад в Сбербанке", // action form "Сбербанк вклады физических лиц", // attribute form "Сбербанк вклад проценты 2025" // temporal form } TFS = доля семьи для которой документ семантически релевантен // QS4: Stable Core Preservation // Основная тема сохраняется при любом варианте запроса // Документ не "подстраивается" под каждый запрос отдельно // Один документ = одна сущность = один canonical intent

✓ Высокий TFS + SCP

Синонимы использованы естественно: вклад, депозит, накопительный счёт

Действие "открыть" присутствует рядом с описанием условий

Год и актуальность указаны — поддержка temporal form

Центральная сущность не меняется от раздела к разделу

✗ Низкий TFS + SCP

Только одна форма фразы, синонимы отсутствуют

Нет временных маркеров — непонятно актуален ли текст

Разные разделы де-факто про разные сущности

Template Family SupportStable Core PreservationUS7392244: Synonym GraphNavboost per-topic

Патенты Google · Leak 2024 · KBT · DOJ testimony 2025

Идеальный процесс создания контента

Операциональный флоу: парсим топ → NLP-анализ → взвешиваем → структура → пишем → E-E-A-T → чеклист. Каждый шаг привязан к алгоритму.

Парсим топ

NLP-анализ

Взвешиваем

Структура

Пишем

E-E-A-T

✓ Чеклист

Парсим топ-10 конкурентов по запросу

Собираем корпус — эталон для всех расчётов: IG, Expected_N, EA Coverage, Template

▼

Собери топ-10 URL и основной текст каждого

Инкогнито или API (DataForSEO, Serpstack). Извлекай только main content — без навигации, сайдбара, футера. Это твой кластер — с ним Google сравнивает твой документ при расчёте InformationGain и Expected_N Related Phrases.

InformationGain = New_Triples / Total_Triples_in_Cluster · US8078629: Expected_N

Извлеки структуру: H1, H2/H3, первые абзацы, Schema, bylineDate

Для каждого URL: все заголовки, первый абзац каждого раздела, мета-дата, Schema.org. Это покажет какие аспекты Google уже считает ожидаемыми — Template Coverage кластера.

Template coverage · Block architecture · bylineDate (Leak 2024)

Определи главную сущность кластера (Dominance > 0.7)

Какая Named Entity встречается во всех 10 документах? Dominance(E) = count_mentions(E) / total_entity_mentions. Это целевая сущность твоего документа. Твой документ должен иметь Dominance > 0.7 для этой же сущности.

US8732167: Disambiguation · entity_centrality_score

Зафиксируй Expected Attributes типа сущности

Выпиши все атрибуты встречающиеся у большинства топ-10. Для вклада: ставка, срок, сумма, условия, НДФЛ, досрочное закрытие. Это Expected_attrs(entity_type) — пропуск любого = низкий EA Coverage Score.

US9047278: Entity Attribute Ranking · EA Coverage formula

NLP-анализ корпуса: Good Phrases, NER, SVO-тройки

Извлекаем из топ-10 всё что Google считает нормой для этой темы

▼

// Инструменты: spaCy / Stanza / Natasha (рус.) — POS tagging, NER, dependency parsing KeyBERT / YAKE / Rake-NLTK — Good Phrases (биграммы, триграммы) sklearn TF-IDF — Salient Terms, Related Phrases весовой spaCy (nsubj+ROOT+dobj) — SVO-тройки (Subject-Verb-Object) NLTK / scipy — Expected_N через median по корпусу

Извлеки Good Phrases (2–5 граммы) + TF-IDF весовой

Токенизируй весь корпус, извлеки N-граммы (2–5). Отфильтруй по TF-IDF: высокий TF в корпусе + высокий IDF в общем языке = Good Phrase темы (Related Phrase). Это фразы которые Google ожидает видеть в твоём тексте — их отсутствие снижает Body Score в T* ABC.

US7536408/US7599914: Phrase-Based Indexing · Good Phrase List · T* Body Score

NER: Named Entities + Document Frequency по кластеру

Прогони корпус через NER (spaCy или Natasha для рус.). Для каждой Entity: DF = сколько из 10 документов упоминают. DF=10/10 → обязательная. DF=3–6/10 → желательная. DF=0–2/10 → уникальная = потенциальный IG. Known Entities с высоким DF дают Cold Start boost новой странице.

US10303684: Cold Start via STESV · Entity Salience scoring

SVO-тройки: dependency parser → собери Total_Triples_in_Cluster

Dependency parser: nsubj (субъект) + ROOT (глагол) + dobj/attr (объект). Для каждого из 10 документов: список SVO-троек. Объедини в Total_Triples_in_Cluster. Тройки которых нет ни у кого = твой IG потенциал. Твои уникальные тройки / Total = Information Gain Score.

InformationGain = New_Triples / Total_Triples_in_Cluster · KBT 2015

Expected_N: считай медиану Related Phrases по кластеру

Для главной ключевой фразы: посчитай количество Related Phrases в каждом из 10 документов. Expected_N = median этих 10 значений. При написании: держи своё N ниже 2×Expected_N. Превышение = автоматический spam detection флаг → SPAM_TABLE → down-weight.

US8078629: Expected_N = median · Spam threshold = 2×Expected_N

Взвешиваем: Content Gap, IG-потенциал, Fact magnitude

Три таблицы которые превращают анализ в план написания

▼

Content Gap: три приоритета — MUST / SHOULD / IG

Из NLP-анализа шага 02: (1) DF=10/10 → MUST включить, (2) DF=5–9/10 → SHOULD включить, (3) DF=0–2/10 → IG потенциал. Третья колонка — единственный источник реального Information Gain. Всё остальное — пересказ кластера с нулевым IG.

EA Coverage · InformationGain · Template coverage gaps

Fact magnitude: каждый запланированный факт через 3 вопроса

Triple_value = Fact_magnitude × Action_magnitude × confidence. Для каждого факта: (1) Есть конкретное число/дата/условие? (2) Активный предикат — снижает/составляет, не "есть"? (3) Источник верифицируемый? Если "нет" хоть на один → это не Verifiable Unit → переписать или удалить.

KBT: Triple_value · Non-trivialness · Action_magnitude

Проектируем структуру документа

H1, H2 из Gap, пассажи, место в Silo, zero-drift план

▼

H1 = сущность + ключевой атрибут + год

Формула: [Название сущности] + [главный атрибут] + [год]. Пример: "Вклад «Максимум» Сбербанк: ставка 16,5% — условия 2025". titlematchScore (Leak 2024) измеряет совпадение title с запросом — первый disambiguation сигнал.

titlematchScore · entity_centrality_score (Leak 2024)

H2 = каждый MUST-аспект из Gap → конкретный вопрос

Берёшь список MUST из шага 03 → каждый аспект становится H2 в виде вопроса. "Какова ставка при досрочном закрытии?" — не "Досрочное закрытие". H2 даёт context_boost(H2) для пассажа под ним: Passage_score += boost.

US9940367: Context scoring for passages · H2 context boost

Первый абзац каждого раздела = самодостаточный пассаж

Self_contained(P) = 1. Первое предложение = прямой ответ на вопрос H2 с числом/фактом. Остальные предложения — развёртка. Именно этот пассаж — Featured Snippet кандидат. Passage_score = query_match × answer_match + H2_context.

US10783156: Passage scoring · SEMQA 2024

Место в Silo → двусторонняя перелинковка

Leaf → Spoke → Hub. Каждая leaf-страница ссылается на родительский spoke/hub. Hub ссылается на все spokes. Отсутствие ссылки вверх = нарушение link-graph relevance → штраф siteFocusScore всего сайта.

P16: Vertical Topical Silos · siteFocusScore (Leak 2024)

Проверь Topic Drift заранее: все H2 об одной сущности?

Topic_drift = cosine_distance(topic_start, topic_end). До написания просмотри список H2 — все ли про одну сущность? Если нет — это либо отдельный URL, либо нарушение coherence → штраф T* score.

Topic drift · DOJ HJ Kim 2025 · T* score penalty

Пишем текст по алгоритмическим правилам

SVO + Triple_value, равномерные Related Phrases, явные субъекты, IG-тройки

▼

①

Каждое ключевое предложение = SVO + число + источник

Шаблон: [Named Entity] + [активный предикат] + [конкретное значение]. "Ставка по вкладу «Максимум» составляет 16,5% годовых при сроке от 91 дня — ПАО Сбербанк, апрель 2025." Тест: удали "вклад" — "16,5% при сроке от 91 дня" остался ценным? Да = Verifiable Unit.

Triple_value = Fact_magnitude × Action_magnitude × confidence

②

Related Phrases из шага 02 — равномерно по всем разделам

Co-occurrence consistency: Related Phrases должны быть в каждом разделе, не только в intro. После каждого раздела проверяй: 2–3 Related Phrases темы присутствуют? Все фразы в одном блоке = низкая consistency = stuffing риск даже при нормальной общей плотности.

Co-occurrence consistency · M Layer (ABC) · US7536408

③

Субъект явно в первом предложении каждого абзаца

Co-reference penalty: "он/она/это/продукт" без антецедента = штраф L1. Первое предложение каждого абзаца называет субъект по имени — это повышает extraction_confidence для SVO-троек → выше Triple_value всего раздела.

L1: Co-reference Resolution · extraction_confidence

④

Вставь IG-тройки из шага 03 — уникальные факты

Список фактов которых нет у топ-10 → формулируй как SVO с высоким Triple_value. IG_score = New_Triples_high_value / Total_Triples_in_Cluster. 3 уникальных факта из 30 в кластере = IG ≈ 10%. Это единственный способ создать документ с реально высоким IG Score.

InformationGain = New_Triples_high_value / Total_Triples_in_Cluster

Проверь N Related Phrases — не превышай 2×Expected_N

После написания: посчитай Related Phrases главной темы. Сравни с Expected_N из шага 02. N > 2×Expected_N = SPAM_TABLE = down-weight. Также: разные разделы не должны повторять одно и то же (Redundancy_penalty = avg cosine_sim(section_pairs)).

US8078629: spam threshold = 2×Expected_N · Redundancy_penalty

Встраиваем E-E-A-T и Trust-сигналы

Personal Experience (кейс), contentEffort, три даты, KBT confidence, Schema.org, IndexNow

▼

Добавь пользовательский кейс — Personal Experience (первый E)

Experience ≠ Expertise. Google хочет видеть личное столкновение с предметом — не теорию, а конкретный сценарий с числами. Шаблон: [субъект с деталями] → [действие с параметрами] → [числовой результат] → [сравнение / вывод].

Пример: "Вася — программист, 500 000 ₽ — выбрал вклад Сбербанк 16% с ежемесячной капитализацией на 12 мес. За год получит 86 150 ₽ (эффективная ставка 17,23%). НДФЛ = 0 ₽ — лимит 160 000 ₽ не превышен. Без капитализации было бы 80 000 ₽ — разница 6 150 ₽."

Это даёт 4 SVO-тройки с высоким Triple_value (Вася выбрал / получит / составит / даёт) и максимальный contentEffort — невозможно написать без реального расчёта.

contentEffort · Experience (E-E-A-T декабрь 2022) · OriginalContentScore · KBT Non-trivialness

Другие данные которые нельзя скопировать → contentEffort ↑

contentEffort = LLM-оценка сложности воспроизведения. Помимо кейсов: (1) собственный расчёт с методологией, (2) скриншот из личного кабинета или официального документа, (3) прямая цитата первичного источника, (4) результат собственного теста с числами. Всё что делает difficulty_of_replication высоким.

contentEffort · QualityNsrPQData (Leak 2024) · Difficulty of replication

Три типа дат должны совпадать: bylineDate = syntacticDate = semanticDate

isAuthor (boolean Leak 2024): Google идентифицировал автора → confidence растёт. Проверь: (1) bylineDate в тексте статьи, (2) syntacticDate в URL (/2025/04/), (3) semanticDate — все числовые данные актуальны на эту дату. Несовпадение любых двух = trust signal penalty.

isAuthor · bylineDate · syntacticDate · semanticDate (Leak 2024)

Каждый числовой факт = KBT-тройка с источником и датой

Формат: "[Факт с числом]" — [источник], [дата]. KBT confidence = P(fact correct | source). Факт без источника = low confidence = discarded из Answer Box. Консенсус с другими авторитетными источниками повышает confidence дополнительно.

KBT confidence · Triple correctness · Discard threshold

Schema.org + IndexNow сразу после публикации

Schema минимум: Article (author, datePublished, dateModified) + FinancialProduct (если продукт) + FAQPage (если Q&A). После публикации — сразу IndexNow или GSC. first_seen_timestamp должен быть у тебя — кто первый проиндексирован, тот получает OriginalContentScore.

Schema consensus · OriginalContentScore · US8577866: first_seen · IndexNow

Финальный чеклист перед публикацией

27 пунктов — отмечай каждый раз перед нажатием "Опубликовать"

▼

0 / 25