Назад

Утечка исходного кода Яндекса (2023): факторы и их актуальность

В январе 2023 произошла громкая утечка – в открытый доступ попал фрагмент исходного кода поискового движка Яндекса (около 45 ГБ). В нем была обнаружена база 1922 факторов ранжирования и их параметры. Анализ этого кода (проведенный как зарубежными, так и российскими специалистами) подтвердил многое из ранее предполагаемого и пролил свет на новые нюансы. Основные выводы из утечки:

  • Поведенческие факторы доминируют. Утечка подтвердила критически высокий вес User Behavior в формуле Яндекса. В коде явно присутствуют упоминания показателей CTR, времени на сайте, возвратов к поиску, доли последних кликов и др. – и все они имеют существенные коэффициенты. Ранее роль поведенческих обсуждалась экспертами, но теперь стало очевидно, что улучшение ПФ – приоритет №1 для SEO в Яндексе. Среди интересных открытий: наличие фактора добавления в закладки браузера, влияющего на ранжирование, и фактора повторных визитов. Эти данные сделали еще более понятным, почему Яндекс так борется с накрутками – ведь поведенческие сигналы действительно сильно “двигают” сайт в выдаче.
  • Ссылочные факторы значимы, но с оговорками. В коде найден параметр PageRank (как компонент ранга) – что опровергло миф об «отмене ссылок». Вместе с тем, обнаружены и фильтрующие условия: при признаках ссылочного спама вес ссылок резко снижается вплоть до нуля. Утечка перечислила ~40 факторов, связанных со ссылками – включая возраст ссылок, авторитет доменов-доноров, долю качественных/плохих ссылок и т.д.. Это указало SEO-специалистам, какие ссылки искать: старые, тематические, с трастовых площадок. Подтвердилось, что Wikipedia-ссылки действительно занесены в отдельный фактор (дают бонус). Однако некоторые найденные ссылочные факторы оказались устаревшими: например, упоминание показателя тИЦ Яндекса – который был отменен и заменен на ИКС еще в 2018. Вероятно, часть кода содержала легаси-элементы. В общей таблице факторов эксперты пометили около 200–300 пунктов как “deprecated” (устаревшие). Например, факторы, связанные с Яндекс.Каталогом (ЯК) – каталог закрыт, а факторы остались в коде, хоть и без влияния. Еще пример – упоминание алгоритма “Недвижимость” (старый фильтр для дорвеев по недвижимости) – ныне не актуального. В целом, утечка дала понимание актуальности: большинство факторов соответствуют современному состоянию, но несколько десятков – исторические рудименты, не влияющие на выдачу 2023 г.
  • Технические и UX-факторы. Код подтвердил, что Яндекс учитывает множество технических параметров сайта. Найдены факторы, штрафующие за медленную загрузку страниц, частые ошибки HTTP 4xx/5xx, длительную недоступность сайта. Глубина вложенности URL упоминается четырежды: чем дальше страница от главной (больше “/” в URL), тем ниже её приоритет. “Сиротские” страницы (без внутренних ссылок с других страниц сайта) – получают минус. Наличие цифр в URL оказалось нежелательным фактором – страницы с “человеко-нечитаемыми” URL типа site.ru/product?id=123 ранжируются хуже, чем с словесными URL. Это ценное практическое наблюдение: вебмастерам стоит избегать цифр и ID в адресах, использовать ЧПУ. Также фактор длины URL (и число параметров) – чем короче и проще адрес, тем лучше. Структура сайта должна быть “плоской” – как выяснилось, Яндекс предпочитает, чтобы нужная страница была не глубже 2-3 кликов от главной. Эти инсайты подтвердили известные рекомендации SEO по технической оптимизации.
  • Контент-метрики и мета-данные. В утекших факторах обнаружены любопытные метрики текстов: например, средняя длина слова в тексте, количество слов в предложении, доля стоп-слов – все это анализируется алгоритмами. Высвечен фактор “переоптимизация заглавными буквами” – о котором мы упоминали выше (title в верхнем регистре = плохо). Наличие на странице изображения и его размер – также фактор (в частности, фактор Featured Image). Соотношение внутренних и внешних ссылок на странице – еще один измеряемый показатель качества контента. По сути, Яндекс вычисляет множество параметров, характеризующих текст качественно: естественность языка (есть даже упоминание метрик по сочетаемости слов и информативности текста на уровне лингвистики). Это напоминает подход Google E-E-A-T, хотя прямая аналогия не в полной мере: у Яндекса меньше акцента на авторитет автора, но больше на письменное качество текста.
  • Неожиданные факторы. Утечка подарила SEO-сообществу ряд сюрпризов. Например, фактор наличия на странице карты (Google Maps или Яндекс.Карты API) – если встроена интерактивная карта, странице дается небольшой положительный балл. Вероятно, это маркер, что сайт локальный и удобный (например, контактная страница с картой проезда ценится выше, чем без нее). Также обнаружилось, что Яндекс может использовать фактор случайности – так называемый “рандом-буст”. В коде есть описание, что некоторые страницы случайным образом поднимаются в топ на время – с целью собрать данные, понравятся ли они пользователям. Этот экспериментальный механизм – не что иное, как упомянутый “многорукий бандит” (Random Forest Experiment). Яндекс запатентовал соответствующий метод: в одном из патентов описывается генерация двух списков результатов с разным ранжированием целевой страницы – один раз страницу искусственно повышают, другой раз понижают, и замеряют разницу в кликах. Если при повышении страница получила существенно больше трафика, это сигнал, что она потенциально недооценена алгоритмом и ее нужно ранжировать выше. Таким образом, поиск постоянно сам себя перепроверяет, внося элемент случайности. Еще интересное из утечки: учет социальных аккаунтов – для результатов из соцсетей (например, профили ВК, Telegram) алгоритм различает верифицированные аккаунты и нет; подтвержденные (с галочкой) ранжируются выше и внушают больше доверия. Также для видеоконтента имеются свои факторы – отдельно упоминаются короткие видео (TikTok, YouTube Shorts) и, видимо, специальные алгоритмы по ним. Наконец, подтвердилась давняя мысль: Википедия имеет особые условия ранжирования – похоже, Яндекс искусственно удерживает статьи Wikipedia высоко, учитывая их ценность для пользователей.

Эксперты отмечают, что утечка хотя и отразила состояние алгоритмов на 2022 год, могла содержать “балласт” из прошлого. Некоторые факторы, присутствующие в коде, уже не играют роли: например, индекс цитирования из Яндекс.Каталога. Также упоминались параметры для старых алгоритмов антиспама (АГС) – их влияние сейчас трансформировалось в новые метрики. Тем не менее, большинство выявленных факторов соответствуют актуальной логике. Яндекс в ответ на утечку заявлял, что «это черновой список, не отражающий реального вклада факторов в ранжирование». Действительно, влияние каждого фактора – не равномерное, а вычисляется моделью. Однако сам набор признаков ценен: SEO-специалисты получили чек-лист из ~2000 пунктов, на что обращает внимание Яндекс. Этот список стал своего рода учебником по SEO 2023: многое из перечисленного уже давно практиковалось (поведение, ссылки, контент), но были и новые моменты, которые теперь учтены в стратегиях. В целом утечка подтвердила, что стратегия продвижения в Яндексе должна быть комплексной: улучшение UX, скорости, написание хорошего контента, работа над ссылками и брендом – все в совокупности влияет на успех, а волшебной “одной кнопки” уже нет.

Александр Верещагин
Александр Верещагин
https://vospriyatie.com
Александр В. Верещагин — маркетинговый стратег, основатель и идейный руководитель бюро «Дело Восприятия». Его специализация — стратегии позиционирования и продвижения для рынков, где конкуренция высока, доверие к рекламе снижается, а видимость бренда все сильнее зависит от алгоритмов. В своей практике он соединяет классические маркетинговые принципы с латеральным и антикризисным подходом, адаптируя их к новой цифровой среде. Александр работает на стыке смысловой стратегии и прикладного продвижения: от формирования сильной идеи бренда до SEO, ASO, AEO и GEO — направлений, связанных не только с поисковой выдачей, но и с присутствием бренда в ответах ассистентов и нейросетевых систем. Его фокус — не просто продвижение, а управление тем, как бренд находят, понимают и выбирают в условиях алгоритмической конкуренции.

Ничего необычного, такие законы: Политика конфиденциальности