Назад

Тестирование поисковых систем: методы, метрики и подходы ведущих компаний

Современные поисковые системы проходят комплексное тестирование, прежде чем изменения в алгоритмах ранжирования или новые функции попадают к пользователям. Крупнейшие компании – Google, Microsoft (Bing), Amazon, Baidu, Яндекс и др. – выработали масштабируемые процессы оценки качества поиска и непрерывно улучшают релевантность результатов на основе экспериментальных данных. Решения о запуске изменений принимаются только после многогранной проверки: от офлайн-оценок на размеченных данных до онлайн-экспериментов на живом трафике и привлечения человеческих оценщиков. В этой статье рассмотрены основные методы тестирования поисковых систем, популярные метрики качества (nDCG, MAP, MRR, ERR, Precision@K, Recall@K и др.), процесс внедрения новых функций, особенности обучения и валидации моделей ранжирования, различия в тестировании лексического, семантического и генеративного поиска, а также подходы к контролю качества и ретроспективному аудиту релевантности.

Практики тестирования поиска в крупнейших компаниях

Ведущие интернет-компании выстроили свою инженерную культуру вокруг принципа “test and learn” – постоянного экспериментирования и измерения. Например, Google в 2023 году запустил более 4 000 улучшений поиска, проверив их в более 700 000 экспериментов различного типа. Среди них – 16 871 онлайн-эксперимент на живом трафике и около 125 000 сравнительных “side-by-side” оценок с участием асессоров. Подобный масштаб – норма для отрасли: Microsoft Bing параллельно проводит сотни экспериментов, и практически каждый пользователь Bing одновременно попадает в до 15 разных A/B-тестов (набор возможных комбинаций экспериментов превышает 30 миллиардов). Яндекс отмечает, что крупные веб-сервисы используют онлайн-эксперименты ежедневно и в большом масштабе, а все больше даже небольших компаний внедряют A/B-тестирование в цикл разработки. Такая ориентированность на данные позволяет отделять удачные идеи от неудачных и обеспечивать непрерывное улучшение поиска.

Не менее важную роль играет и офлайн-оценка качества. Google, например, постоянно привлекает внешних оценщиков качества поиска (Search Quality Raters), чтобы вручную оценивать полезность результатов по специально разработанным руководствам. Эти оценки не влияют напрямую на ранжирование, но служат ”золотым стандартом” для калибровки алгоритмов и мониторинга качества в разных странах. Google публикует свои “Search Quality Evaluator Guidelines” – детальные рекомендации для асессоров, на основе которых они выставляют оценки качества результатов и страниц (с акцентом на удовлетворение намерения запроса, пользу для пользователя и авторитетность источников). Полученные человеком оценки используются компанией для измерения эффективности поисковой системы и выявления примеров хороших и плохих результатов при разных запросах, помогая разработчикам понять, где поиск справляется с задачей, а где нужны улучшения.

Тестирование поисковых систем: методы, метрики и подходы ведущих компанийТестирование поисковых систем: методы, метрики и подходы ведущих компаний

Методы тестирования и экспериментов

Side-by-side эксперименты: один из офлайн-методов оценки – показ асессорам двух вариантов поисковой выдачи (например, текущий алгоритм vs. новый алгоритм) в режиме side-by-side. Оценщики сравнивают результаты и указывают, какой вариант более релевантен и полезен. Крупные поисковики (Google, Яндекс и др.) активно используют такой подход при отборе кандидатов улучшений: прежде чем запустить изменения, их качество проверяется “вручную” на выборках запросов. Side-by-side сравнения позволяют получить качественную оценку улучшений ранжирования без риска для пользователей, поскольку эксперименты проходят в тестовой среде. Если по итогам множества таких сравнений новый алгоритм уверенно побеждает текущий, изменение допускается к следующему этапу – испытаниям на реальных пользователях.

A/B-тестирование на живом трафике. Золотым стандартом проверки поисковых изменений является онлайн A/B-тест (он же контролируемый эксперимент). В простейшем виде он подразумевает разделение пользователей на две группы: контрольную (A) и тестовую (B), которые видят разные версии поиска. К примеру, небольшой процент (обычно 0,1–1%) аудитории получает новую функцию или алгоритм ранжирования, тогда как остальные пользователи продолжают работать с текущей версией. Разработчики собирают подробные метрики взаимодействия: какие результаты и как часто кликают, сколько запросов совершается, как быстро пользователи нажимают на найденные ссылки, сколько запросов заканчиваются без переходов (абандон) и т.д.. Затем статистически сравнивают поведение контрольной и тестовой групп. Если разница достаточна велика и положительна (например, пользователи с новым алгоритмом кликают быстрее и реже формулируют повторные запросы), с доверительной вероятностью можно заключить, что изменение улучшает опыт поиска. A/B-эксперименты позволяют проверить влияние изменений на реальные пользовательские метрики и выявить побочные эффекты (например, рост/падение рекламных доходов на 1% – нередкий эффект даже от изменений, не связанных напрямую с рекламой).

В больших системах экспериментальная платформа автоматизирует такие тесты: например, в Bing каждое новое нововведение сначала выкатывается на минимальную аудиторию как MVP (минимально жизнеспособный продукт), а при успешных метриках масштаб эксперимента постепенно увеличивают до 10% и более пользователей. Одновременно система мониторинга может автоматически отключать эксперимент, если тот сильно ухудшает ключевые метрики, а ответственным инженерам рассылаются оповещения. Такой строгий контроль гарантирует, что негативные изменения не распространятся на всех пользователей. По словам экспертов Microsoft, онлайн-эксперименты стали главным фильтром идей: менее трети задумок дают улучшение целевых метрик, поэтому важно быстро и дешево отсеивать неудачные варианты.

Интерливинг (interleaving). Помимо классического A/B-тестирования, поисковые компании применяют и более тонкие методы сравнений алгоритмов на живом трафике. Интерливинг – метод, при котором результаты двух ранжирующих алгоритмов смешиваются (чередуются) в одной выдаче для пользователя, обычно вперемешку (например, используя балансировку наподобие Team Draft). Пользователь не знает о проведении эксперимента и видит объединенный список результатов, а алгоритм интерливинга по кликам пользователя определяет, какая из двух конкурирующих систем дала более привлекательные результаты.

Преимущество интерливинга в том, что сравнение происходит в “честных” условиях на одном и том же запросе: внешние факторы (намерение пользователя, сложность запроса и т.д.) контролируются, ведь обе системы оцениваются на идентичном трафике. Интерливинг-эксперименты позволяют быстрее получить статистически значимый результат, поскольку для выявления предпочтений не нужно ждать агрегированных различий между группами пользователей, достаточно анализа распределения кликов внутри смешанной выдачи.

Яндекс и Microsoft в исследованиях отмечают, что interleaving служит ценным дополнением к A/B-тестам, хотя имеет и ограничения. Например, интерливинг хорошо выявляет что лучше для пользователя, но не всегда показывает на сколько лучше в абсолютных метриках, и сложен для более чем двух сравниваемых вариантов. Поэтому на практике его применяют на этапах тонкой настройки ранжирования или для быстрой проверки идей, после чего ключевые находки все равно перепроверяются классическим A/B на доле трафика.

Офлайн-оценка на разметке (Offline Evaluation). Еще до выхода в продакшен каждое изменение проходит через офлайн-этап: разработчики проверяют алгоритм на заранее подготовленных наборах запросов с известными “правильными” результатами (разметкой). Такие тестовые коллекции могут содержать тысячи и миллионы пар “запрос – документ” с проставленными уровнями релевантности (например, оценками 0/1/2/3). Источником разметки служат либо профессиональные асессоры (как в программах качества поиска Google или Яндекса), либо краудсорсинг – привлечение множества исполнителей через специальные платформы (например, Amazon Mechanical Turk, Яндекс Толока и др.). Качественно организованный краудсорсинг позволяет быстро собрать оценки для большого числа запросов; исследования показали, что с помощью статистических моделей можно агрегировать суждения разных людей и получить надежные релевантности. На офлайн-наборах изменений измеряют метрики ранжирования (о них – ниже) и сравнивают с контрольной версией. Например, если новый алгоритм дает заметный прирост nDCG или Recall@10 на отложенной выборке запросов, есть повод продолжить эксперименты.

Офлайн-методика дает быстрый цикл обратной связи: инженеры могут за день протестировать десятки вариантов модели и сразу увидеть их результаты на исторических данных, не привлекая реальных пользователей. Однако чисто офлайн-метрики не всегда гарантируют такой же эффект онлайн – итоговое решение требует проверки на живом трафике. Тем не менее в ряде случаев сильное расхождение с офлайн-оценкой уже сигнализирует о проблеме. В Amazon, к примеру, исследовали связь между офлайн и онлайн показателями для поиска товаров и выяснили, что метрики nDCG и др. в 97% случаев верно предсказывают, какой из двух ранжирующих алгоритмов покажет лучшие бизнес-метрики онлайн. Более того, на больших наборах данных nDCG оказался чрезвычайно чувствительным (дискриминативным): в их экспериментах его способность различать качество моделей превышала 99%. Это означает, что тщательная офлайн-валидизация по правильным метрикам может отсеять слабые варианты еще до дорогостоящих онлайн-тестов.

Краудсорсинг и human-in-the-loop. Во многих компаниях существует практика регулярного привлечения людей в цикл улучшения поиска – так называемый human-in-the-loop. Помимо штатных команд асессоров, это могут быть и внешние подрядчики или пользователи. Например, некоторые поисковые движки просят пользователей оценивать качество результатов (через всплывающие опросы, кнопки “удовлетворен ответом/не удовлетворен” и пр.). Эти сигналы не влияют напрямую на мгновенное ранжирование, но анализируются как дополнительная валидизация качества. 

Human-in-the-loop также присутствует при обучении моделей: подходы Active Learning позволяют алгоритму выявлять неуверенные или противоречивые случаи и запрашивать у человека вердикт, пополняя обучающую выборку новыми размеченными примерами. В контексте генеративного поиска роль человека еще больше возростает – технологии вроде RLHF (обучение с подкреплением от обратной связи человека) используются для настройки ответа языка модели на основе предпочтений реальных людей. Таким образом, человек продолжает оставаться “контролером качества” на всех этапах: от создания разметки для обучения и метрик до финальной оценки того, насколько новые функциональности поисковой системы действительно улучшают жизнь пользователей.

Метрики качества поиска

Для объективного сравнения алгоритмов используется целый ряд количественных метрик. Метрики делятся на офлайн метрики релевантности, рассчитываемые по фиксированным оценкам (например, асессорским), и онлайн метрики пользовательского взаимодействия, основанные на анализе кликов, сессий и поведения.

Классические метрики ранжирования (офлайн):

  • nDCG (Normalized Discounted Cumulative Gain) – нормализованный дисконтированный кумулятивный прирост. Одна из самых популярных метрик для веб-поиска. DCG суммирует gain (ценность) каждого результата в ранжированном списке с учетом его позиции: релевантные документы на верхних позициях дают больший вклад (ценность делится на логарифм позиции). Предполагается, что «чем выше расположен высокорелевантный документ, тем больше пользы, и высокорелевантные документы ценнее умеренно релевантных, которые в свою очередь ценнее нерелевантных». NDCG получается нормализацией DCG относительно идеального сортированного по релевантности списка (так, nDCG=1.0 соответствует идеальному порядку). Метрика хорошо подходит для сценариев, где у запроса несколько релевантных ответов разной степени качества. Компании широко применяют nDCG и схожие метрики для офлайн-оценки ранжирования – например, правительственный поисковый сервис GOV.UK указывает nDCG@k как основной показатель ранжирования, по которому они измеряют качество выдачи перед A/B-тестами.
  • MAP (Mean Average Precision) – средняя по запросам точность (Precision) на всех уровнях полноты (Recall). Исторически MAP широко использовался в академических оценках (например, на конкурсах TREC) для бинарной релевантности: он хорошо отражает баланс точности (precision) и полноты (recall) поиска. Для каждого запроса считается average precision – средняя точность во всех позициях выдачи, где расположен релевантный документ (считается, что нераелевантные дают 0). Затем усредняют по набору запросов. MAP особенно информативен, когда у запроса много релевантных результатов, и важно оценить, сколь полно они отобраны алгоритмом. Однако MAP менее чувствителен к порядку внутри топ-N выдачи по сравнению с nDCG.
  • MRR (Mean Reciprocal Rank) – средний обратный ранг. Применяется в задачах, где обычно интересует первый найденный правильный ответ (например, вопросно-ответные системы, поиск по справочной базе знаний). Для каждого запроса определяется ранг первого релевантного результата (например, 1 для топ-1, 2 для второго места и т.д.), вычисляется его обратная величина (1/ранг). Затем усредняют эти величины по множеству запросов. MRR высок, когда система почти всегда на первых позициях выдает правильный ответ. Если же иногда ответ оказывается лишь на 5–10 месте, MRR резко падает, сигнализируя о проблемах с актуальностью топ-результатов.
  • Precision@K и Recall@K – это упрощенные метрики на фиксированном количестве позиций. Precision@K – доля релевантных среди топ-K документов, а Recall@K – доля всех существующих релевантных, покрытых в топ-K. Они удобны для оценки, скажем, первых 5 или 10 результатов, особенно в системах, где пользователь редко смотрит дальше первой страницы. Например, e-commerce поиски часто оптимизируют Precision@5, чтобы большинство пользователей сразу видели несколько подходящих товаров. Recall@K важен в системах, где требуется вернуть максимум релевантных объектов (например, поиск по базе патентов или научных статей). В генеративных поисковых системах (RAG) метрика Recall@K применяется к блоку ретривера: измеряют, сколькая доля нужной информации содержится среди K выбранных документов.
  • ERR (Expected Reciprocal Rank) – ожидаемый обратный ранг. Разработана как усовершенствование MRR для учёта градуированной релевантности. Идея ERR – смоделировать поведение идеального пользователя, просматривающего результаты по порядку и останавливающегося с некоторой вероятностью, если находит очень релевантный документ. ERR вычисляет усредненный обратный ранг позиции, на которой пользователь ожидаемо удовлетворит свой информационный запрос. Эта метрика была предложена исследователями Microsoft и получила распространение, например, её использовали как основной показатель в веб-треке TREC 2010. Преимущество ERR – она всегда нормирована от 0 до 1 и более чувствительна к улучшениям на верхних позициях при наличии градуированных оценок релевантности. Впрочем, для вычисления ERR требуются оценки вероятности удовлетворения на каждом уровне релевантности, что на практике может быть нетривиально.

Пользовательские метрики и сигналы (онлайн):

  • CTR (Click-Through Rate) – доля кликов на результаты. Чаще считается для топ позиций (например, CTR@1, CTR@3, CTR@5). Рост CTR обычно трактуется как признак того, что поиск стал показывать более привлекательные для пользователя результаты (либо улучшил сниппеты). Однако CTR – грубый сигнал: пользователь может кликать и на нерелевантный результат (например, от безысходности). Поэтому в отрыве от других показателей рост CTR не всегда означает рост удовлетворенности.
  • Доля нулевых кликов (Zero-Click Rate) – обратная метрика к CTR, показывающая сколько запросов завершаются без кликов. Высокий процент zero-click может указывать на проблемы (пользователь ничего не нашел полезного) или же наоборот, на поведенческий паттерн “быстрый ответ” (например, поиск сразу выдал ответ на странице результатов – погоду, конвертер и т.п., и кликать никуда не нужно). Поэтому эту метрику интерпретируют осмотрительно, в зависимости от типа запросов.
  • Доля возвратов к поиску (Bounce-back Rate) – сколько пользователей быстро возвращается на страницу результатов после перехода по найденной ссылке. Часто рассматривается специальный случай: “погружение < 30 секунд”, или Quick-Back Click. Если пользователь кликнул результат и менее чем через N секунд вернулся назад и кликнул другой или переформулировал запрос, это знак, что предыдущий клик не удовлетворил потребность (документ не подошел). Высокий уровень быстрых возвратов обычно негативен. Напротив, долгие посещения страниц или отсутствие возврата могут трактоваться как успешное удовлетворение.
  • SAT-click (Satisfied click) – показатель удовлетворенности кликом. В литературе часто определяется как клик, после которого пользователь не делает новый клик или новый запрос в течение заданного времени (например, 30 секунд). По сути, если пользователь остановил поиск на этом результате, можно предположить, что он нашел то, что искал – значит клик был удачным (satisfactory). Доля сессий с хотя бы одним SAT-click является приближенной мерой успешности поиска. Многие поисковики используют эту метрику наряду с показателем Time to SAT-click – времени до первого удовлетворяющего клика: чем оно меньше, тем быстрее пользователь получил ответ.
  • Dwell Time (время просмотра) – продолжительность пребывания на целевой странице после клика. Связан с предыдущими: долгий dwell time (например, >30 секунд) часто считается признаком удовлетворенности, а экстремально короткий (<10 секунд) – неудовлетворенности. Bing публично упоминал, что использует 30 секунд как порог разделения “довольных” и “недовольных” кликов. В мобильном поиске пороги могут быть иными, но сама идея сохраняется.
  • Показатели сессии и повторных запросов. Поисковые команды анализируют и более сложные сессионные метрики: среднее число запросов в сессии, частота реформулировок запроса (когда пользователь тут же меняет формулировку, не получив нужного), процент полностью брошенных сессий (user abandonment – если пользователь вообще ничего не кликнул и не уточнил запрос). Снижение числа необходимых уточнений и перезапросов при решении задачи – желательная тенденция, так как свидетельствует о повышении качества первоначальной выдачи.

Онлайн метрик невероятно много, и компании разрабатывают композитные метрики под свои цели. Например, для коммерческих поисков (интернет-магазины, маркетплейсы) в фокусе могут быть не только клики, но и конверсии: CR (Conversion Rate) – доля поисков, закончившихся покупкой или другим целевым действием. Поисковые системы с рекламой (Google, Bing) обязательно контролируют метрики дохода: изменения не должны сильно просаживать (или необоснованно задирать) показатели вроде рекламного CTR или суммарный доход на тысячу поисков. Таким образом, каждая новая модель оценивается многомерно – как по релевантности, так и по бизнес-метрикам и пользовательскому опыту.

Внедрение новых функций: от эксперимента к запуску

Изменения в поисковой системе – будь то новое правило ранжирования, обновление модели машинного обучения, улучшение индекса или интерфейса – проходят строгий цикл внедрения. Идея → Прототип → Офлайн-тесты → Онлайн-эксперименты → Анализ метрик → Запуск – так выглядит упрощенная схема. На каждом этапе используются описанные выше методы.

  1. Офлайн-проверка гипотезы. Инженер по релевантности, предложивший новую фичу (например, учитывать свежесть документа сильнее в ранжировании новостей), сначала реализует ее прототип в тестовой среде. Далее – прогоны на офлайн-данных: берутся архивные запросы, известные проблемные кейсы, асессорские оценки. Если нет готовой разметки, команда может оперативно собрать вручную небольшой ад-хок датасет: например, сформировать список из 100 запросов, где старая выдача подозрительно плоха, и самим прикинуть, стало ли лучше. На этом этапе часто проводится и юнит-тестирование компонентов – проверяется, что новая функция не ломает базовую логику (например, индекс строится корректно, синонимы подставляются как задумано и т.п.). Если офлайн-результаты обнадеживают (метрики улучшились или хотя бы не ухудшились, визуальный просмотр выдачи показывает больше релевантных страниц наверху), изменение допускается к экспериментам на пользователях.
  2. Запуск контролируемого эксперимента. Обычно нововведение сначала выкатывается в “тихий запуск” (dark launch) – т.е. на сервере новый алгоритм начинает работать в фоне на небольшом проценте запросов, но его результаты не показываются пользователям, а лишь логируются. Это позволяет собрать статистику: например, изменения в индексации можно оценить по тому, скольких запросов они коснулись и как бы выглядела выдача. Убедившись в отсутствии критических ошибок, инженеры инициируют A/B-тест или иной онлайн-эксперимент (например, интерливинг) с показом результатов пользователям. На малом трафике (0.1–1%) проверяется, нет ли явных провалов: резкого роста отказов, падения CTR, технических проблем с ответом сервера и т.д.. Если все нормально, эксперимент масштабируют – 5%, 10%, иногда до 50% аудитории. В крупных компаниях на этой стадии действует совет по запуску: эксперты (старшие инженеры, аналитики, product managers) рассматривают отчеты по эксперименту. Google описывает, что каждое изменение проходит рассмотрение опытнейшими специалистами, которые изучают все метрики и выводы прежде, чем дать добро на релиз. Только если данные убедительно показывают улучшение для пользователей, новация переносится в основную версию поиска. В противном случае (нет статистически значимого выигрыша или имеются деградации) эксперимент отклоняется и доработки продолжаются.
  3. Пост-аналитика и развёртывание. Одобрение запуска – не конец пути. После раскатки на 100% аудитории команда продолжает мониторинг ключевых метрик: вдруг на полной аудитории эффект окажется иным, или возникнут проблемы в отдельных сегментах (например, только в мобильном браузере или только для запросов на испанском языке)? Первые дни после запуска следят за дашбордами, сравнивают с контрольным периодом. Если обнаруживается неожиданное снижение качества, изменение могут откатить и исследовать причины. Кроме того, проводится качественный аудит: асессоры или сами инженеры вручную просматривают выдачу по ряду запросов “до и после” – убеждаются, что ничего критичного не упущено (например, важный сайт не исчез из топа без причины). Только убедившись в стабильной работе нового алгоритма, команда окончательно включает его в постоянный релиз. Такой многоступенчатый процесс внедрения – залог того, что в промышленных поисковиках крайне редко случаются явные провалы качества: любые изменения проходят через фильтр метрик и экспертов, не допускающий ухудшения опыта для всех пользователей.

Важно отметить, что тестированию подвергаются не только изменения в ранжировании. Отдельные компоненты поисковой системы – индексация, парсинг и нормализация запросов, модуль ортографической проверки или подсказки – также требуют тщательной проверки. Например, при обновлении алгоритма исправления опечаток офлайн собирается набор тестовых поисковых строк с ошибками и проверяется, что новый алгоритм предлагает более корректные исправления, чем старый (метрики здесь могут быть специальные, например Accuracy попадания в правильное исправление). Затем онлайн-сравнение: измеряется, снизилось ли число случаев, когда пользователь сразу же повторяет запрос иначе (что сигнализирует о том, что первое исправление было неверным). Аналогично при доработке индексирования документов (скажем, добавлении в индекс нового типа информации) сначала тестируется техническая корректность – все ли документы проиндексировались, не выросло ли время ответа, – а затем влияние на качество: улучшилась ли полнота результатов по запросам, связанных с этим типом данных, и не снизилась ли точность (не появилось ли лишнего “шума”). Таким образом, каждая часть системы проходит свои метрики качества и производительности. Лишь суммарно это дает положительный эффект на итоговую метрику удовлетворенности пользователя.

Обучение моделей ранжирования и валидация

Современные поисковые системы в значительной степени опираются на модели машинного обучения, особенно на этапе ранжирования результатов. Это могут быть модели Learning to Rank (LTR), нейронные сети для оценки релевантности (например, BERT-ранжировщики) или модели для понимания запроса. Тестирование таких моделей включает дополнительные аспекты, связанные с ML-практикой.

Сбор и подготовка данных. Качество модели зависит от обучающих данных. Поэтому процесс часто начинается с аудита датасета: достаточно ли он покрывает разные типы запросов, нет ли в разметке систематических ошибок. Если модель обучается на пользовательских сигналам (логах), данные очищаются от шумов: ботов, случайных кликов, позиций, на которые мало кто смотрит. Инженеры могут разбить датасет на понятные группы (навигационные запросы, информационные, коммерческие и т.д.) и убедиться, что в каждой достаточно примеров. Это все – часть “тестирования” качества данных, из которых растет модель.

Офлайн-валидация модели. При обучении новых моделей применяются стандартные практики верификации: отложенная тестовая выборка, кросс-валидация. Если имеется “золотой набор” (например, оценки асессоров), модель проверяют на нем: смотрят метрики (nDCG, MAP) в сравнении с предыдущей моделью или простым базовым алгоритмом (скажем, BM25). Дополнительно анализируют вспомогательные метрики: доля перестановок в топе относительно старого алгоритма (на какие запросы даются совсем иные результаты?), нет ли регрессий на заведомо простых случаях (например, модель не должна перестать ставить официальный сайт на первую позицию по названию бренда). Для этого часто составляются чек-листы запросов с ожидаемым правильным ответом, и автоматические или ручные проверки убеждаются, что модель не делает грубых ошибок.

Обобщающая способность и переобучение. Тестирование охватывает и устойчивость модели: проверяют, не переобучилась ли она на конкретные частые шаблоны. В ход идут техники вроде cross-validation, а также измерение метрик по разным сегментам. Например, модель ранжирования может показывать улучшение на частотных запросах, но хуже справляться с хвостом редких запросов – тогда средний nDCG может быть высоким, а пользователи всё равно недовольны. Поэтому валидация включает разбивку результатов: отдельно по частотным и низкочастотным запросам, по разным языкам, по категориям контента. Цель – удостовериться, что нет “слепых зон”, где новая модель катастрофически проигрывает старой. Если такие выявляются, модель дорабатывают или добавляют в ансамбль старые сигналы, страхующие на краях.

Тестирование на дружественных целях (sandbox). Иногда перед полномасштабным A/B-тестом новые модели прогоняют в песочнице на ограниченном сегменте пользователей или на второстепенном продукте. Например, выпустить улучшенный ранжировщик сначала в поиск по картинкам или по новостям, собрать там метрики, и только потом внедрять в основной веб-поиск. Такой поэтапный подход снижает риски. В случае с обучением нейросетей также важно протестировать производительность: достаточно ли быстро модель работает под нагрузкой, справятся ли серверы с возросшими требованиями (например, BERT-модель может быть в 10 раз тяжелее старого алгоритма). Поэтому на этапе тестирования модели проверяются и инженерные метрики: латентность, использование памяти/CPU/GPU, масштабируемость при росте трафика. Новая модель не должна “утопить” продакшен по ресурсам – иногда приходится оптимизировать или упрощать модель, жертвуя небольшим процентом качества ради стабильности системы.

Валидация обновлений модели. После запуска модели в продакшене ее качество также контролируется со временем. Данные запросов меняются, веб эволюционирует, поэтому без обновления модель может деградировать. Инженеры проводят периодические ретрейнинги (например, раз в несколько недель) и сравнивают версии модели. Здесь снова помогает офлайн-оценка: можно обучить новую модель на свежих данных и посчитать метрики против текущей модели на “замороженном” тестовом наборе – улучшилась ли ситуация или нет. Если да, новую модель тестируют онлайн. Если же качество упало, анализируют, что изменилось в данных: может быть, нужен новый фича-инжиниринг или дополнительная разметка. Таким образом, обучение моделей – итеративный процесс, и каждая итерация проходит свой цикл тестирования, аналогичный описанному.

Лексический, семантический, гибридный и генеративный поиск: особенности тестирования

Поисковые системы сегодня реализуют разные подходы к подбору ответов: лексический поиск, основанный на точном совпадении слов; семантический поиск, использующий векторные представления и близость смыслов; их комбинации (гибридный поиск); а также новейшие генеративные системы с интеграцией поиска (Retrieval-Augmented Generation, RAG). Базовые принципы оценки качества остаются едиными, но есть нюансы:

  • Лексический поиск (keyword-based) – традиционный подход (как в классическом Elasticsearch, Lucene, старых версиях Google). Проверка такой системы фокусируется на точности соответствия ключевых слов: важно, чтобы документы, содержащие запрос или его синонимы, не терялись и получали высокие ранги. Метрики вроде precision@K и recall@K хорошо отражают качество: например, Elastic в своем API оценки ранжирования предлагает прямо вычислять Precision@N или NDCG@N на наборе типичных запросов для контроля качества поиска. При тестировании лексического поиска часто применяют диагностические запросы: однословные, многословные, с опечатками, с разным регистром – чтобы убедиться, что обработка (нормализация, стемминг) работает правильно. В офлайн-режиме легко создать автотесты: запрос “X Y” должен находить документ, где “Y X” – проверка без учета порядка; запрос в верхнем регистре должен находить то же, что и в нижнем и т.п. Лексические алгоритмы детерминированы, поэтому тестирование во многом напоминает проверку правил: если добавили новую настройку анализа текста – убедись, что для известных примеров стало лучше, а нигде не стало хуже.
  • Семантический поиск (vector-based) – опирается на семантические эмбеддинги запросов и документов. Здесь результаты могут не содержать буквального совпадения с запросом, но быть релевантными по смыслу. Тестирование усложняется: стандартные офлайн-метрики (precision, nDCG) применимы, но требуется правильная разметка. Асессорам сложнее – нужно оценивать, действительно ли документ релевантен тематически, даже если слова не совпадают. При офлайн-оценке семантического поиска часто используют подход “наоборот”: берут запрос и документ, вычисляют similarity моделью, и проверяют, соответствует ли высокая оценка мнению человека. Это позволяет вычислить привычные метрики классификации (Accuracy, ROC AUC) для модели релевантности. В онлайн-режиме важно следить за поведением пользователей на “неочевидных” результатах: если семантический поиск начал показывать страницы без точного совпадения запроса, будут ли по ним клики? Рост долгих кликов и снижение переформулировок подскажет, что алгоритм удачно угадывает намерения, а всплеск быстрых отказов – что он притягивает лишнее. Кроме того, семантические модели могут смещаться к определенным темам или источникам (в зависимости от обучающих данных), поэтому тестирование включает анализ разнообразия результатов, проверку на отсутствие систематического ухода в сторону нерелевантных концепций. Например, если по медицинским запросам семантическая модель вдруг стала предлагать много общих форумов вместо официальных источников, это повод откатить изменения.
  • Гибридный поиск – комбинация лексического и семантического. Многие современные поисковики объединяют два подхода: сперва отбирают кандидатов по ключевым словам, затем ранжируют их с учетом семантической релевантности, либо параллельно получают две выдачи и сливают их. Тестирование гибридной системы должно учитывать баланс: не теряются ли важные результаты из-за упора на семантику, и наоборот, не плавают ли наверх дословные, но бессмысленные совпадения? Хорошей практикой считается раздельно измерять метрики “лексической” части и “семантической”. Например, оценивать recall лексического поиска на строгом совпадении – все ли потенциально релевантные документы вообще подаются на вход семантической модели? – и оценивать качество финальной выдачи целиком. В офлайн-экспериментах можно сравнивать гибрид с каждым компонентом в отдельности: выигрыш должен быть по совокупности (например, гибридная выдача имеет выше nDCG, чем чисто BM25 и чем чисто векторная на том же наборе). Онлайн-мониторинг отслеживает, чтобы совмещение не ухудшило пользовательские метрики. Нередко вводят интерпретируемые контроли: например, если гибрид не сработал и хорошие документы исчезли, система fallback’ом показывает чисто лексический результат. Такие случаи потом выделяют и доразбирают вручную в тестировании.
  • Генеративный поиск (RAG, LLM-асистенты) – новый класс, где поисковая система не только находит документы, но и с помощью языковой модели генерирует целостный ответ пользователю, используя результаты поиска. Пример – системы ответа на вопрос с цитированием источников (наподобие Bing Chat, Google SGE). Оценка качества генеративного поиска существенно отличается, так как конечный продукт – текст, написанный моделью, а не список документов. Здесь проверяется сразу два компонента: ретривер (насколько он находит правильную информацию) и генератор (насколько правильно и полезно он сформулировал ответ). Поэтому в методологиях тестирования RAG выделяют две части:
    • Оценка этапа Retrieval: используют традиционные метрики поиска – Recall@K, Precision@K, nDCG – на этапе выбора документов из базы знаний. Задача – убедиться, что среди подтянутых текстовых фрагментов есть ответы на вопрос пользователя. Например, если система на вопрос “Когда родился Альберт Эйнштейн?” извлекает 5 документов, хотя бы один из них должен содержать дату рождения. Recall@5 будет показывать, в скольких процентах случаев необходимый факт присутствует в топ-5 найденных источников. Иногда вместо автоматических метрик привлекают оценщиков или даже сами большие модели для оценки релевантности найденных фрагментов – насколько они действительно относятся к запросу.
    • Оценка этапа Generation: здесь используются метрики из области NLP. Reference-based метрики предполагают наличие правильного ответа (или нескольких) для сравнения – тогда можно посчитать схожесть с эталоном (BLEU, ROUGE, или более новые на основе моделей). Но в поиске часто нет единственного “правильного” ответа, поэтому все чаще применяют оценку экспертами или LLM-экспертами. Проверяются несколько критериев: точность фактов (factfulness) – не выдумал ли модель ответ, соответствуют ли утверждения источникам; полнота – ответил ли на все аспекты запроса; структура и стиль – ясность, отсутствие противоречий, нейтральный тон и т.д.. В случае с RAG важно также, чтобы ответ был ”grounded”, т.е. подкреплен источниками: здесь вводятся метрики вроде Precision of Attribution – доля фраз в ответе, которым есть подтверждение в процитированных документах. Если система дает ссылки, можно измерять Click metrics по ним – кликают ли пользователи на источники для проверки. Удовлетворенность в генеративном поиске проявляется иначе: пользователи могут получить ответ сразу на странице, и метрики кликов снижаются (ведь им не нужно переходить по ссылкам). Поэтому приходится проводить прямые опросы и A/B-тесты с контрольными и новыми интерфейсами, спрашивая: “Был ли ответ полезен?”. Google и Microsoft наверняка включают такой человеческий фактор в тестирование генеративных ответов перед масштабным запуском.
  • Тестирование генеративного поиска еще более human-in-the-loop, чем классического: финальную оценку “хороший ли ответ” зачастую может дать только человек. Исследования предлагают разрабатывать набор сложных вопросов и ловушек на галлюцинации, чтобы подвергать систему стресс-тесту перед выпуском. Например, задаются заведомо провокационные запросы и проверяется, не вернет ли модель уверенно неправильный ответ. Также приходится отдельно тестировать безопасность и этику: не генерирует ли поиск нежелательный или вредный контент. Эти аспекты выходят за рамки классической “релевантности”, но стали частью качества в эпоху LLM.

Контроль качества и аудит релевантности

Непрерывное тестирование – это не только про запуск новых функций, но и про поддержание общей качества поиска на длительной основе. Крупные поисковые компании внедряют многоуровневый контроль:

  • Регулярные метрики и дашборды. В продакшене постоянно вычисляются онлайн-метрики (CTR, SAT-click rate, время до клика и пр.) и сравниваются с историческими значениями или контрольными группами. Любое анормальное отклонение (например, резкое падение кликов по результатам в определенной стране) поднимает сигнал тревоги – возможно, случилась скрытая проблема (битый индекс, неправильный апдейт ранжирования и т.д.). Команды релевантности просматривают ежедневные отчеты. GOV.UK, как отмечалось, ведет дашборд релевантности с ключевыми метриками по времени. Такая мониторинговая система – первый рубеж защиты от постепенной деградации поиска.
  • Ретроспективный аудит результатов. Помимо метрик, практикуется и ручной аудит. Периодически (например, раз в квартал) команда берет выборку запросов из разных категорий и анализирует выдачу: соответствуют ли топ-результаты текущим ожиданиям, нет ли новых проблем. Часто это делается в ответ на внешние сигналы: жалобы пользователей, отзывы партнёров или изменения в содержимом интернета (например, всплеск спама в какой-то нише). Google упоминает, что при выявлении случая, где результаты неудовлетворительны, они пытаются понять общую проблему и улучшить качество не только для одного запроса, но и для многих похожих. Такой подход – искать системные решения – требует собрать несколько примеров, оценить общие черты (допустим, все проблемные запросы – вопросы, связанные с недавними событиями) и затем внести изменение, исправляющее целый класс ситуаций.
  • Контроль запуска и “эксперименты на месте”. Даже после релиза функций не все эксперименты отключаются. Некоторые компании оставляют долгосрочные контроллы: небольшая часть трафика всегда обслуживается старой версией алгоритма, а остальная – новой, и метрики сравниваются непрерывно. Это позволяет заметить дрейф качества – вдруг со временем новая модель уже не так хороша относительно старого базиса. Такой подход применяют, например, для систем машинного обучения, чувствительных к изменению данных: можно увидеть, когда пора перев обучить модель, если кривая качества начала снижаться.
  • Внешние оценки и бенчмарки. Наконец, качество поиска оценивается и внешним сообществом: независимые рейтинги (веб-мастера сравнивают Google vs Bing, специализированные тестирования поиска по продуктам и т.д.). Компании внимательно относятся к таким сигналам. Плюс есть научные состязания (TREC, NTCIR) – хотя они работают с статичными наборами, идеи и метрики оттуда внедряются и в промышленный аудит. К примеру, концепции надежности поиска (некоторые метрики измеряют, насколько предсказуемо качество на разных запросах, без “провалов”) тоже начинают учитываться.

Тестирование поисковых систем превратилось в сложную инженерную дисциплину на стыке информационного поиска, статистики и человеческого фактора. Инженеры по релевантности используют целый арсенал инструментов: офлайн-метрики для быстрого эксперимента, онлайн-эксперименты для проверки на пользователях, ручную оценку для тонких аспектов качества. Метрики качества развиваются по мере усложнения самих поисковиков – от простых показателей точности/полноты до многомерных оценок удовлетворенности, удержания и доверия пользователей.Внедрение новых функций – всегда баланс между инновациями и безопасностью качества: культура “launch and iterate” невозможна без системы, гарантирующей, что каждая итерация действительно улучшает поиск. Как показывают практики Google, Microsoft, Яндекса, Amazon и других, комбинация автоматизированных экспериментов и человеческой оценки позволяет поисковым системам эволюционировать быстро, но ответственно. Благодаря этому поиск сегодня становится все более точным, умным и полезным – а пользователи зачастую даже не замечают, какая огромная работа по тестированию стоит за каждой небольшой улучшенной деталью в выдаче результатов.

Дело восприятия
Дело восприятия
https://vospriyatie.com
«Дело Восприятия» – маркетинговое бюро «эпохи 30-х», которое сочетает креатив классической рекламы прошлого века с актуальными цифровыми инструментами. Наша миссия – помогать компаниям выделяться в информационном шуме и достигать реальных бизнес-результатов. Мы опираемся на авторскую методику латерального маркетинга ДКЛМЦ, проверенную тревожным временем, экономическими кризисами и опытом в работе с рынками Юго-Восточной Азии.

Ничего серьезного, но по закону надо предупредить Политика конфиденциальности