Статистическая значимость
Статистическая значимость — уверенность в том, что разница между вариантами A/B-теста реальная, а не случайная. Стандарт: p < 0.05 (95% confidence).
Статистическая значимость — вероятность того, что наблюдаемый результат A/B-теста не объясняется случайными флуктуациями трафика. Стандартный порог в маркетинге: p-value < 0.05, то есть вероятность ошибочно признать результат реальным — менее 5%. Это называют «95% confidence level».
Практически: если тест показал +12% конверсии для варианта B при 95% значимости — есть 5% вероятность, что это просто шум, а реального эффекта нет. Это приемлемый риск для маркетинговых решений. Для медицинских исследований порог строже — p < 0.01 или p < 0.001.
Самая частая ошибка в A/B-тестировании — остановить тест слишком рано. Пример из практики: тест запустили в понедельник, к среде вариант B показывает +25% конверсии при 91% confidence, тест останавливают и объявляют победителя. К пятнице оказывается, что аудитория в начале недели и в конце разная, и реального эффекта нет. Правило: определите минимальный размер выборки до запуска теста (есть калькуляторы), и не трогайте тест до достижения этой выборки.
Второй частый грех — тестировать слишком много гипотез одновременно. При 20 параллельных тестах с порогом 95% одна «победа» окажется статистическим шумом просто по законам вероятности. Я придерживаюсь правила: не более 3–4 активных тестов одновременно на одном сегменте трафика, и всегда с поправкой Бонферрони при множественном тестировании.