Синтетические данные
Синтетические данные — AI-сгенерированные данные для обучения моделей, когда реальных данных недостаточно.
Синтетические данные — это данные, сгенерированные AI-моделью вместо сбора реальных. Используются, когда реальных данных мало (стартап без истории), они дорогие (разметка вручную), конфиденциальные (медицина, финансы) или просто нужны конкретные редкие сценарии.
В маркетинговом контексте синтетические данные мне встречались в двух кейсах. Первый — дообучение классификатора обращений: клиент хотел автоматически сортировать входящие заявки по типам, но реальных примеров каждого типа было мало. Сгенерировали синтетические обращения через GPT-4 → дообучили классификатор → точность оказалась выше ожиданий. Второй — тестирование рекомендательных систем: нужно было проверить алгоритм на поведении тысяч пользователей до запуска продукта, синтетические профили позволили это сделать.
Риски: синтетические данные могут усиливать предвзятости исходной модели (если GPT-4 генерирует «типичные обращения» — он опирается на свои данные, а не на реальных клиентов). Обученные на синтетике модели нужно обязательно валидировать на реальных данных перед запуском в продакшн.