К глоссарию
AIТермин

Синтетические данные

synthetic data · синтетика · AI-сгенерированные данные · data augmentation

Синтетические данные — AI-сгенерированные данные для обучения моделей, когда реальных данных недостаточно.

Синтетические данные — это данные, сгенерированные AI-моделью вместо сбора реальных. Используются, когда реальных данных мало (стартап без истории), они дорогие (разметка вручную), конфиденциальные (медицина, финансы) или просто нужны конкретные редкие сценарии.

В маркетинговом контексте синтетические данные мне встречались в двух кейсах. Первый — дообучение классификатора обращений: клиент хотел автоматически сортировать входящие заявки по типам, но реальных примеров каждого типа было мало. Сгенерировали синтетические обращения через GPT-4 → дообучили классификатор → точность оказалась выше ожиданий. Второй — тестирование рекомендательных систем: нужно было проверить алгоритм на поведении тысяч пользователей до запуска продукта, синтетические профили позволили это сделать.

Риски: синтетические данные могут усиливать предвзятости исходной модели (если GPT-4 генерирует «типичные обращения» — он опирается на свои данные, а не на реальных клиентов). Обученные на синтетике модели нужно обязательно валидировать на реальных данных перед запуском в продакшн.

Связанные термины