К глоссарию
AIТермин

Мультимодальность

multimodal · мультимодальная модель · multimodal AI

Мультимодальность — способность модели работать не только с текстом, а с картинками, видео и аудио: и понимать их, и генерировать.

Мультимодальная модель работает не только с текстом, а с несколькими «модальностями» сразу: изображение, видео, звук. Может и понимать (опиши, что на скрине), и генерировать (сделай ролик по сценарию).

Для маркетинга это снесло границы между специальностями. Раньше: копирайтер пишет, дизайнер рисует, видеограф снимает, звукорежиссёр озвучивает — четыре человека. Сейчас один человек ведёт всё через мультимодальный стек: текст, картинка (Nano Banana Pro), видео (Veo), голос (ElevenLabs).

Практический эффект я мерил на своих проектах: производство контента подешевело примерно на 40% без потери качества. Не потому что «AI всё сделал», а потому что исчезли передачи задачи между людьми.

Связанные термины

Где разбирается на практике