Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании.
Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock.
«Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего.
Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио.
Excited about the launch of Amazon Nova Sonic, our new speech-to-speech model that helps make AI voice applications feel remarkably natural.It's designed to understand not just what people say, but how they say it – working with tone, style, and conversation flow including… pic.twitter.com/QRvP4LWYQN— Andy Jassy (@ajassy) April 8, 2025
Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке.
В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно.
В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7% точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды.
🚨 Amazon just dropped something BIG for voice AI.It’s called Amazon Nova Sonic.And it might change how we talk to machines forever.Natural, human-like voice conversations no clunky delays.Here’s why it matters (and what it can do): 🧵 pic.twitter.com/2jblM3xTrB— Brendan (@jowettbrendan) April 9, 2025
Компания считает, что с помощью ее нового решения можно создавать различные инструменты вроде ботов для обслуживания клиентов или ИИ-агентов для туристической отрасли.
Напомним, в апреле Amazon обновила видеогенератор Nova Reel до версии 1.1. Пользователи могут создавать «многокадровые» ролики длительностью до двух минут с «последовательностью стиля».
В декабре 2024 года компания представила новое поколение ИИ-моделей Amazon Nova для широкого спектра задач. Нейросети способны обрабатывать текст, изображения и видео.