Changelog Update
- Выпущена версия
veo-2.0-generate-001— общедоступная (GA) модель преобразования текста и изображений в видео, способная генерировать детализированные и художественно тонкие видеоролики. Подробнее см. в документации Veo . Выпущена версия
gemini-2.0-flash-live-001, общедоступная предварительная версия модели Live API с включенной функцией выставления счетов.Улучшенное управление сессиями и надежность
- Возобновление сессии: Поддерживайте активность сессий при временных сбоях сети. API теперь поддерживает хранение состояния сессии на стороне сервера (до 24 часов) и предоставляет дескрипторы (session_resumption) для повторного подключения и продолжения с того места, где вы остановились.
- Увеличение продолжительности сеансов за счет сжатия контекста: обеспечьте возможность длительного взаимодействия сверх ранее установленных временных ограничений. Настройте сжатие контекстного окна с помощью механизма скользящего окна для автоматического управления продолжительностью контекста, предотвращая внезапные прерывания из-за ограничений контекста.
- Уведомление о корректном разрыве соединения: Получайте сообщение от сервера
GoAway, указывающее на скорое закрытие соединения, что позволяет корректно обработать запрос перед завершением работы.
Более полный контроль над динамикой взаимодействия
Настраиваемое обнаружение голосовой активности (VAD): выберите уровни чувствительности или полностью отключите автоматическое обнаружение голосовой активности и используйте новые клиентские события (
activityStart,activityEnd) для ручного управления ходом разговора.Настраиваемая обработка прерываний: определите, должен ли ввод пользователя прерывать ответ модели.
Настраиваемое покрытие репликации: выберите, будет ли API обрабатывать весь аудио- и видеовход непрерывно или только тогда, когда будет обнаружено, что конечный пользователь говорит.
Настраиваемое разрешение мультимедиа: Оптимизируйте качество или использование токенов, выбрав разрешение для входного мультимедиа.
Более широкий функционал и возможности
Расширенные возможности выбора голоса и языка: теперь можно выбрать один из двух новых голосов и 30 новых языков для вывода звука. Язык вывода теперь можно настроить в файле
speechConfig.Потоковая передача текста: получение текстовых ответов по мере их генерации, что позволяет быстрее отображать их пользователю.
Отчеты об использовании токенов: Получите представление об использовании благодаря подробным данным о количестве токенов, предоставляемым в поле
usageMetadataсообщений сервера, с разбивкой по типу сообщения и этапам запроса или ответа.