AI Changelog Aggregator

Выпущена версия veo-2.0-generate-001 — общедоступная (GA) модель преобразования текста и изображений в видео, способная генерировать детализированные и художественно тонкие видеоролики. Подробнее см. в документации Veo .
Выпущена версия gemini-2.0-flash-live-001 , общедоступная предварительная версия модели Live API с включенной функцией выставления счетов.
- Улучшенное управление сессиями и надежность
  - Возобновление сессии: Поддерживайте активность сессий при временных сбоях сети. API теперь поддерживает хранение состояния сессии на стороне сервера (до 24 часов) и предоставляет дескрипторы (session_resumption) для повторного подключения и продолжения с того места, где вы остановились.
  - Увеличение продолжительности сеансов за счет сжатия контекста: обеспечьте возможность длительного взаимодействия сверх ранее установленных временных ограничений. Настройте сжатие контекстного окна с помощью механизма скользящего окна для автоматического управления продолжительностью контекста, предотвращая внезапные прерывания из-за ограничений контекста.
  - Уведомление о корректном разрыве соединения: Получайте сообщение от сервера GoAway , указывающее на скорое закрытие соединения, что позволяет корректно обработать запрос перед завершением работы.
- Более полный контроль над динамикой взаимодействия
- Настраиваемое обнаружение голосовой активности (VAD): выберите уровни чувствительности или полностью отключите автоматическое обнаружение голосовой активности и используйте новые клиентские события ( activityStart , activityEnd ) для ручного управления ходом разговора.
- Настраиваемая обработка прерываний: определите, должен ли ввод пользователя прерывать ответ модели.
- Настраиваемое покрытие репликации: выберите, будет ли API обрабатывать весь аудио- и видеовход непрерывно или только тогда, когда будет обнаружено, что конечный пользователь говорит.
- Настраиваемое разрешение мультимедиа: Оптимизируйте качество или использование токенов, выбрав разрешение для входного мультимедиа.
- Более широкий функционал и возможности
- Расширенные возможности выбора голоса и языка: теперь можно выбрать один из двух новых голосов и 30 новых языков для вывода звука. Язык вывода теперь можно настроить в файле speechConfig .
- Потоковая передача текста: получение текстовых ответов по мере их генерации, что позволяет быстрее отображать их пользователю.
- Отчеты об использовании токенов: Получите представление об использовании благодаря подробным данным о количестве токенов, предоставляемым в поле usageMetadata сообщений сервера, с разбивкой по типу сообщения и этапам запроса или ответа.