Back to feed

Changelog Update

May 16, 2026
Google/Gemini APIAPIv2.0-generate
  • Выпущена версия veo-2.0-generate-001 — общедоступная (GA) модель преобразования текста и изображений в видео, способная генерировать детализированные и художественно тонкие видеоролики. Подробнее см. в документации Veo .
  • Выпущена версия gemini-2.0-flash-live-001 , общедоступная предварительная версия модели Live API с включенной функцией выставления счетов.

    • Улучшенное управление сессиями и надежность

      • Возобновление сессии: Поддерживайте активность сессий при временных сбоях сети. API теперь поддерживает хранение состояния сессии на стороне сервера (до 24 часов) и предоставляет дескрипторы (session_resumption) для повторного подключения и продолжения с того места, где вы остановились.
      • Увеличение продолжительности сеансов за счет сжатия контекста: обеспечьте возможность длительного взаимодействия сверх ранее установленных временных ограничений. Настройте сжатие контекстного окна с помощью механизма скользящего окна для автоматического управления продолжительностью контекста, предотвращая внезапные прерывания из-за ограничений контекста.
      • Уведомление о корректном разрыве соединения: Получайте сообщение от сервера GoAway , указывающее на скорое закрытие соединения, что позволяет корректно обработать запрос перед завершением работы.
    • Более полный контроль над динамикой взаимодействия

    • Настраиваемое обнаружение голосовой активности (VAD): выберите уровни чувствительности или полностью отключите автоматическое обнаружение голосовой активности и используйте новые клиентские события ( activityStart , activityEnd ) для ручного управления ходом разговора.

    • Настраиваемая обработка прерываний: определите, должен ли ввод пользователя прерывать ответ модели.

    • Настраиваемое покрытие репликации: выберите, будет ли API обрабатывать весь аудио- и видеовход непрерывно или только тогда, когда будет обнаружено, что конечный пользователь говорит.

    • Настраиваемое разрешение мультимедиа: Оптимизируйте качество или использование токенов, выбрав разрешение для входного мультимедиа.

    • Более широкий функционал и возможности

    • Расширенные возможности выбора голоса и языка: теперь можно выбрать один из двух новых голосов и 30 новых языков для вывода звука. Язык вывода теперь можно настроить в файле speechConfig .

    • Потоковая передача текста: получение текстовых ответов по мере их генерации, что позволяет быстрее отображать их пользователю.

    • Отчеты об использовании токенов: Получите представление об использовании благодаря подробным данным о количестве токенов, предоставляемым в поле usageMetadata сообщений сервера, с разбивкой по типу сообщения и этапам запроса или ответа.