Back to feed

Changelog Update

May 15, 2026
Google/Gemini APIAPIv2.0-generate
  • Lançamos o veo-2.0-generate-001, um modelo de texto e imagem para vídeo com disponibilidade geral (GA) capaz de gerar vídeos detalhados e com nuances artísticas. Para saber mais, consulte a documentação do Veo.
  • Lançamos o gemini-2.0-flash-live-001, uma versão de prévia pública do modelo da API Live com o faturamento ativado.

    • Gerenciamento e confiabilidade de sessões aprimorados

      • Retomada de sessão:mantém as sessões ativas durante interrupções temporárias na rede. A API agora oferece suporte ao armazenamento do estado da sessão no lado do servidor (por até 24 horas) e fornece identificadores (session_resumption) para reconectar e retomar de onde você parou.
      • Sessões mais longas com compactação de contexto:ative interações estendidas além dos limites de tempo anteriores. Configure a compactação da janela de contexto com um mecanismo de janela deslizante para gerenciar automaticamente o tamanho do contexto, evitando encerramentos abruptos devido a limites de contexto.
      • Notificação de desconexão normal:receba uma mensagem do servidor GoAway indicando quando uma conexão está prestes a ser fechada, permitindo um processamento normal antes do encerramento.
    • Mais controle sobre a dinâmica de interação

    • Detecção de atividade de voz (VAD) configurável: escolha níveis de sensibilidade ou desative a VAD automática e use novos eventos de cliente (activityStart, activityEnd) para controle manual de turnos.

    • Processamento de interrupção configurável:decida se a entrada do usuário deve interromper a resposta do modelo.

    • Cobertura de turno configurável:escolha se a API processa todas as entradas de áudio e vídeo continuamente ou apenas as captura quando o usuário final é detectado falando.

    • Resolução de mídia configurável:otimize a qualidade ou o uso de tokens selecionando a resolução da mídia de entrada.

    • Saída e recursos mais avançados

    • Opções de voz e idioma expandidas:escolha entre duas novas vozes e 30 novos idiomas para saída de áudio. O idioma de saída agora pode ser configurado em speechConfig.

    • Streaming de texto:receba respostas de texto de forma incremental à medida que são geradas, permitindo uma exibição mais rápida para o usuário.

    • Relatórios de uso de tokens:receba insights sobre o uso com contagens detalhadas de tokens fornecidas no campo usageMetadata das mensagens do servidor, divididas por modalidade e fases de comando ou resposta.