Changelog Update
- Lançamos o
veo-2.0-generate-001, um modelo de texto e imagem para vídeo com disponibilidade geral (GA) capaz de gerar vídeos detalhados e com nuances artísticas. Para saber mais, consulte a documentação do Veo. Lançamos o
gemini-2.0-flash-live-001, uma versão de prévia pública do modelo da API Live com o faturamento ativado.Gerenciamento e confiabilidade de sessões aprimorados
- Retomada de sessão:mantém as sessões ativas durante interrupções temporárias na rede. A API agora oferece suporte ao armazenamento do estado da sessão no lado do servidor (por até 24 horas) e fornece identificadores (session_resumption) para reconectar e retomar de onde você parou.
- Sessões mais longas com compactação de contexto:ative interações estendidas além dos limites de tempo anteriores. Configure a compactação da janela de contexto com um mecanismo de janela deslizante para gerenciar automaticamente o tamanho do contexto, evitando encerramentos abruptos devido a limites de contexto.
- Notificação de desconexão normal:receba uma mensagem do servidor
GoAwayindicando quando uma conexão está prestes a ser fechada, permitindo um processamento normal antes do encerramento.
Mais controle sobre a dinâmica de interação
Detecção de atividade de voz (VAD) configurável: escolha níveis de sensibilidade ou desative a VAD automática e use novos eventos de cliente (
activityStart,activityEnd) para controle manual de turnos.Processamento de interrupção configurável:decida se a entrada do usuário deve interromper a resposta do modelo.
Cobertura de turno configurável:escolha se a API processa todas as entradas de áudio e vídeo continuamente ou apenas as captura quando o usuário final é detectado falando.
Resolução de mídia configurável:otimize a qualidade ou o uso de tokens selecionando a resolução da mídia de entrada.
Saída e recursos mais avançados
Opções de voz e idioma expandidas:escolha entre duas novas vozes e 30 novos idiomas para saída de áudio. O idioma de saída agora pode ser configurado em
speechConfig.Streaming de texto:receba respostas de texto de forma incremental à medida que são geradas, permitindo uma exibição mais rápida para o usuário.
Relatórios de uso de tokens:receba insights sobre o uso com contagens detalhadas de tokens fornecidas no campo
usageMetadatadas mensagens do servidor, divididas por modalidade e fases de comando ou resposta.