AI Changelog Aggregator

Lançamos o veo-2.0-generate-001, um modelo de texto e imagem para vídeo com disponibilidade geral (GA) capaz de gerar vídeos detalhados e com nuances artísticas. Para saber mais, consulte a documentação do Veo.
Lançamos o gemini-2.0-flash-live-001, uma versão de prévia pública do modelo da API Live com o faturamento ativado.
- Gerenciamento e confiabilidade de sessões aprimorados
  - Retomada de sessão:mantém as sessões ativas durante interrupções temporárias na rede. A API agora oferece suporte ao armazenamento do estado da sessão no lado do servidor (por até 24 horas) e fornece identificadores (session_resumption) para reconectar e retomar de onde você parou.
  - Sessões mais longas com compactação de contexto:ative interações estendidas além dos limites de tempo anteriores. Configure a compactação da janela de contexto com um mecanismo de janela deslizante para gerenciar automaticamente o tamanho do contexto, evitando encerramentos abruptos devido a limites de contexto.
  - Notificação de desconexão normal:receba uma mensagem do servidor GoAway indicando quando uma conexão está prestes a ser fechada, permitindo um processamento normal antes do encerramento.
- Mais controle sobre a dinâmica de interação
- Detecção de atividade de voz (VAD) configurável: escolha níveis de sensibilidade ou desative a VAD automática e use novos eventos de cliente (activityStart, activityEnd) para controle manual de turnos.
- Processamento de interrupção configurável:decida se a entrada do usuário deve interromper a resposta do modelo.
- Cobertura de turno configurável:escolha se a API processa todas as entradas de áudio e vídeo continuamente ou apenas as captura quando o usuário final é detectado falando.
- Resolução de mídia configurável:otimize a qualidade ou o uso de tokens selecionando a resolução da mídia de entrada.
- Saída e recursos mais avançados
- Opções de voz e idioma expandidas:escolha entre duas novas vozes e 30 novos idiomas para saída de áudio. O idioma de saída agora pode ser configurado em speechConfig.
- Streaming de texto:receba respostas de texto de forma incremental à medida que são geradas, permitindo uma exibição mais rápida para o usuário.
- Relatórios de uso de tokens:receba insights sobre o uso com contagens detalhadas de tokens fornecidas no campo usageMetadata das mensagens do servidor, divididas por modalidade e fases de comando ou resposta.