AI Changelog Aggregator

Se lanzó veo-2.0-generate-001, un modelo de texto y de imagen a video con disponibilidad general (DG) capaz de generar videos detallados y con matices artísticos. Para obtener más información, consulta los documentos de Veo.
Se lanzó gemini-2.0-flash-live-001, una versión de vista previa pública del modelo de la API de Live con la facturación habilitada.
- Administración y confiabilidad de sesiones mejoradas
  - Reanudación de sesión: Mantén las sesiones activas durante las interrupciones temporales de la red. La API ahora admite el almacenamiento del estado de la sesión del servidor (hasta por 24 horas) y proporciona identificadores (session_resumption) para volver a conectarse y reanudar la sesión donde la dejaste.
  - Sesiones más largas a través de la compresión de contexto: Permite interacciones extendidas más allá de los límites de tiempo anteriores. Configura la compresión de la ventana de contexto con un mecanismo de ventana deslizante para administrar automáticamente la longitud del contexto y evitar interrupciones abruptas debido a los límites de contexto.
  - Notificación de desconexión correcta: Recibe un mensaje del servidor GoAway que indica cuándo está por cerrarse una conexión, lo que permite un manejo correcto antes de la finalización.
- Más control sobre la dinámica de interacción
- Detección de actividad de voz (VAD) configurable: Elige niveles de sensibilidad o inhabilita la VAD automática por completo y usa nuevos eventos del cliente (activityStart, activityEnd) para el control manual del turno.
- Control de interrupciones configurable: Decide si la entrada del usuario debe interrumpir la respuesta del modelo.
- Cobertura de turnos configurable: Elige si la API procesa toda la entrada de audio y video de forma continua o solo la captura cuando se detecta que el usuario final está hablando.
- Resolución de medios configurable: Selecciona la resolución de los medios de entrada para optimizar la calidad o el uso de tokens.
- Salida y funciones más enriquecidas
- Opciones de voz y lenguaje expandidas: Elige entre dos voces nuevas y 30 idiomas nuevos para la salida de audio. Ahora se puede configurar el idioma de salida en speechConfig.
- Transmisión de texto: Recibe respuestas de texto de forma incremental a medida que se generan, lo que permite mostrarlas más rápido al usuario.
- Informes de uso de tokens: Obtén estadísticas sobre el uso con recuentos detallados de tokens proporcionados en el campo usageMetadata de los mensajes del servidor, desglosados por modalidad y fases de la instrucción o la respuesta.