AI Changelog Aggregator

Lancement de veo-2.0-generate-001, un modèle de texte et d'image à vidéo en disponibilité générale (DG), capable de générer des vidéos détaillées et artistiquement nuancées. Pour en savoir plus, consultez la documentation Veo.
Publication de gemini-2.0-flash-live-001, une version Preview publique du modèle Live API avec la facturation activée.
- Gestion et fiabilité des sessions améliorées
  - Reprise de session : permet de maintenir les sessions actives en cas de perturbations temporaires du réseau. L'API est désormais compatible avec le stockage de l'état de la session côté serveur (pendant 24 heures maximum) et fournit des identifiants (session_resumption) pour se reconnecter et reprendre là où vous vous étiez arrêté.
  - Sessions plus longues grâce à la compression du contexte : permet des interactions plus longues que les limites de temps précédentes. Configurez la compression de la fenêtre de contexte avec un mécanisme de fenêtre glissante pour gérer automatiquement la longueur de contexte, ce qui évite les arrêts brusques dus aux limites de contexte.
  - Notification de déconnexion progressive : recevez un message du serveur GoAway indiquant quand une connexion est sur le point d'être fermée, ce qui permet une gestion progressive avant la fin de la connexion.
- Plus de contrôle sur la dynamique des interactions
- Détection d'activité vocale (VAD) configurable : choisissez des niveaux de sensibilité ou désactivez complètement la VAD automatique et utilisez de nouveaux événements client (activityStart, activityEnd) pour le contrôle manuel du tour de parole.
- Gestion configurable des interruptions : décidez si l'entrée utilisateur doit interrompre la réponse du modèle.
- Couverture de tour configurable : choisissez si l'API traite toutes les entrées audio et vidéo en continu ou ne les capture que lorsque l'utilisateur final est détecté en train de parler.
- Résolution média configurable : optimisez la qualité ou l'utilisation de jetons en sélectionnant la résolution des médias d'entrée.
- Des fonctionnalités et des résultats plus riches
- Options vocales et linguistiques étendues : choisissez parmi deux nouvelles voix et 30 nouvelles langues pour la sortie audio. La langue de sortie est désormais configurable dans speechConfig.
- Streaming de texte : recevez les réponses textuelles de manière incrémentielle au fur et à mesure de leur génération, ce qui permet de les afficher plus rapidement à l'utilisateur.
- Rapports sur l'utilisation des jetons : obtenez des insights sur l'utilisation grâce à des décomptes détaillés des jetons fournis dans le champ usageMetadata des messages du serveur, ventilés par modalité et par phase de requête ou de réponse.