AI Changelog Aggregator

Wir haben veo-2.0-generate-001 veröffentlicht, ein allgemein verfügbares (GA) Modell, das auf Text und Bildern basiert und detaillierte und künstlerisch anspruchsvolle Videos generieren kann. Weitere Informationen finden Sie in der Veo-Dokumentation.
Am gemini-2.0-flash-live-001 wurde eine öffentliche Vorschauversion des Live API-Modells mit aktivierter Abrechnung veröffentlicht.
- Verbesserte Sitzungsverwaltung und Zuverlässigkeit
  - Sitzungswiederaufnahme:Sitzungen werden auch bei vorübergehenden Netzwerkunterbrechungen aufrechterhalten. Die API unterstützt jetzt die serverseitige Speicherung des Sitzungsstatus (bis zu 24 Stunden) und bietet Handles (session_resumption) zum erneuten Verbinden und Fortsetzen der Wiedergabe.
  - Längere Sitzungen durch Kontextkomprimierung:Ermöglicht längere Interaktionen als bisher. Konfigurieren Sie die Komprimierung des Kontextfensters mit einem gleitenden Fenster, um die Kontextlänge automatisch zu verwalten und abrupte Beendigungen aufgrund von Kontextlimits zu verhindern.
  - Benachrichtigung über das ordnungsgemäße Trennen der Verbindung:Sie erhalten eine GoAway-Servermeldung, die angibt, wann eine Verbindung geschlossen wird. So können Sie die Verbindung ordnungsgemäß trennen, bevor sie beendet wird.
- Mehr Kontrolle über die Interaktionsdynamik
- Konfigurierbare Spracherkennung (Voice Activity Detection, VAD): Sie können die Empfindlichkeitsstufen auswählen oder die automatische VAD vollständig deaktivieren und neue Clientereignisse (activityStart, activityEnd) für die manuelle Zugriffssteuerung verwenden.
- Konfigurierbare Unterbrechungsbehandlung:Sie können festlegen, ob die Antwort des Modells durch Nutzereingaben unterbrochen werden soll.
- Konfigurierbare Abdeckung von Äußerungen:Wählen Sie aus, ob die API alle Audio- und Videoeingaben kontinuierlich verarbeiten oder nur erfassen soll, wenn der Endnutzer spricht.
- Konfigurierbare Media-Auflösung:Sie können die Auflösung für Eingabemedien auswählen, um die Qualität oder die Token-Nutzung zu optimieren.
- Umfangreichere Ausgabe und Funktionen
- Erweiterte Sprach- und Sprachausgabeoptionen:Sie können jetzt aus zwei neuen Stimmen und 30 neuen Sprachen für die Audioausgabe auswählen. Die Ausgabesprache kann jetzt in speechConfig konfiguriert werden.
- Text-Streaming:Sie erhalten Textantworten inkrementell, während sie generiert werden, sodass sie dem Nutzer schneller angezeigt werden können.
- Berichte zur Tokennutzung:Sie erhalten detaillierte Informationen zur Nutzung mit detaillierten Tokenzahlen, die im Feld usageMetadata von Servernachrichten nach Modalität und Prompt- oder Antwortphasen aufgeschlüsselt sind.