Changelog Update
- Wir haben
veo-2.0-generate-001veröffentlicht, ein allgemein verfügbares (GA) Modell, das auf Text und Bildern basiert und detaillierte und künstlerisch anspruchsvolle Videos generieren kann. Weitere Informationen finden Sie in der Veo-Dokumentation. Am
gemini-2.0-flash-live-001wurde eine öffentliche Vorschauversion des Live API-Modells mit aktivierter Abrechnung veröffentlicht.Verbesserte Sitzungsverwaltung und Zuverlässigkeit
- Sitzungswiederaufnahme:Sitzungen werden auch bei vorübergehenden Netzwerkunterbrechungen aufrechterhalten. Die API unterstützt jetzt die serverseitige Speicherung des Sitzungsstatus (bis zu 24 Stunden) und bietet Handles (session_resumption) zum erneuten Verbinden und Fortsetzen der Wiedergabe.
- Längere Sitzungen durch Kontextkomprimierung:Ermöglicht längere Interaktionen als bisher. Konfigurieren Sie die Komprimierung des Kontextfensters mit einem gleitenden Fenster, um die Kontextlänge automatisch zu verwalten und abrupte Beendigungen aufgrund von Kontextlimits zu verhindern.
- Benachrichtigung über das ordnungsgemäße Trennen der Verbindung:Sie erhalten eine
GoAway-Servermeldung, die angibt, wann eine Verbindung geschlossen wird. So können Sie die Verbindung ordnungsgemäß trennen, bevor sie beendet wird.
Mehr Kontrolle über die Interaktionsdynamik
Konfigurierbare Spracherkennung (Voice Activity Detection, VAD): Sie können die Empfindlichkeitsstufen auswählen oder die automatische VAD vollständig deaktivieren und neue Clientereignisse (
activityStart,activityEnd) für die manuelle Zugriffssteuerung verwenden.Konfigurierbare Unterbrechungsbehandlung:Sie können festlegen, ob die Antwort des Modells durch Nutzereingaben unterbrochen werden soll.
Konfigurierbare Abdeckung von Äußerungen:Wählen Sie aus, ob die API alle Audio- und Videoeingaben kontinuierlich verarbeiten oder nur erfassen soll, wenn der Endnutzer spricht.
Konfigurierbare Media-Auflösung:Sie können die Auflösung für Eingabemedien auswählen, um die Qualität oder die Token-Nutzung zu optimieren.
Umfangreichere Ausgabe und Funktionen
Erweiterte Sprach- und Sprachausgabeoptionen:Sie können jetzt aus zwei neuen Stimmen und 30 neuen Sprachen für die Audioausgabe auswählen. Die Ausgabesprache kann jetzt in
speechConfigkonfiguriert werden.Text-Streaming:Sie erhalten Textantworten inkrementell, während sie generiert werden, sodass sie dem Nutzer schneller angezeigt werden können.
Berichte zur Tokennutzung:Sie erhalten detaillierte Informationen zur Nutzung mit detaillierten Tokenzahlen, die im Feld
usageMetadatavon Servernachrichten nach Modalität und Prompt- oder Antwortphasen aufgeschlüsselt sind.