Changelog Update
veo-2.0-generate-001wurde veröffentlicht, ein allgemein verfügbares (GA) Modell, das auf Text und Bildern basiert und detaillierte und künstlerisch anspruchsvolle Videos generieren kann. Weitere Informationen finden Sie in der Veo-Dokumentation.Am
gemini-2.0-flash-live-001wurde eine öffentliche Vorschauversion des Live API-Modells mit aktivierter Abrechnung veröffentlicht.Verbesserte Sitzungsverwaltung und Zuverlässigkeit
- Sitzungswiederaufnahme:Sitzungen werden auch bei vorübergehenden Netzwerkunterbrechungen aufrechterhalten. Die API unterstützt jetzt die serverseitige Speicherung des Sitzungsstatus (bis zu 24 Stunden) und bietet Handles (session_resumption) zum erneuten Verbinden und Fortsetzen der Sitzung.
- Längere Sitzungen durch Kontextkomprimierung:Ermöglicht längere Interaktionen als bisher. Konfigurieren Sie die Komprimierung des Kontextfensters mit einem gleitenden Fenster, um die Kontextlänge automatisch zu verwalten und abrupte Beendigungen aufgrund von Kontextlimits zu verhindern.
- Benachrichtigung über das ordnungsgemäße Trennen der Verbindung:Sie erhalten eine
GoAway-Servermeldung, die angibt, wann eine Verbindung geschlossen wird. So können Sie die Verbindung vor dem Beenden ordnungsgemäß trennen.
Mehr Kontrolle über die Interaktionsdynamik
Konfigurierbare Spracherkennung (Voice Activity Detection, VAD): Sie können die Empfindlichkeitsstufen auswählen oder die automatische VAD vollständig deaktivieren und neue Clientereignisse (
activityStart,activityEnd) für die manuelle Zugriffssteuerung verwenden.Konfigurierbare Unterbrechungsbehandlung:Sie können festlegen, ob die Antwort des Modells durch Nutzereingaben unterbrochen werden soll.
Konfigurierbare Abdeckung von Äußerungen:Wählen Sie aus, ob die API alle Audio- und Videoeingaben kontinuierlich verarbeitet oder nur dann erfasst, wenn der Endnutzer spricht.
Konfigurierbare Media-Auflösung:Sie können die Auflösung für Eingabemedien auswählen, um die Qualität oder die Token-Nutzung zu optimieren.
Umfangreichere Ausgabe und Funktionen
Erweiterte Sprach- und Sprachausgabeoptionen:Sie können jetzt aus zwei neuen Stimmen und 30 neuen Sprachen für die Audioausgabe auswählen. Die Ausgabesprache kann jetzt in
speechConfigkonfiguriert werden.Text-Streaming:Sie erhalten Textantworten inkrementell, während sie generiert werden, sodass sie dem Nutzer schneller angezeigt werden können.
Berichte zur Tokennutzung:Sie erhalten detaillierte Tokenanzahlen im Feld
usageMetadatavon Servernachrichten, aufgeschlüsselt nach Modalität und Prompt- oder Antwortphasen.