Back to feed

Changelog Update

Apr 9, 2025
Google/Gemini APIAPIv2.0-generate
  • Wir haben veo-2.0-generate-001 veröffentlicht, ein allgemein verfügbares (GA) Modell, das auf Text und Bildern basiert und detaillierte und künstlerisch anspruchsvolle Videos generieren kann. Weitere Informationen finden Sie in der Veo-Dokumentation.
  • Am gemini-2.0-flash-live-001 wurde eine öffentliche Vorschauversion des Live API-Modells mit aktivierter Abrechnung veröffentlicht.

    • Verbesserte Sitzungsverwaltung und Zuverlässigkeit

      • Sitzungswiederaufnahme:Sitzungen werden auch bei vorübergehenden Netzwerkunterbrechungen aufrechterhalten. Die API unterstützt jetzt die serverseitige Speicherung des Sitzungsstatus (bis zu 24 Stunden) und bietet Handles (session_resumption) zum erneuten Verbinden und Fortsetzen der Wiedergabe.
      • Längere Sitzungen durch Kontextkomprimierung:Ermöglicht längere Interaktionen als bisher. Konfigurieren Sie die Komprimierung des Kontextfensters mit einem gleitenden Fenster, um die Kontextlänge automatisch zu verwalten und abrupte Beendigungen aufgrund von Kontextlimits zu verhindern.
      • Benachrichtigung über das ordnungsgemäße Trennen der Verbindung:Sie erhalten eine GoAway-Servermeldung, die angibt, wann eine Verbindung geschlossen wird. So können Sie die Verbindung ordnungsgemäß trennen, bevor sie beendet wird.
    • Mehr Kontrolle über die Interaktionsdynamik

    • Konfigurierbare Spracherkennung (Voice Activity Detection, VAD): Sie können die Empfindlichkeitsstufen auswählen oder die automatische VAD vollständig deaktivieren und neue Clientereignisse (activityStart, activityEnd) für die manuelle Zugriffssteuerung verwenden.

    • Konfigurierbare Unterbrechungsbehandlung:Sie können festlegen, ob die Antwort des Modells durch Nutzereingaben unterbrochen werden soll.

    • Konfigurierbare Abdeckung von Äußerungen:Wählen Sie aus, ob die API alle Audio- und Videoeingaben kontinuierlich verarbeiten oder nur erfassen soll, wenn der Endnutzer spricht.

    • Konfigurierbare Media-Auflösung:Sie können die Auflösung für Eingabemedien auswählen, um die Qualität oder die Token-Nutzung zu optimieren.

    • Umfangreichere Ausgabe und Funktionen

    • Erweiterte Sprach- und Sprachausgabeoptionen:Sie können jetzt aus zwei neuen Stimmen und 30 neuen Sprachen für die Audioausgabe auswählen. Die Ausgabesprache kann jetzt in speechConfig konfiguriert werden.

    • Text-Streaming:Sie erhalten Textantworten inkrementell, während sie generiert werden, sodass sie dem Nutzer schneller angezeigt werden können.

    • Berichte zur Tokennutzung:Sie erhalten detaillierte Informationen zur Nutzung mit detaillierten Tokenzahlen, die im Feld usageMetadata von Servernachrichten nach Modalität und Prompt- oder Antwortphasen aufgeschlüsselt sind.