Back to feed

Changelog Update

May 19, 2026
Google/Gemini APIAPIv2.0-generate
  • Wprowadziliśmy veo-2.0-generate-001, ogólnie dostępny model do generowania filmów na podstawie tekstu i obrazów, który potrafi tworzyć szczegółowe i artystycznie dopracowane filmy. Więcej informacji znajdziesz w dokumentacji Veo.
  • Wprowadziliśmy gemini-2.0-flash-live-001, czyli wersję publiczną podglądu modelu Live API z włączonymi płatnościami.

    • Ulepszone zarządzanie sesjami i niezawodność

      • Wznawianie sesji: utrzymywanie sesji w przypadku tymczasowych przerw w działaniu sieci. Interfejs API obsługuje teraz przechowywanie stanu sesji po stronie serwera (do 24 godzin) i udostępnia uchwyty (session_resumption) umożliwiające ponowne połączenie i wznowienie sesji w miejscu, w którym została przerwana.
      • Dłuższe sesje dzięki kompresji kontekstu: umożliwia dłuższe interakcje niż dotychczasowe limity czasowe. Skonfiguruj kompresję okna kontekstu za pomocą mechanizmu okna przesuwnego, aby automatycznie zarządzać długością kontekstu i zapobiegać nagłym zakończeniom z powodu limitów kontekstu.
      • Powiadomienie o grzecznym rozłączeniu: otrzymuj komunikat GoAway serwera wskazujący, kiedy połączenie ma zostać zamknięte, co umożliwia grzeczne zakończenie przed przerwaniem.
    • Większa kontrola nad dynamiką interakcji

    • Konfigurowalne wykrywanie aktywności głosowej (VAD): wybierz poziomy czułości lub całkowicie wyłącz automatyczne wykrywanie aktywności głosowej i używaj nowych zdarzeń klienta (activityStart, activityEnd) do ręcznego sterowania turami.

    • Konfigurowane obsługiwanie przerw: zdecyduj, czy dane wejściowe użytkownika powinny przerywać odpowiedź modelu.

    • Konfigurowane pokrycie tury: wybierz, czy interfejs API ma przetwarzać wszystkie dane wejściowe audio i wideo w sposób ciągły, czy tylko wtedy, gdy wykryje, że użytkownik końcowy mówi.

    • Konfigurowalna rozdzielczość multimediów: możesz zoptymalizować jakość lub wykorzystanie tokenów, wybierając rozdzielczość multimediów wejściowych.

    • Bogatsze dane wyjściowe i funkcje

    • Rozszerzone opcje głosu i języka: wybierz jeden z 2 nowych głosów i 30 nowych języków dla wyjścia audio. Język wyjściowy można teraz skonfigurować w speechConfig.

    • Strumieniowanie tekstu: otrzymuj odpowiedzi tekstowe stopniowo w miarę ich generowania, co umożliwia szybsze wyświetlanie ich użytkownikowi.

    • Raportowanie wykorzystania tokenów: uzyskuj szczegółowe informacje o wykorzystaniu dzięki liczbie tokenów podanej w polu usageMetadata wiadomości serwera, podzielonej według trybu i faz promptu lub odpowiedzi.