Changelog Update
- Wprowadziliśmy
veo-2.0-generate-001, ogólnie dostępny model do generowania filmów na podstawie tekstu i obrazów, który potrafi tworzyć szczegółowe i artystycznie dopracowane filmy. Więcej informacji znajdziesz w dokumentacji Veo. Wprowadziliśmy
gemini-2.0-flash-live-001, czyli wersję publiczną podglądu modelu Live API z włączonymi płatnościami.Ulepszone zarządzanie sesjami i niezawodność
- Wznawianie sesji: utrzymywanie sesji w przypadku tymczasowych przerw w działaniu sieci. Interfejs API obsługuje teraz przechowywanie stanu sesji po stronie serwera (do 24 godzin) i udostępnia uchwyty (session_resumption) umożliwiające ponowne połączenie i wznowienie sesji w miejscu, w którym została przerwana.
- Dłuższe sesje dzięki kompresji kontekstu: umożliwia dłuższe interakcje niż dotychczasowe limity czasowe. Skonfiguruj kompresję okna kontekstu za pomocą mechanizmu okna przesuwnego, aby automatycznie zarządzać długością kontekstu i zapobiegać nagłym zakończeniom z powodu limitów kontekstu.
- Powiadomienie o grzecznym rozłączeniu: otrzymuj komunikat
GoAwayserwera wskazujący, kiedy połączenie ma zostać zamknięte, co umożliwia grzeczne zakończenie przed przerwaniem.
Większa kontrola nad dynamiką interakcji
Konfigurowalne wykrywanie aktywności głosowej (VAD): wybierz poziomy czułości lub całkowicie wyłącz automatyczne wykrywanie aktywności głosowej i używaj nowych zdarzeń klienta (
activityStart,activityEnd) do ręcznego sterowania turami.Konfigurowane obsługiwanie przerw: zdecyduj, czy dane wejściowe użytkownika powinny przerywać odpowiedź modelu.
Konfigurowane pokrycie tury: wybierz, czy interfejs API ma przetwarzać wszystkie dane wejściowe audio i wideo w sposób ciągły, czy tylko wtedy, gdy wykryje, że użytkownik końcowy mówi.
Konfigurowalna rozdzielczość multimediów: możesz zoptymalizować jakość lub wykorzystanie tokenów, wybierając rozdzielczość multimediów wejściowych.
Bogatsze dane wyjściowe i funkcje
Rozszerzone opcje głosu i języka: wybierz jeden z 2 nowych głosów i 30 nowych języków dla wyjścia audio. Język wyjściowy można teraz skonfigurować w
speechConfig.Strumieniowanie tekstu: otrzymuj odpowiedzi tekstowe stopniowo w miarę ich generowania, co umożliwia szybsze wyświetlanie ich użytkownikowi.
Raportowanie wykorzystania tokenów: uzyskuj szczegółowe informacje o wykorzystaniu dzięki liczbie tokenów podanej w polu
usageMetadatawiadomości serwera, podzielonej według trybu i faz promptu lub odpowiedzi.