AI Changelog Aggregator

Wprowadziliśmy veo-2.0-generate-001, ogólnie dostępny model do generowania filmów na podstawie tekstu i obrazów, który potrafi tworzyć szczegółowe i artystycznie dopracowane filmy. Więcej informacji znajdziesz w dokumentacji Veo.
Wprowadziliśmy gemini-2.0-flash-live-001, czyli wersję publiczną podglądu modelu Live API z włączonymi płatnościami.
- Ulepszone zarządzanie sesjami i niezawodność
  - Wznawianie sesji: utrzymywanie sesji w przypadku tymczasowych przerw w działaniu sieci. Interfejs API obsługuje teraz przechowywanie stanu sesji po stronie serwera (do 24 godzin) i udostępnia uchwyty (session_resumption) umożliwiające ponowne połączenie i wznowienie sesji w miejscu, w którym została przerwana.
  - Dłuższe sesje dzięki kompresji kontekstu: umożliwia dłuższe interakcje niż dotychczasowe limity czasowe. Skonfiguruj kompresję okna kontekstu za pomocą mechanizmu okna przesuwnego, aby automatycznie zarządzać długością kontekstu i zapobiegać nagłym zakończeniom z powodu limitów kontekstu.
  - Powiadomienie o grzecznym rozłączeniu: otrzymuj komunikat GoAway serwera wskazujący, kiedy połączenie ma zostać zamknięte, co umożliwia grzeczne zakończenie przed przerwaniem.
- Większa kontrola nad dynamiką interakcji
- Konfigurowalne wykrywanie aktywności głosowej (VAD): wybierz poziomy czułości lub całkowicie wyłącz automatyczne wykrywanie aktywności głosowej i używaj nowych zdarzeń klienta (activityStart, activityEnd) do ręcznego sterowania turami.
- Konfigurowane obsługiwanie przerw: zdecyduj, czy dane wejściowe użytkownika powinny przerywać odpowiedź modelu.
- Konfigurowane pokrycie tury: wybierz, czy interfejs API ma przetwarzać wszystkie dane wejściowe audio i wideo w sposób ciągły, czy tylko wtedy, gdy wykryje, że użytkownik końcowy mówi.
- Konfigurowalna rozdzielczość multimediów: możesz zoptymalizować jakość lub wykorzystanie tokenów, wybierając rozdzielczość multimediów wejściowych.
- Bogatsze dane wyjściowe i funkcje
- Rozszerzone opcje głosu i języka: wybierz jeden z 2 nowych głosów i 30 nowych języków dla wyjścia audio. Język wyjściowy można teraz skonfigurować w speechConfig.
- Strumieniowanie tekstu: otrzymuj odpowiedzi tekstowe stopniowo w miarę ich generowania, co umożliwia szybsze wyświetlanie ich użytkownikowi.
- Raportowanie wykorzystania tokenów: uzyskuj szczegółowe informacje o wykorzystaniu dzięki liczbie tokenów podanej w polu usageMetadata wiadomości serwera, podzielonej według trybu i faz promptu lub odpowiedzi.