Changelog Update
- Phát hành
veo-2.0-generate-001, một mô hình chuyển văn bản và hình ảnh sang video ở giai đoạn phát hành rộng rãi (GA), có khả năng tạo ra những video chi tiết và giàu sắc thái nghệ thuật. Để tìm hiểu thêm, hãy xem tài liệu về Veo. Phát hành
gemini-2.0-flash-live-001, một phiên bản xem trước công khai của mô hình Live API có bật tính năng thanh toán.Quản lý phiên và độ tin cậy nâng cao
- Tiếp tục phiên: Duy trì phiên hoạt động trong thời gian mạng bị gián đoạn tạm thời. API này hiện hỗ trợ tính năng lưu trữ trạng thái phiên phía máy chủ (tối đa 24 giờ) và cung cấp các hàm (session_resumption) để kết nối lại và tiếp tục từ nơi bạn đã dừng.
- Phiên dài hơn thông qua tính năng nén ngữ cảnh: Cho phép các lượt tương tác kéo dài hơn giới hạn thời gian trước đó. Định cấu hình tính năng nén cửa sổ ngữ cảnh bằng cơ chế cửa sổ trượt để tự động quản lý độ dài ngữ cảnh, ngăn chặn việc kết thúc đột ngột do giới hạn ngữ cảnh.
- Thông báo ngắt kết nối một cách êm ái: Nhận thông báo từ máy chủ
GoAwaycho biết thời điểm một kết nối sắp đóng, cho phép xử lý một cách êm ái trước khi kết thúc.
Kiểm soát nhiều hơn đối với động lực tương tác
Tính năng phát hiện hoạt động bằng giọng nói (VAD) có thể định cấu hình: Chọn mức độ nhạy hoặc tắt hoàn toàn tính năng VAD tự động và sử dụng các sự kiện mới của ứng dụng (
activityStart,activityEnd) để điều khiển lượt theo cách thủ công.Xử lý gián đoạn có thể định cấu hình: Quyết định xem hoạt động đầu vào của người dùng có nên làm gián đoạn phản hồi của mô hình hay không.
Phạm vi phủ sóng có thể định cấu hình: Chọn xem API xử lý liên tục tất cả dữ liệu đầu vào âm thanh và video hay chỉ ghi lại dữ liệu đầu vào khi phát hiện thấy người dùng cuối đang nói.
Độ phân giải nội dung nghe nhìn có thể định cấu hình: Tối ưu hoá chất lượng hoặc mức sử dụng mã thông báo bằng cách chọn độ phân giải cho nội dung nghe nhìn đầu vào.
Đầu ra và tính năng phong phú hơn
Mở rộng lựa chọn về giọng nói và ngôn ngữ: Chọn trong số 2 giọng nói mới và 30 ngôn ngữ mới cho đầu ra âm thanh. Giờ đây, bạn có thể định cấu hình ngôn ngữ đầu ra trong
speechConfig.Truyền trực tuyến văn bản: Nhận phản hồi bằng văn bản theo từng phần khi văn bản được tạo, giúp hiển thị nhanh hơn cho người dùng.
Báo cáo mức sử dụng mã thông báo: Nắm được thông tin chi tiết về mức sử dụng với số lượng mã thông báo chi tiết được cung cấp trong trường
usageMetadatacủa thông báo máy chủ, được phân tích theo phương thức và giai đoạn câu lệnh hoặc câu trả lời.