Changelog Update
- เปิดตัว
veo-2.0-generate-001ซึ่งเป็นโมเดลข้อความและรูปภาพเป็นวิดีโอที่พร้อมใช้งานสำหรับผู้ใช้ทั่วไป (GA) โดยสามารถสร้างวิดีโอที่มีรายละเอียดและมีความแตกต่างในเชิงศิลปะ ดูข้อมูลเพิ่มเติมได้ที่เอกสารของ Veo เปิดตัวเวอร์ชันตัวอย่างแบบสาธารณะของโมเดล Live API ที่เปิดใช้การเรียกเก็บเงินเมื่อวันที่
gemini-2.0-flash-live-001การจัดการเซสชันและความน่าเชื่อถือที่ดียิ่งขึ้น
- การกลับมาใช้เซสชันต่อ: ทำให้เซสชันยังคงใช้งานได้แม้เครือข่ายจะหยุดชะงักชั่วคราว ตอนนี้ API รองรับการจัดเก็บสถานะเซสชันฝั่งเซิร์ฟเวอร์ (นานสูงสุด 24 ชั่วโมง) และมีแฮนเดิล (session_resumption) เพื่อเชื่อมต่ออีกครั้งและดำเนินการต่อจากที่ค้างไว้
- เซสชันที่ยาวขึ้นผ่านการบีบอัดบริบท: เปิดใช้การโต้ตอบที่ยาวนานขึ้น นอกเหนือจากขีดจำกัดเวลาก่อนหน้า กำหนดค่าการบีบอัดหน้าต่างบริบทด้วยกลไกหน้าต่างเลื่อนเพื่อจัดการความยาวบริบทโดยอัตโนมัติ ซึ่งจะช่วยป้องกันการสิ้นสุดอย่างกะทันหันเนื่องจากขีดจำกัดบริบท
- การแจ้งเตือนการยกเลิกการเชื่อมต่ออย่างราบรื่น: รับข้อความจาก
GoAwayเซิร์ฟเวอร์ ที่ระบุเวลาที่การเชื่อมต่อกำลังจะปิด เพื่อให้จัดการได้อย่างราบรื่นก่อนการสิ้นสุด
ควบคุมการโต้ตอบแบบไดนามิกได้มากขึ้น
การตรวจหาการพูด (VAD) ที่กำหนดค่าได้: เลือกระดับความไว หรือปิดใช้ VAD อัตโนมัติทั้งหมด แล้วใช้เหตุการณ์ไคลเอ็นต์ใหม่ (
activityStart,activityEnd) เพื่อควบคุมการเปิด/ปิดด้วยตนเองการจัดการการหยุดชะงักที่กำหนดค่าได้: กำหนดว่าข้อมูลจากผู้ใช้ควรขัดจังหวะการตอบกลับของโมเดลหรือไม่
ความครอบคลุมของผลัดที่กำหนดค่าได้: เลือกว่า API จะประมวลผลอินพุตเสียงและวิดีโอทั้งหมดอย่างต่อเนื่อง หรือจะบันทึกเฉพาะเมื่อตรวจพบว่าผู้ใช้ปลายทางกำลังพูด
ความละเอียดของสื่อที่กำหนดค่าได้: เพิ่มประสิทธิภาพเพื่อคุณภาพหรือการใช้โทเค็น โดยเลือกความละเอียดสำหรับสื่ออินพุต
เอาต์พุตและฟีเจอร์ที่สมบูรณ์ยิ่งขึ้น
ตัวเลือกเสียงและภาษาที่เพิ่มขึ้น: เลือกจากเสียงใหม่ 2 แบบและภาษาใหม่ 30 ภาษาสำหรับเอาต์พุตเสียง ตอนนี้คุณกำหนดค่าภาษาเอาต์พุตได้ภายใน
speechConfigแล้วการสตรีมข้อความ: รับคำตอบที่เป็นข้อความทีละรายการขณะที่ระบบสร้างคำตอบเหล่านั้น ทำให้แสดงต่อผู้ใช้ได้เร็วขึ้น
การรายงานการใช้โทเค็น: รับข้อมูลเชิงลึกเกี่ยวกับการใช้งานด้วยจำนวนโทเค็นโดยละเอียดที่ระบุไว้ในฟิลด์
usageMetadataของข้อความเซิร์ฟเวอร์ ซึ่งแบ่งตามรูปแบบและเฟสของพรอมต์หรือการตอบกลับ