Changelog Update
- 发布了
veo-2.0-generate-001,这是一款正式版 (GA) 文本到视频模型和图片到视频模型,能够生成细节丰富且富有艺术性的视频。如需了解详情,请参阅 Veo 文档。 发布了
gemini-2.0-flash-live-001,即启用了结算功能的 Live API 模型的公开预览版。增强的会话管理和可靠性
- 会话恢复:在临时网络中断期间保持会话有效。该 API 现在支持服务器端会话状态存储(最长 24 小时),并提供用于重新连接和从上次中断处继续的句柄 (session_resumption)。
- 通过上下文压缩实现更长的会话:支持超出之前时间限制的扩展互动。配置采用滑动窗口机制的上下文窗口压缩,以自动管理上下文长度,防止因上下文限制而突然终止。
- 正常断开连接通知:接收
GoAway服务器消息,指示连接即将关闭,以便在终止之前进行正常处理。
更好地控制互动动态
可配置的语音活动检测 (VAD):选择灵敏度级别,或完全停用自动 VAD,并使用新的客户端事件(
activityStart、activityEnd)进行手动轮流发言控制。可配置的中断处理:决定用户输入是否应中断模型的回答。
可配置的轮流覆盖范围:选择 API 是持续处理所有音频和视频输入,还是仅在检测到最终用户说话时捕获音频和视频输入。
可配置的媒体分辨率:通过选择输入媒体的分辨率,优化质量或令牌使用情况。
更丰富的输出内容和功能
更多语音和语言选项:新增了两种语音和 30 种语言,可用于音频输出。现在,您可以在
speechConfig中配置输出语言。文本流式传输:在生成文本回答时以增量方式接收,从而更快地向用户显示回答。
token 使用情况报告:通过服务器消息的
usageMetadata字段中提供的详细 token 数量(按模态和提示或回答阶段细分)深入了解使用情况。