AI Changelog Aggregator

发布了 veo-2.0-generate-001，这是一款正式版 (GA) 文本到视频模型和图片到视频模型，能够生成细节丰富且富有艺术性的视频。如需了解详情，请参阅 Veo 文档。
发布了 gemini-2.0-flash-live-001，即启用了结算功能的 Live API 模型的公开预览版。
- 增强的会话管理和可靠性
  - 会话恢复：在临时网络中断期间保持会话有效。该 API 现在支持服务器端会话状态存储（最长 24 小时），并提供用于重新连接和从上次中断处继续的句柄 (session_resumption)。
  - 通过上下文压缩实现更长的会话：支持超出之前时间限制的扩展互动。配置采用滑动窗口机制的上下文窗口压缩，以自动管理上下文长度，防止因上下文限制而突然终止。
  - 正常断开连接通知：接收 GoAway 服务器消息，指示连接即将关闭，以便在终止之前进行正常处理。
- 更好地控制互动动态
- 可配置的语音活动检测 (VAD)：选择灵敏度级别，或完全停用自动 VAD，并使用新的客户端事件（activityStart、activityEnd）进行手动轮流发言控制。
- 可配置的中断处理：决定用户输入是否应中断模型的回答。
- 可配置的轮流覆盖范围：选择 API 是持续处理所有音频和视频输入，还是仅在检测到最终用户说话时捕获音频和视频输入。
- 可配置的媒体分辨率：通过选择输入媒体的分辨率，优化质量或令牌使用情况。
- 更丰富的输出内容和功能
- 更多语音和语言选项：新增了两种语音和 30 种语言，可用于音频输出。现在，您可以在 speechConfig 中配置输出语言。
- 文本流式传输：在生成文本回答时以增量方式接收，从而更快地向用户显示回答。
- token 使用情况报告：通过服务器消息的 usageMetadata 字段中提供的详细 token 数量（按模态和提示或回答阶段细分）深入了解使用情况。