Back to feed

Changelog Update

Google/Gemini APIAPIv2.0-generate
  • 詳細で芸術的なニュアンスのある動画を生成できる、一般提供(GA)のテキストと画像から動画へのモデル veo-2.0-generate-001 をリリースしました。詳細については、Veo のドキュメントをご覧ください。
  • 課金が有効になっている Live API モデルの公開プレビュー版である gemini-2.0-flash-live-001 をリリースしました。

    • セッション管理と信頼性の強化

      • セッションの再開: ネットワークが一時的に中断してもセッションを維持します。API がサーバーサイドのセッション状態の保存(最大 24 時間)をサポートするようになり、中断したところから再接続して再開するためのハンドル(session_resumption)が提供されるようになりました。
      • コンテキスト圧縮によるセッションの延長: 以前の制限時間を超えてやり取りを延長できます。スライディング ウィンドウ メカニズムを使用してコンテキスト ウィンドウの圧縮を構成し、コンテキストの長さを自動的に管理して、コンテキストの上限による突然の終了を防ぎます。
      • Graceful Disconnect Notification(正常な切断通知): 接続が閉じようとしていることを示す GoAway サーバー メッセージを受信し、終了前に正常な処理を行うことができます。
    • インタラクションのダイナミクスをより細かく制御

    • 構成可能な音声アクティビティ検出(VAD): 感度レベルを選択するか、自動 VAD を完全に無効にして、新しいクライアント イベント(activityStartactivityEnd)を使用して手動で発言権を制御します。

    • 構成可能な割り込み処理: ユーザー入力によってモデルのレスポンスを中断するかどうかを決定します。

    • 構成可能なターン カバレッジ: API がすべての音声と動画の入力を継続的に処理するか、エンドユーザーが発話していることが検出された場合にのみキャプチャするかを選択します。

    • 構成可能なメディア解像度: 入力メディアの解像度を選択して、品質またはトークン使用量を最適化します。

    • より豊富な出力と機能

    • 音声と言語のオプションの拡大: 音声出力用に 2 つの新しい音声と 30 の新しい言語から選択できます。出力言語は speechConfig 内で構成できるようになりました。

    • テキスト ストリーミング: テキスト レスポンスが生成されるたびに増分で受信し、ユーザーへの表示を高速化します。

    • トークン使用状況レポート: サーバー メッセージの usageMetadata フィールドに表示される詳細なトークン数で、使用状況を把握できます。トークン数は、モダリティとプロンプトまたはレスポンスのフェーズごとに分類されます。