AI Changelog Aggregator

veo-2.0-generate-001 को रिलीज़ किया गया. यह टेक्स्ट और इमेज से वीडियो बनाने वाला मॉडल है. यह सामान्य रूप से उपलब्ध (जीए) है. यह मॉडल, बारीकी से और कलात्मक तरीके से वीडियो जनरेट कर सकता है. ज़्यादा जानने के लिए, Veo के दस्तावेज़ देखें.
gemini-2.0-flash-live-001 को, Live API मॉडल का पब्लिक प्रीव्यू वर्शन रिलीज़ किया गया. इसमें बिलिंग की सुविधा चालू है.
- बेहतर सेशन मैनेजमेंट और भरोसेमंद तरीके से काम करना
  - सेशन फिर से शुरू करना: नेटवर्क में कुछ समय के लिए रुकावट आने पर भी सेशन चालू रखना. एपीआई अब सर्वर-साइड सेशन की स्थिति को सेव करने की सुविधा देता है. यह सुविधा 24 घंटे तक काम करती है. साथ ही, यह फिर से कनेक्ट करने और वहीं से शुरू करने के लिए हैंडल (session_resumption) उपलब्ध कराता है जहां आपने छोड़ा था.
  - कॉन्टेक्स्ट कंप्रेस करने की सुविधा की मदद से लंबे सेशन: इस सुविधा को चालू करके, पिछली समयसीमाओं से ज़्यादा समय तक इंटरैक्ट किया जा सकता है. स्लाइडिंग विंडो मैकेनिज़्म की मदद से, कॉन्टेक्स्ट विंडो के कंप्रेस होने की सुविधा कॉन्फ़िगर करें. इससे कॉन्टेक्स्ट की लंबाई अपने-आप मैनेज हो जाएगी. साथ ही, कॉन्टेक्स्ट की सीमाएं पूरी होने की वजह से, अचानक बंद होने की समस्या नहीं आएगी.
  - कनेक्शन बंद होने की सूचना: GoAway सर्वर से मिलने वाले मैसेज से पता चलता है कि कनेक्शन कब बंद होने वाला है. इससे कनेक्शन बंद होने से पहले, उसे आसानी से मैनेज किया जा सकता है.
- इंटरैक्शन डाइनैमिक पर ज़्यादा कंट्रोल
- आवाज़ की पहचान करने की सुविधा (वीएडी) को कॉन्फ़िगर किया जा सकता है: संवेदनशीलता के लेवल चुनें या वीएडी की सुविधा को पूरी तरह से बंद कर दें. इसके बाद, मैन्युअल तरीके से चालू/बंद करने के लिए, नए क्लाइंट इवेंट (activityStart, activityEnd) का इस्तेमाल करें.
- कॉन्फ़िगर की जा सकने वाली रुकावट को मैनेज करने की सुविधा: यह तय करें कि उपयोगकर्ता के इनपुट से मॉडल के जवाब में रुकावट आनी चाहिए या नहीं.
- कॉन्फ़िगर किया जा सकने वाला टर्न कवरेज: चुनें कि एपीआई, ऑडियो और वीडियो के सभी इनपुट को लगातार प्रोसेस करे या सिर्फ़ तब कैप्चर करे, जब उपयोगकर्ता को बोलते हुए सुना जाए.
- कॉन्फ़िगर किया जा सकने वाला मीडिया रिज़ॉल्यूशन: इनपुट मीडिया के लिए रिज़ॉल्यूशन चुनकर, क्वालिटी या टोकन के इस्तेमाल को ऑप्टिमाइज़ करें.
- बेहतर आउटपुट और सुविधाएँ
- आवाज़ और भाषा के ज़्यादा विकल्प: ऑडियो आउटपुट के लिए, दो नई आवाज़ों और 30 नई भाषाओं में से चुनें. अब speechConfig में, जवाब की भाषा कॉन्फ़िगर की जा सकती है.
- टेक्स्ट स्ट्रीमिंग: जवाब जनरेट होने के साथ-साथ, टेक्स्ट के जवाब पाएं. इससे उपयोगकर्ता को जवाब तेज़ी से दिखते हैं.
- टोकन के इस्तेमाल की रिपोर्टिंग: सर्वर के मैसेज के usageMetadata फ़ील्ड में दिए गए टोकन की कुल संख्या के बारे में ज़्यादा जानकारी पाएं. इसे मोडैलिटी और प्रॉम्प्ट या जवाब के चरणों के हिसाब से बांटा गया है.