AI Changelog Aggregator

veo-2.0-generate-001 को रिलीज़ किया गया. यह टेक्स्ट और इमेज से वीडियो बनाने वाला मॉडल है. यह सामान्य रूप से उपलब्ध (जीए) है. यह मॉडल, बारीकी से और कलात्मक तरीके से वीडियो जनरेट कर सकता है. ज़्यादा जानने के लिए, Veo के दस्तावेज़ देखें.
gemini-2.0-flash-live-001 को, Live API मॉडल का पब्लिक प्रीव्यू वर्शन रिलीज़ किया गया. इसमें बिलिंग की सुविधा चालू है.
- बेहतर सेशन मैनेजमेंट और भरोसेमंद तरीके से काम करना
  - सेशन फिर से शुरू करना: नेटवर्क में कुछ समय के लिए रुकावट आने पर भी सेशन जारी रखें. एपीआई अब सर्वर-साइड सेशन की स्थिति को सेव करने की सुविधा देता है. यह सुविधा 24 घंटे तक काम करती है. साथ ही, यह फिर से कनेक्ट करने और वहीं से शुरू करने के लिए हैंडल (session_resumption) उपलब्ध कराता है जहां आपने छोड़ा था.
  - कॉन्टेक्स्ट कंप्रेस करने की सुविधा की मदद से लंबे सेशन: इस सुविधा को चालू करके, पिछली समयसीमाओं से ज़्यादा समय तक इंटरैक्ट किया जा सकता है. स्लाइडिंग विंडो के तरीके का इस्तेमाल करके, कॉन्टेक्स्ट विंडो को कंप्रेस करने की सुविधा कॉन्फ़िगर करें. इससे कॉन्टेक्स्ट की लंबाई अपने-आप मैनेज हो जाएगी. साथ ही, कॉन्टेक्स्ट की सीमाओं की वजह से अचानक बंद होने की समस्या नहीं आएगी.
  - कनेक्शन बंद होने की सूचना: GoAway सर्वर से मिलने वाले मैसेज से पता चलता है कि कनेक्शन कब बंद होने वाला है. इससे कनेक्शन बंद होने से पहले, उसे आसानी से मैनेज किया जा सकता है.
- इंटरैक्शन डाइनैमिक पर ज़्यादा कंट्रोल
- आवाज़ की पहचान करने की सुविधा (वीएडी) को कॉन्फ़िगर किया जा सकता है: संवेदनशीलता के लेवल चुनें या वीएडी की सुविधा को पूरी तरह से बंद कर दें. इसके बाद, मैन्युअल तरीके से चालू/बंद करने के लिए, नए क्लाइंट इवेंट (activityStart, activityEnd) का इस्तेमाल करें.
- कॉन्फ़िगर की जा सकने वाली रुकावट को मैनेज करने की सुविधा: यह तय करें कि उपयोगकर्ता के इनपुट से मॉडल के जवाब में रुकावट आनी चाहिए या नहीं.
- कॉन्फ़िगर किया जा सकने वाला टर्न कवरेज: चुनें कि एपीआई, ऑडियो और वीडियो के सभी इनपुट को लगातार प्रोसेस करे या सिर्फ़ तब कैप्चर करे, जब उपयोगकर्ता को बोलते हुए सुना जाए.
- कॉन्फ़िगर किया जा सकने वाला मीडिया रिज़ॉल्यूशन: इनपुट मीडिया के लिए रिज़ॉल्यूशन चुनकर, क्वालिटी या टोकन के इस्तेमाल को ऑप्टिमाइज़ करें.
- बेहतर आउटपुट और सुविधाएँ
- आवाज़ और भाषा के ज़्यादा विकल्प: ऑडियो आउटपुट के लिए, दो नई आवाज़ों और 30 नई भाषाओं में से चुनें. अब speechConfig में, आउटपुट की भाषा कॉन्फ़िगर की जा सकती है.
- टेक्स्ट स्ट्रीमिंग: जवाब जनरेट होने के साथ-साथ, टेक्स्ट के जवाब पाएं. इससे उपयोगकर्ता को जवाब तेज़ी से दिखते हैं.
- टोकन के इस्तेमाल की रिपोर्टिंग: सर्वर के मैसेज के usageMetadata फ़ील्ड में दिए गए टोकन की कुल संख्या के बारे में ज़्यादा जानकारी पाएं. इसे प्रॉम्प्ट या जवाब के चरणों के हिसाब से बांटा गया है.