NVIDIA का नया ‘वर्ल्ड मॉडल’: रोबोट अब सोचेंगे और समझेंगे!

नई दिल्ली
रोबोट समय के साथ-साथ स्मार्ट होते जा रहे हैं। अब वो दिन भी ज्यादा दूर नहीं जब रोबोट इंसानों की तरह सोच-समझ पाएंगे। जी हां, NVIDIA ने कॉसमॉस पॉलिसी पेश की है। यह कुछ और नहीं बल्कि रोबोट को कंट्रोल करने का एक नया तरीका है। यह NVIDIA के उस बड़े प्लान का हिस्सा है, जिसमें वे फिजिकल AI सिस्टम के लिए कुछ ऐसे मॉडल बना रहे हैं, जिनकी मदद से फिजिकल एआई सिस्टम दुनिया को समझ पाएं। यह फ्रेमवर्क इस तरह से डिजाइन किया गया है कि कंट्रोल और प्लानिंग टास्क के लिए बड़े वीडियो प्रेडिक्शन मॉडल को अडैप्ट करके रोबोट आसानी से तय कर पाएं कि उन्हें कौन सी हरकत करनी है।
रोबोट्स के लिए पॉलिसी क्या होती है?
बता दें कि रोबोटिक्स में, 'पॉलिसी' का मतलब उस दिमाग से होता है, जो तय करता है कि क्या करना चाहिए। यह रोबोट को मिलने वाली जानकारी जैसे कैमरे की फोटोज और सेंसर के डेटा को रोबोट की हरकत में बदलता है। पुराने रोबोट की पॉलिसी अक्सर खास काम के लिए बनाए गए न्यूरल नेटवर्क होती थीं। इनमें अलग-अलग हिस्से जैसे चीजों को समझना, प्लान बनाना और कंट्रोल करना शामिल होते थे। इन सिस्टम को हर रोबोट या माहौल के लिए बहुत सारा लेबल किया हुआ डेटा चाहिए होता था और खास तौर पर ट्यूनिंग करनी पड़ती थी।
कैसे काम करती है Cosmo Policy?
Cosmos Policy इससे काफी अलग है। NVIDIA शुरू से एक नया कंट्रोल मॉडल बनाने के बजाय, डेमोंस्ट्रेशन डेटा पर पहले से सीखे हुए वीडियो वर्ल्ड मॉडल को पोस्ट-ट्रेन यानी फिर से ट्रेन करती है। इसे Cosmos Predict कहते हैं। यह मॉडल पहले से ही जानता है कि फिजिकल दुनिया समय के साथ कैसे बदलती है, क्योंकि इसने बड़े पैमाने पर वीडियो डेटा से सीखा है।
इस अतिरिक्त ट्रेनिंग के दौरान, रोबोट के एक्शन, फिजिकल स्टेट और टास्क के नतीजों को मॉडल के इंटरनल टेम्परल रिप्रेजेंटेशन का हिस्सा माना जाता है, जिससे यह अनुमान लगाया जा सके कि रोबोट को आगे क्या करना चाहिए और इसके नतीजे क्या होंगे।
अलग-अलग मॉडल जोड़ने की नहीं होती जरूरत
इस डिजाइन की वजह से Cosmos Policy एक ही आर्किटेक्चर में एक साथ हरकतें, भविष्य की स्थितियां और काम के सफल होने की उम्मीद का अंदाजा लगा पाता है। सिर्फ एक बार की ट्रेनिंग पर निर्भर रहने से, यह फ्रेमवर्क आर्किटेक्चर की जटिलता को कम करता है और परसेप्शन व कंट्रोल के लिए कई अलग-अलग मॉडल को जोड़ने की जरूरत नहीं होती है। ये इमेज NVIDIA की ऑफिशियल साइट से ली गई है।
क्या असकरदार है यह नई पॉलिसी?
बेंचमार्क के नतीजे बताते हैं कि यह तरीका असरदार है। रोबोटिक मैनिपुलेशन के स्टैंडर्ड बेंचमार्क पर Cosmos Policy ने उन मल्टी-स्टेपकामों में, जिनमें लंबे समय तक सोचने की जरूरत होती है, बहुत अच्छे सक्सेस रेट हासिल किए। कुछ मामलों में, इसने मौजूदा तरीकों के बराबर या उनसे बेहतर परफॉर्म किया, जबकि ट्रेनिंग के लिए बहुत कम डेमो का इस्तेमाल किया।
यह डेटा एफिशिएंसी रोबोटिक्स में बहुत जरूरी है, क्योंकि असली दुनिया का ट्रेनिंग डेटा इकट्ठा करना महंगा और समय लेने वाला होता है। बड़े वीडियो मॉडल में पहले से मौजूद जानकारी का फायदा उठाकर Cosmos Policy भरोसेमंद कंट्रोल बिहेविअर सीखने के लिए रोबोट के खास डेटा की जरूरत को कम करता है।
पॉलिसी की खास बात
Cosmos Policy की एक और खास बात यह है कि यह इन्फेरेंस टाइम पर प्लानिंग कर सकता है। सिर्फ अगली तुरंत होने वाली हरकत बताने के बजाय, मॉडल कई संभावित एक्शन सीक्वेंस बना और उनका मूल्यांकन कर सकता है। इन सीक्वेंस के भविष्य में नतीजों और रिवॉर्ड का अंदाजा लगाकर, रोबोट ऐसी हरकतें चुन सकता है, जिनके लंबे समय तक सफल होने की ज्यादा संभावना हो। यह प्लानिंग क्षमता रोबोट को ज्यादा रिएक्टिव होने के बजाय ज्यादा स्ट्रेटेजिक बनने में मदद करती है, खासकर जब वे मुश्किल काम कर रहे हों।
सोच-समझकर ले पाएंगे सही फैसला
यह एक बहुत ही अच्छा और जरूरी डेवलपमेंट है। रोबोट सिर्फ वही नहीं करेंगे, जो उन्हें सिखाया गया है। बल्कि वे खुद सोच-समझकर, प्लान बनाकर बेहतर फैसले ले पाएंगे। यह सब इसलिए मुमकिन हो रहा है क्योंकि NVIDIA ने एक ऐसा सिस्टम बनाया है जो वीडियो देखकर दुनिया को समझता है, ठीक वैसे ही जैसे हम इंसान देखते और सीखते हैं।



