डीपमाइंड का स्टारक्राफ्ट 2 एआई अब सभी मानव खिलाड़ियों के 99.8 प्रतिशत से बेहतर है
अल्फास्टार अब रीयल-टाइम रणनीति गेम में ग्रैंडमास्टर स्तर है

डीपमाइंड ने आज बर्फ़ीला तूफ़ान मनोरंजन खेल खेलने के लिए प्रशिक्षित अपने कृत्रिम बुद्धिमत्ता एजेंटों के लिए एक नए मील के पत्थर की घोषणा कीस्टार क्राफ्ट II. Google के स्वामित्व वाला AI लैब का अधिक परिष्कृत सॉफ़्टवेयर, जिसे अभी भी AlphaStar कहा जाता है, अब रीयल-टाइम रणनीति गेम में ग्रैंडमास्टर स्तर है, जो प्रतियोगिता में सभी मानव खिलाड़ियों के 99.8 प्रतिशत को सर्वश्रेष्ठ बनाने में सक्षम है। निष्कर्ष वैज्ञानिक पत्रिका में एक शोध पत्र में प्रकाशित किए जाने हैंप्रकृति.
इतना ही नहीं, बल्कि डीपमाइंड का कहना है कि पिछली गर्मियों में ऑनलाइन प्रतियोगिताओं में भाग लेने वाले मानव विरोधियों के खिलाफ नए और बेहतर अल्फास्टार का परीक्षण करते समय इसने खेल के मैदान को भी बराबर कर दिया। एक के लिए, इसने अल्फास्टार को खेल के तीनों खेलने योग्य दौड़ का उपयोग करने के लिए प्रशिक्षित किया, जिससे प्रो प्ले के ऊपरी क्षेत्रों में खेल की जटिलता को जोड़ा गया। यह अल्फास्टार को केवल मानचित्र के उस हिस्से को देखने तक सीमित करता है जिसे मानव देखता है और माउस क्लिक की संख्या को प्रतिबंधित करता है जो इसे मानक मानव आंदोलन के साथ संरेखित करने के लिए हर पांच सेकंड में 22 गैर-डुप्लिकेट क्रियाओं के लिए पंजीकृत कर सकता है।
अल्फास्टार स्टारक्राफ्ट II में अब तक का पहला एआई ग्रैंडमास्टर है
फिर भी, एआई ग्रैंडमास्टर स्तर, उच्चतम संभव ऑनलाइन प्रतिस्पर्धी रैंकिंग प्राप्त करने में सक्षम था, और ऐसा करने वाली पहली प्रणाली को चिह्नित करता हैस्टार क्राफ्ट II. डीपमाइंड प्रगति को अधिक प्रमाण के रूप में देखता है कि सामान्य प्रयोजन के सुदृढीकरण सीखने, जो कि अल्फास्टार के प्रशिक्षण को कम करने वाली मशीन सीखने की तकनीक है, का उपयोग एक दिन स्व-शिक्षण रोबोट, सेल्फ-ड्राइविंग कारों को प्रशिक्षित करने और अधिक उन्नत छवि और वस्तु बनाने के लिए किया जा सकता है। मान्यता प्रणाली।
कृत्रिम बुद्धिमत्ता में प्रगति के इतिहास को खेलों में मील के पत्थर की उपलब्धियों से चिह्नित किया गया है। जब से कंप्यूटर ने गो, चेस और पोकर में दरार डाली है,स्टार क्राफ्टअल्फास्टार टीम के डीपमाइंड सिद्धांत अनुसंधान वैज्ञानिक डेविड सिल्वर ने एक बयान में कहा, सर्वसम्मति से अगली बड़ी चुनौती के रूप में उभरा है। खेल की जटिलता शतरंज की तुलना में बहुत अधिक है, क्योंकि खिलाड़ी सैकड़ों इकाइयों को नियंत्रित करते हैं; गो की तुलना में अधिक जटिल, क्योंकि प्रत्येक चाल के लिए 10^26 संभावित विकल्प हैं; और खिलाड़ियों को पोकर की तुलना में अपने विरोधियों के बारे में कम जानकारी होती है।
जनवरी में वापस, डीपमाइंड ने घोषणा की कि उसका अल्फास्टार सिस्टम एक पूर्व-रिकॉर्डेड सत्र के दौरान लगातार 10 मैचों में शीर्ष प्रो खिलाड़ियों को सर्वश्रेष्ठ करने में सक्षम था, लेकिन यह ऑनलाइन लाइव स्ट्रीम किए गए अंतिम मैच में प्रो खिलाड़ी ग्रेज़गोर्ज़ माना कोमिन्ज़ से हार गया। कंपनी जनवरी और जून के बीच प्रणाली में सुधार करती रही, जब उसने कहा कि वह दुनिया भर के सर्वश्रेष्ठ मानव खिलाड़ियों को खेलने के लिए आमंत्रण स्वीकार करना शुरू कर देगी। आगामी मैच जुलाई और अगस्त में हुए, दीपमाइंड कहते हैं।
परिणाम आश्चर्यजनक थे: अल्फास्टार सबसे परिष्कृत में से एक बन गया थास्टारक्राफ्ट IIग्रह पर खिलाड़ी, लेकिन उल्लेखनीय रूप से अभी भी काफी अलौकिक नहीं हैं। लगभग ०.२ प्रतिशत खिलाड़ी इसे हराने में सक्षम हैं, लेकिन किसी भी मानव प्रतिद्वंद्वी को कुचलने के लिए सिस्टम में पर्याप्त सुधार होने से पहले इसे काफी हद तक केवल समय की बात माना जाता है।
बीच में

यह शोध मील का पत्थर सैन फ्रांसिस्को स्थित एआई शोध कंपनी ओपनएआई के समान है, जो परिष्कृत पांच-पर-पांच मल्टीप्लेयर गेम खेलने के लिए सुदृढीकरण सीखने का उपयोग करके एआई एजेंटों को प्रशिक्षित कर रहा है।डोटा 2. अप्रैल में वापस, OpenAI Five सॉफ़्टवेयर का सबसे परिष्कृत संस्करण, जैसा कि इसे कहा जाता है,विश्व चैंपियन सर्वश्रेष्ठडोटा 2टीमकेवल संकीर्णता के बाददो कम सक्षम ई-स्पोर्ट्स टीमों से हारनापिछली गर्मी। ओपनएआई फाइव की क्षमताओं में छलांग अल्फास्टार की तरह है, और दोनों इस बात के मजबूत उदाहरण हैं कि एआई के लिए यह दृष्टिकोण गेम-प्लेइंग क्षमता के अभूतपूर्व स्तर का उत्पादन कैसे कर सकता है।
गेम ऑफ थ्रोन्स स्टार वार्स
OpenAI's . से मिलता-जुलताडोटा 2बॉट्स और अन्य गेम-प्लेइंग एजेंट, इस प्रकार के एआई शोध के साथ लक्ष्य केवल विभिन्न खेलों में मनुष्यों को कुचलने के लिए नहीं है, यह साबित करने के लिए कि यह किया जा सकता है। इसके बजाय, यह साबित करना है कि - पर्याप्त समय, प्रयास और संसाधनों के साथ - परिष्कृत एआई सॉफ्टवेयर वस्तुतः किसी भी प्रतिस्पर्धी संज्ञानात्मक चुनौती में मनुष्यों को सर्वश्रेष्ठ कर सकता है, चाहे वह बोर्ड गेम हो या आधुनिक वीडियो गेम। यह सुदृढीकरण सीखने के लाभों को दिखाने के लिए भी है, मशीन सीखने का एक विशेष ब्रांड जिसे पिछले कुछ वर्षों में भारी मात्रा में कंप्यूटिंग शक्ति और आभासी सिमुलेशन जैसे प्रशिक्षण विधियों के साथ संयुक्त रूप से बड़ी सफलता मिली है।
ओपनएआई की तरह, डीपमाइंड अपने एआई एजेंटों को खुद के संस्करणों के खिलाफ और त्वरित गति से प्रशिक्षित करता है, ताकि एजेंट कुछ महीनों के अंतराल में सैकड़ों वर्षों का खेल समय देख सकें। इसने इस प्रकार के सॉफ़्टवेयर को गो के कुछ सबसे प्रतिभाशाली मानव खिलाड़ियों के साथ समान स्तर पर खड़े होने की अनुमति दी है, और अब, अधिक परिष्कृत गेम जैसेस्टार क्राफ्टतथाडोटा.
इस प्रकार का AI एक दिन अधिक स्मार्ट, सुरक्षित, स्व-शिक्षण रोबोट को नियंत्रित कर सकता हैफिर भी सॉफ्टवेयर अभी भी उस संकीर्ण अनुशासन तक ही सीमित है जिसे इसे निपटने के लिए डिज़ाइन किया गया है। गो-प्लेइंग एजेंट नहीं खेल सकताडोटा, और इसके विपरीत। (डीपमाइंड ने अपने गो-प्लेइंग एजेंट के अधिक सामान्य-उद्देश्य वाले संस्करण को शतरंज में अपना हाथ आजमाने दिया, जिसे उसने आठ घंटे के मामले में महारत हासिल कर लिया।) ऐसा इसलिए है क्योंकि सॉफ़्टवेयर को आसानी से बदलने वाले नियम सेट के साथ प्रोग्राम नहीं किया गया है या निर्देश। इसके बजाय, डीपमाइंड और अन्य शोध संस्थान सुदृढीकरण सीखने का उपयोग करते हैं ताकि एजेंटों को यह पता चल सके कि उन्हें अपने दम पर कैसे खेलना है, यही वजह है कि सॉफ्टवेयर अक्सर उपन्यास और बेतहाशा अप्रत्याशित खेल शैली विकसित करता है जिसे तब से शीर्ष मानव खिलाड़ियों द्वारा अपनाया गया है।
अल्फास्टार एक पेचीदा और अपरंपरागत खिलाड़ी है - एक बेहतरीन पेशेवरों की सजगता और गति के साथ लेकिन रणनीति और एक शैली जो पूरी तरह से अपनी है। जिस तरह से अल्फास्टार को एक लीग में एक-दूसरे के खिलाफ प्रतिस्पर्धा करने वाले एजेंटों के साथ प्रशिक्षित किया गया था, उसके परिणामस्वरूप गेमप्ले अकल्पनीय रूप से असामान्य है; टीम पांडा ग्लोबल के एक समर्थक खिलाड़ी डिएगो केलाज़ूर श्विमर ने एक बयान में कहा, यह वास्तव में आपको सवाल करता है कि स्टार क्राफ्ट की विविध संभावनाओं का कितना समर्थक खिलाड़ियों ने वास्तव में पता लगाया है। हालाँकि, अल्फास्टार की कुछ रणनीतियाँ पहली बार में अजीब लग सकती हैं, मैं मदद नहीं कर सकता, लेकिन आश्चर्य है कि अगर सभी अलग-अलग खेल शैलियों को मिलाकर यह वास्तव में खेल खेलने का सबसे अच्छा तरीका हो सकता है।
डीपमाइंड को उम्मीद है कि इसकी प्रयोगशाला और साथी एआई शोधकर्ताओं द्वारा प्राप्त सुदृढीकरण सीखने में प्रगति भविष्य में किसी बिंदु पर अधिक व्यापक रूप से लागू हो सकती है। इस तरह के सॉफ़्टवेयर के लिए सबसे संभावित वास्तविक दुनिया का अनुप्रयोग रोबोटिक्स है, जहां वही तकनीक एआई एजेंटों को वर्चुअल सिमुलेशन में रोबोटिक हाथों के संचालन जैसे वास्तविक दुनिया के कार्यों को करने के तरीके को ठीक से प्रशिक्षित कर सकती है। फिर, मोटर नियंत्रण के वर्षों के अनुकरण के बाद, AI एक भौतिक रोबोटिक हथियारों की बागडोर ले सकता है, और शायद एक दिन पूर्ण-शरीर वाले रोबोट को भी नियंत्रित कर सकता है। लेकिन डीपमाइंड भी तेजी से अधिक परिष्कृत - और इसलिए सुरक्षित - सेल्फ-ड्राइविंग कारों को मशीन सीखने के लिए अपने विशिष्ट दृष्टिकोण के लिए एक अन्य स्थान के रूप में देखता है।
सुधार: इस लेख के पिछले संस्करण में कहा गया है कि दीपमाइंड ने अल्फास्टार को हर पांच मिनट में 20 क्रियाओं तक सीमित कर दिया है। यह गलत है; प्रतिबंध हर पांच सेकंड में 22 गैर-डुप्लिकेट क्रियाओं के लिए था। हमें त्रुटि का खेद है।