भाषा में पूर्वाग्रह से लड़ने पर Google का अनुवाद प्रमुख और AI को धार्मिक ग्रंथ क्यों पसंद हैं
Google के मैकडफ ह्यूजेस के साथ एक साक्षात्कार

आपको पिछले साल Google अनुवाद के बाहर थूकने के बारे में समाचारों का एक समूह याद हो सकता हैअशुभ अंशधार्मिक भविष्यवाणी का जब अनुवाद करने के लिए बकवास शब्दों और वाक्यांशों के साथ प्रस्तुत किया जाता है। क्लिकबैट साइटों ने सुझाव दिया कि यह एक साजिश हो सकती है, लेकिन नहीं, यह सिर्फ Google की मशीन लर्निंग सिस्टम भ्रमित हो रही थी और डेटा पर वापस गिर रही थी: धार्मिक ग्रंथ।
लेकिन Google अनुवाद के प्रमुख के रूप में मैकडफ ह्यूजेस ने बतायाकगारहाल ही में, मशीन लर्निंग वह है जो Google के हमेशा उपयोगी अनुवाद टूल को वास्तव में गाती है। नि:शुल्क, आसान और तात्कालिक अनुवाद २१वीं सदी के जीवन के उन लाभों में से एक है जिसे हम में से बहुत से लोग मान लेते हैं, लेकिन एआई के बिना यह संभव नहीं होगा।
मुफ़्त, आसान और त्वरित अनुवाद २१वीं सदी के जीवन का एक लाभ है2016 में वापस, अनुवाद को सांख्यिकीय मशीन अनुवाद के रूप में जानी जाने वाली विधि से बदलकर मशीन सीखने का लाभ उठाया गया, जिसे Google ने तंत्रिका मशीन अनुवाद कहा। पुराने मॉडल ने एक समय में एक शब्द का अनुवाद किया, जिससे बहुत सारी गलतियाँ हुईं, क्योंकि सिस्टम व्याकरणिक कारकों जैसे क्रिया काल और शब्द क्रम को ध्यान में रखने में विफल रहा। लेकिन नया वाक्य द्वारा वाक्य का अनुवाद करता है, जिसका अर्थ है कि यह इस मौखिक संदर्भ में कारक है।
परिणाम भाषा है जो अधिक प्राकृतिक और अधिक तरल है, ह्यूजेस कहते हैं, जो वादा करता है कि अधिक सुधार आ रहे हैं, जैसे अनुवाद जो स्वर की सूक्ष्मता के लिए खाता है (क्या स्पीकर औपचारिक या स्लैंग है?) और यह शब्दों के लिए कई विकल्प प्रदान करता है।
एनवीडिया जीटीएक्स 1050
अनुवाद भी Google के लिए एक स्पष्ट रूप से सकारात्मक प्रोजेक्ट है, कुछ ऐसा जो दूसरों की तरह हैनोट किया है, कंपनी के अधिक विवादास्पद एआई प्रयासों के लिए थोड़ा सा कवर प्रदान करता है, जैसे कि सेना के साथ इसका काम। ह्यूजेस बताते हैं कि Google अनुवाद का समर्थन क्यों जारी रखता है, साथ ही कंपनी अपने एआई प्रशिक्षण डेटा में पूर्वाग्रह से कैसे निपटना चाहती है।
यह साक्षात्कार स्पष्टता के लिए संपादित किया गया है
आपने हाल ही में अनुवाद के लिए एक बड़ा अपडेट पेश किया था लिंग-विशिष्ट अनुवाद . आपको ऐसा करने के लिए क्या प्रेरित किया?
वह दो प्रेरणाएँ एक साथ आ रही हैं। सभी प्रकार के मशीन लर्निंग और एआई उत्पादों में सामाजिक पूर्वाग्रह के बारे में एक चिंता है। यह एक ऐसी चीज है जिसके बारे में Google और पूरा उद्योग चिंतित हो रहा है; वह मशीन लर्निंग सेवाएं और उत्पाद उस डेटा के पूर्वाग्रहों को दर्शाते हैं जिस पर उन्हें प्रशिक्षित किया जाता है, जो सामाजिक पूर्वाग्रहों को दर्शाता है, जो उन पूर्वाग्रहों को पुष्ट करता है और शायद बढ़ाता भी है। हम चाहते हैं, एक कंपनी के रूप में, उन समस्याओं का समाधान करने में अग्रणी बनें, और हम जानते हैं कि अनुवाद एक ऐसी सेवा है जिसमें यह समस्या है, खासकर जब पुरुष/महिला पूर्वाग्रह की बात आती है।
अनुवाद मॉडल भाषा में मौजूद पूर्वाग्रहों को सीख सकते हैं (और दोहरा सकते हैं)भाषा में उत्कृष्ट उदाहरण यह है कि एक डॉक्टर पुरुष है और एक नर्स महिला है। यदि ये पूर्वाग्रह किसी भाषा में मौजूद हैं तो एक अनुवाद मॉडल इसे सीखेगा और इसे बढ़ाएगा। उदाहरण के लिए, यदि कोई पेशा [पुरुष के रूप में संदर्भित] ६० से ७० प्रतिशत है, तो एक अनुवाद प्रणाली उसे सीख सकती है और फिर उसे १०० प्रतिशत पुरुष के रूप में प्रस्तुत कर सकती है। हमें इसका मुकाबला करने की जरूरत है।
और बहुत से उपयोगकर्ता भाषा सीख रहे हैं; वे चीजों को व्यक्त करने के विभिन्न तरीकों और उपलब्ध बारीकियों को समझना चाहते हैं। इसलिए हम लंबे समय से जानते हैं कि हमें कई अनुवाद विकल्प और अन्य विवरण दिखाने में सक्षम होने की आवश्यकता है। यह सब जेंडर प्रोजेक्ट में एक साथ आया।
क्योंकि, यदि आप पूर्वाग्रह की समस्या को देखते हैं, तो इसका कोई स्पष्ट उत्तर नहीं है कि आप इसके बारे में क्या कर सकते हैं। इसका उत्तर 50/50 या यादृच्छिक [अनुवाद में लिंग निर्दिष्ट करते समय] नहीं है, बल्कि लोगों को अधिक जानकारी देने के लिए है। लोगों को केवल यह बताने के लिए कि इस भाषा में इस बात को कहने के एक से अधिक तरीके हैं, और यहां उनके बीच अंतर हैं। अनुवाद में बहुत सारी सांस्कृतिक चुनौतियाँ और भाषाई चुनौतियाँ हैं, और हम अनुवाद को और अधिक उपयोगी बनाते हुए पूर्वाग्रह के मुद्दे के बारे में कुछ करना चाहते थे।

पूर्वाग्रह और बारीकियों दोनों के संदर्भ में आप आगे किन समस्याओं से निपटने जा रहे हैं?
निष्पक्षता और पूर्वाग्रह के मुद्दे पर तीन बड़ी पहल हैं। हमने अभी जो लॉन्च किया है, उसमें से एक बस अधिक कर रहा है। हमारे पास लिंग के साथ पूर्ण वाक्य अनुवाद है, लेकिन केवल तुर्की से अंग्रेजी में लॉन्च किया गया है। हम इसकी गुणवत्ता में सुधार करना चाहते हैं और अधिक भाषाओं में विस्तार करना चाहते हैं। हमने कुछ भाषाओं के लिए सिंगल वर्ड किया...
दूसरा क्षेत्र दस्तावेज़ अनुवाद है। यह वह जगह है जहां पूर्वाग्रह है, लेकिन इसके लिए बहुत अलग प्रतिक्रिया की आवश्यकता है। उदाहरण के लिए यदि आप किसी महिला के बारे में किसी अन्य भाषा में विकिपीडिया लेख लेते हैं और अंग्रेजी में अनुवाद करते हैं, तो सबसे अधिक संभावना है कि आप उसके और उसके साथ अंग्रेजी में बहुत सारे सर्वनाम देखेंगे। ऐसा इसलिए होता है क्योंकि आपको एक वाक्य मिलेगा जिसका अलग-अलग अनुवाद किया गया है, और स्रोत भाषा लिंग को स्पष्ट नहीं करेगी, और इसलिए अधिक बार आप उसे डिफ़ॉल्ट के रूप में जोड़ देंगे। अब, यह एक विशेष रूप से आपत्तिजनक बात है जब आप इसे गलत पाते हैं, लेकिन इसे संबोधित करने का तरीका पूरी तरह से अलग है जिसे हमने पिछले साल लॉन्च किया था। इस उदाहरण में [शेष दस्तावेज़ के] संदर्भ से ही सही उत्तर प्राप्त करना संभव है। तो इसे ठीक करने के लिए एक शोध और इंजीनियरिंग समस्या है।
तीसरा क्षेत्र लिंग तटस्थ भाषा पैटर्न को संबोधित कर रहा है।तीसरा क्षेत्र लिंग तटस्थ भाषा पैटर्न को संबोधित कर रहा है। हम अभी न केवल अंग्रेजी में बल्कि कई भाषाओं में बहुत सी सांस्कृतिक उथल-पुथल के बीच में हैं, जो लिंग आधारित हैं। लिंग तटस्थ भाषा बनाने के लिए दुनिया भर में उभर रहे आंदोलन हैं, और हमें उपयोगकर्ताओं से इस बारे में बहुत सी पूछताछ मिलती है कि हम इसे कब संबोधित करने जा रहे हैं। अक्सर उद्धृत उदाहरण अंग्रेजी में 'वे' का एकवचन उपयोग है। यह तेजी से सामान्य है, भले ही इसे पाठ्यपुस्तकों और शैली गाइडों में वास्तव में स्वीकार नहीं किया गया हो, किसी को यह कहकर संदर्भित किया जाता है कि 'वह है' या 'वह है' के विपरीत है। यह स्पेनिश, फ्रेंच, कई अन्य भाषाओं में भी हो रहा है। वास्तव में, नियम इतनी तेजी से बदल रहे हैं कि विशेषज्ञ भी नहीं रख सकते।
गूगल सीरीज
पिछले साल Google अनुवाद के साथ कुछ ऐसी उत्सुकता हुई जो लोगों ने खोजी कि यदि आप इनपुट बकवास शब्द यह धार्मिक पाठ के अंशों को थूक देगा। यह थोड़ी वायरल घटना बन गई, लोगों ने इस पर हर तरह की विचित्र व्याख्याएं पेश कीं। आपने यह सब क्या बनाया?
मुझे आश्चर्य नहीं हुआ कि यह हुआ, लेकिन मैं लोगों की प्रतिक्रिया में रुचि के स्तर पर था। [और पर] साजिश प्रकार की सामग्री, Google के बारे में गुप्त धर्मों, अंतरिक्ष एलियंस, और आपके पास क्या है, के बारे में रहस्यमय संदेशों को कूटबद्ध करने के बारे में। यह वास्तव में क्या दिखाता है, हालांकि, मशीन लर्निंग मॉडल के साथ एक सामान्य समस्या है, कि जब उन्हें अप्रत्याशित इनपुट मिलता है तो वे अप्रत्याशित तरीके से व्यवहार करते हैं। यह एक ऐसी समस्या है जिसका हम समाधान कर रहे हैं, ताकि यदि आपके पास कोई बेतुका इनपुट है, तो यह सनसनीखेज उत्पादन नहीं करेगा इनपुट।
लेकिन ऐसा क्यों हुआ? मुझे विश्वास नहीं है कि आपने कभी रिकॉर्ड पर स्पष्टीकरण दिया है.
आमतौर पर ऐसा इसलिए होता है क्योंकि आप जिस भाषा का अनुवाद कर रहे हैं, उसमें प्रशिक्षण डेटा में बहुत सारे धार्मिक पाठ थे। हमारे पास प्रत्येक भाषा जोड़ी के लिए, हम वर्ल्ड वाइड वेब पर जो कुछ भी पा सकते हैं उसका उपयोग करके प्रशिक्षण लेते हैं। तो इन मॉडलों का विशिष्ट व्यवहार यह है कि यदि यह अस्पष्ट हो जाता है, तो यह कुछ ऐसा चुनता है जो लक्ष्य पक्ष पर प्रशिक्षण डेटा में सामान्य है, और इनमें से कई निम्न-संसाधन भाषाओं के लिए - जहां बहुत अधिक पाठ का अनुवाद नहीं किया गया है वेब हमारे लिए आकर्षित करने के लिए - जो उत्पन्न होता है वह अक्सर धार्मिक होता है।
Google अनुवाद को बहुत ज़ोर से दबाएं और प्रशिक्षण डेटा फैल जाता हैकुछ भाषाएँ, जो पहली अनुवादित सामग्री हमें मिलीं, वे बाइबल के अनुवाद थीं। हम जो कुछ भी प्राप्त कर सकते हैं हम लेते हैं और यह आमतौर पर ठीक है, लेकिन ऐसे मामले में जहां अस्पष्टता होती है, अक्सर यह परिणाम होता है। यदि अंतर्निहित अनुवाद डेटा कानूनी दस्तावेज होता, तो मॉडल कानूनी बनाता; अगर यह विमान उड़ान निर्देश मैनुअल होता, तो यह विमान उड़ान निर्देश तैयार करता।
यह आकर्षक है। यह मुझे अंग्रेजी पर किंग जेम्स बाइबिल के प्रभाव की याद दिलाता है; १७वीं शताब्दी का यह अनुवाद कितने लोगों का स्रोत है वाक्यांशों हम आज उपयोग करते हैं। क्या Google अनुवाद के साथ भी ऐसी ही चीज़ें होती हैं? क्या आपके प्रशिक्षण बैंकों में वाक्यांशों के अजीब स्रोत हैं?
खैर, कभी-कभी हमें इंटरनेट फ़ोरम से अजीब चीज़ें आती हैं; जैसे, कभी-कभी गेमिंग फ़ोरम या गेमिंग साइट्स से कठबोली। ऐसा हो सकता है! बड़ी भाषाओं के साथ हमारे पास अधिक विविध प्रशिक्षण डेटा है, लेकिन हां, कभी-कभी आपको इंटरनेट के सभी कोनों से दिलचस्प स्लैंग मिलते हैं। मुझे डर है कि अभी कोई विशिष्ट उदाहरण दिमाग में नहीं आ रहा है ...

इसलिए, Google अनुवाद विशेष रूप से दिलचस्प है, क्योंकि ऐसे समय में जहां एआई को कैसे और कहां तैनात किया जा रहा है, इस वजह से परेशानी हो रही है, हर कोई इस बात से सहमत है कि अनुवाद फायदेमंद और अपेक्षाकृत समस्या रहित है। यह यूटोपियन है, यहां तक कि। आपको क्या लगता है कि अनुवाद के वित्तपोषण के लिए Google की प्रेरणा क्या है?
हम काफी आदर्शवादी कंपनी हैं और मुझे लगता है कि अनुवाद टीम के पास आदर्शवादियों के अपने उचित हिस्से से कहीं अधिक है। हम यह सुनिश्चित करने के लिए कड़ी मेहनत करते हैं कि आपने जो कहा वह सच रहे, यही कारण है कि पूर्वाग्रह से लड़ना और दुरुपयोग किए गए अनुवाद की तलाश करना महत्वपूर्ण है जो हानिकारक हो सकता है।
bf4 एफपीएस बूस्ट
लेकिन Google उसमें निवेश क्यों करता है? हमसे बहुत कुछ पूछा जाता है और इसका उत्तर आसान है। हम कहते हैं कि हमारा मिशन दुनिया की जानकारी को व्यवस्थित करना और इसे सार्वभौमिक रूप से सुलभ बनाना है, और यह कि 'सार्वभौमिक रूप से सुलभ' हिस्सा हासिल करने से बहुत दूर है। जब तक अधिकांश दुनिया जानकारी को ऑनलाइन नहीं पढ़ सकती है, यह सार्वभौमिक रूप से सुलभ नहीं है। Google, अपने मूल मिशन को प्राप्त करने के लिए, अनुवाद को हल करने की आवश्यकता है, और मुझे लगता है कि संस्थापकों ने इसे एक दशक से भी अधिक समय पहले पहचाना था।
हालांकि, क्या आपको लगता है कि यह संभव है? का समाधान अनुवाद? वहाँ था एक हाल का लेख में अटलांटिक अनुभूति के प्रसिद्ध प्रोफेसर डगलस हॉफस्टैटर द्वारा, Google अनुवाद की उथल-पुथल की ओर इशारा करते हुए। आपने उनकी आलोचनाओं का क्या किया?
उन्होंने जो बताया वह उचित और सत्य था। ये मुद्दे हैं। लेकिन वे वास्तव में हमारी चिंता में सबसे आगे नहीं हैं, क्योंकि वास्तव में वे हमारे द्वारा देखे जाने वाले अनुवादों में केवल एक छोटा प्रतिशत होते हैं। जब हम उन विशिष्ट ग्रंथों को देखते हैं जिनका लोग अनुवाद करने का प्रयास करते हैं, तो अभी वे बड़े मुद्दे नहीं हैं। लेकिन वह निश्चित रूप से सही है कि वास्तव में अनुवाद को हल करने और एक कुशल पेशेवर के स्तर पर अनुवाद करने में सक्षम होने के लिए, जिसका डोमेन और उसके भाषाई मुद्दे के बारे में ज्ञान है, कुछ प्रमुख सफलताओं की आवश्यकता है। केवल समानांतर पाठ के उदाहरणों से सीखने से आप उन अंतिम कुछ प्रतिशत उपयोग के मामलों तक नहीं पहुंचेंगे।
यह लंबे समय से कहा गया है कि अनुवाद एक एआई पूर्ण समस्या है, जिसका अर्थ है कि अनुवाद को पूरी तरह से हल करने के लिए आपको एआई को पूरी तरह से हल करने की आवश्यकता है। और मुझे लगता है कि यह सच है। लेकिन आप बहुत अधिक प्रतिशत समस्याओं को हल कर सकते हैं, और हम अभी उस स्थान को भर रहे हैं।