Google ने वैज्ञानिकों को उनके लिए आवश्यक डेटासेट खोजने में मदद करने के लिए नया खोज इंजन लॉन्च किया
डेटासेट खोज एक वैज्ञानिक का सबसे अच्छा दोस्त हो सकता है

Google का लक्ष्य हमेशा दुनिया की जानकारी को व्यवस्थित करना रहा है, और इसका पहला लक्ष्य व्यावसायिक वेब था। अब, यह डेटासेट के लिए एक नए खोज इंजन के साथ वैज्ञानिक समुदाय के लिए भी ऐसा ही करना चाहता है।
google drav
सेवा, कहा जाता हैडेटासेट खोज, आज लॉन्च होगा, और एक प्रकार का साथी होगागूगल शास्त्री, अकादमिक अध्ययन और रिपोर्ट के लिए कंपनी का लोकप्रिय खोज इंजन। जो संस्थान अपना डेटा ऑनलाइन प्रकाशित करते हैं, जैसे विश्वविद्यालय और सरकारें, उन्हें शामिल करना होगामेटाडेटा टैगउनके वेबपृष्ठों में जो उनके डेटा का वर्णन करते हैं, जिसमें इसे किसने बनाया, कब प्रकाशित किया गया था, इसे कैसे एकत्र किया गया था, इत्यादि। फिर इस जानकारी को डेटासेट खोज द्वारा अनुक्रमित किया जाएगा और Google के ज्ञान ग्राफ़ से इनपुट के साथ जोड़ा जाएगा। (यह उन बक्सों का नाम है जो सामान्य खोजों के लिए पॉप अप करते हैं। इसलिए यदि डेटासेट एक्स को सर्न द्वारा प्रकाशित किया गया था, तो संस्थान के बारे में कुछ जानकारी भी परिणामों में शामिल की जाएगी।)
ऑनलाइन डेटासेट की खंडित दुनिया को एकजुट करने के लिए एक खोज इंजन
से बात कर रहे हैंकगार, डेटासेट खोज बनाने में मदद करने वाली Google AI की शोध वैज्ञानिक नताशा नोय का कहना है कि इसका उद्देश्य ऑनलाइन डेटासेट के लिए हज़ारों अलग-अलग रिपॉजिटरी को एकीकृत करना है। हम उस डेटा को खोजने योग्य बनाना चाहते हैं, लेकिन इसे वहीं रखें जहां यह है, नोय कहते हैं।
फिलहाल, डेटासेट प्रकाशन बेहद खंडित है। अलग-अलग सरकारों और स्थानीय प्राधिकरणों की तरह अलग-अलग वैज्ञानिक डोमेन के अपने पसंदीदा भंडार होते हैं। वैज्ञानिक कहते हैं, 'मुझे पता है कि मुझे खोजने के लिए कहां जाना है'मेरेडेटासेट, लेकिन वह नहीं है जो मैं हमेशा चाहता हूं, 'नोय कहते हैं। एक बार जब वे अपने अद्वितीय समुदाय से बाहर निकल जाते हैं, तब यह कठिन हो जाता है।
नोय एक जलवायु वैज्ञानिक का उदाहरण देती है जिससे उसने हाल ही में बात की थी जिसने उसे बताया था कि वह आगामी अध्ययन के लिए समुद्र के तापमान पर एक विशिष्ट डेटासेट की तलाश कर रही है, लेकिन उसे कहीं भी नहीं मिला। उसने इसे तब तक ट्रैक नहीं किया जब तक कि वह एक सम्मेलन में एक सहयोगी के पास नहीं गई, जिसने डेटासेट को पहचाना और उसे बताया कि इसे कहाँ होस्ट किया गया था। तभी वह अपना काम जारी रख सकती थी। और यह विशेष रूप से बुटीक डिपॉजिटरी भी नहीं था, नोय कहते हैं। डेटासेट को काफी प्रमुख स्थान पर अच्छी तरह से लिखा गया था, लेकिन इसे ढूंढना अभी भी मुश्किल था।

डेटासेट खोज की प्रारंभिक रिलीज़ में पर्यावरण और सामाजिक विज्ञान, सरकारी डेटा और समाचार संगठनों के डेटासेट शामिल होंगे जैसेप्रोपब्लिका. हालांकि, अगर सेवा लोकप्रिय हो जाती है, तो डेटा की मात्रा को जल्दी से स्नोबॉल करना चाहिए क्योंकि संस्थान और वैज्ञानिक अपनी जानकारी को सुलभ बनाने के लिए हाथापाई करते हैं।
www कोंग्रेगेट कॉम
दुनिया भर में हाल ही में खुले डेटा पहल के फलने-फूलने से इसे मदद मिलनी चाहिए। मुझे लगता है कि पिछले कई वर्षों में रिपॉजिटरी की संख्या में विस्फोट हुआ है, नोय कहते हैं। वह इसका श्रेय वैज्ञानिक साहित्य में डेटा के बढ़ते महत्व को देती है, जिसका अर्थ है कि पत्रिकाएँ लेखकों को डेटासेट प्रकाशित करने के लिए कहती हैं, साथ ही साथ अमेरिका और यूरोप में सरकारी नियम और खुले डेटा आंदोलन के सामान्य उदय।
मुझे उम्मीद है कि Google के आने से यह आसान हो जाएगा।ओपन डेटा इंस्टीट्यूट (ओडीआई) के सीईओ जेनी टेनिसन कहते हैं, Google को शामिल करने से इस परियोजना को सफल बनाने में मदद मिलनी चाहिए। वह कहती हैं कि डेटासेट खोज का समर्थन करना हमेशा एक कठिन काम रहा है, और मुझे उम्मीद है कि Google इसमें कदम रखना आसान बना देगा।
एक अच्छा खोज इंजन बनाने के लिए, आपको यह जानना होगा कि उपयोगकर्ता के अनुकूल सिस्टम कैसे बनाएं और समझें कि जब लोग कुछ वाक्यांशों में टाइप करते हैं तो उनका क्या मतलब होता है, टेनिसन कहते हैं। Google जानता है कि वह उन दोनों विभागों में क्या कर रहा है।
वास्तव में, टेनीसन कहते हैं, आदर्श रूप से Google अपना डेटासेट प्रकाशित करेगा कि कैसे डेटासेट खोज का उपयोग किया जाता है। हालांकि मेटाडेटा टैग जो कंपनी अपने खोज क्रॉलर के लिए डेटासेट को दृश्यमान बनाने के लिए उपयोग कर रही है, एक खुला मानक है (जिसका अर्थ है कि कोई भी प्रतियोगी, जैसे बिंग या यांडेक्स, अपनी प्रतिस्पर्धी सेवा बनाने के लिए उनका उपयोग कर सकता है), खोज इंजन सबसे तेजी से सुधार करते हैं जब एक महत्वपूर्ण वे क्या कर रहे हैं, इस पर डेटा प्रदान करने के लिए उपयोगकर्ताओं की भीड़ है।
टेनिसन कहते हैं, बस यह समझना महत्वपूर्ण है कि लोग कैसे खोजते हैं... वे किस तरह के शब्दों का इस्तेमाल करते हैं, उन्हें कैसे व्यक्त करते हैं। अगर हम इस बात से परिचित होना चाहते हैं कि लोग कैसे डेटा की खोज करते हैं और इसे और अधिक सुलभ बनाते हैं, तो यह बहुत अच्छा होगा यदि Google ने इसे खोल दियाअपनाइस पर डेटा।
दूसरे शब्दों में: Google को डेटासेट खोज के बारे में डेटासेट प्रकाशित करना चाहिए जिसे डेटासेट खोज द्वारा अनुक्रमित किया जाएगा। क्या अधिक उपयुक्त हो सकता है?