Tuesday 12 December 2017

स्टेटटा फॉरेक्स में 3 डेटासेट मर्ज करें


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि उन्हें अब बनाए रखा नहीं जाएगा हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है स्टेट कंसल्टिंग ग्रुप को उपहार देने के लिए एक स्टेटा लर्निंग मॉड्यूल जो डेटा का मेल देकर सहायता करता है इस मॉड्यूल में स्पष्ट होगा कि आप स्टाटा में फाइल कैसे जोड़ सकते हैं। उदाहरणों में एन्डिंग फाइलें, एक से एक मैच मर्जिंग और एक से कई मैच विलय शामिल होंगे। डेटा फ़ाइलों को जोड़ना जब आपके पास दो डेटा फ़ाइलें हैं, तो आप उन्हें दूसरे के ऊपर एक स्टैकिंग करके जोड़ सकते हैं। उदाहरण के लिए, हमारे पास एक फ़ाइल है जिसमें dads और एक फ़ाइल है जिसमें माताओं को नीचे दिखाए गए हैं। अगर हम इन फ़ाइलों को दूसरे के ऊपर एक को ढेर करके जोड़ना चाहते हैं, तो हम नीचे दिखाए गए अनुसार ऐपेंड कमांड का उपयोग कर सकते हैं। हम सूची आदेश का उपयोग यह देखने के लिए कर सकते हैं कि क्या यह सही ढंग से काम करता है। अनुलग्नक ने ठीक से काम किया एक फाइल में डैड्स और माताओं को एक साथ स्टैक किया जाता है लेकिन, एक छोटी सी समस्या है। हम माताओं से डैड्स को बता सकते हैं। इसे फिर से करने का प्रयास करें, लेकिन पहले हम dads और माताओं डेटा फ़ाइल में एक मोरदाद नामक एक चर पैदा करेंगे जिसमें डैड्स डेटा फ़ाइल के लिए पिता और माताओं डेटा फ़ाइल के लिए माँ शामिल होंगे। जब हम दो फाइलें एक साथ मिलते हैं, तो मोनेडाड चर हमें बताएगा कि माताओं और डैड्स कौन हैं यहाँ हम dads डेटा फ़ाइल के लिए momdad चर बनाते हैं। हम इसे फाइल dads1 को बुलाते हैं। यहां हम माताओं डेटा फ़ाइल के लिए मोनेडाड वैरिएबल बनाते हैं। हम इसे माताओं 1 फोन करने वाले फाइल को सहेजते हैं। अब, dads1 और moms1 को एक साथ जोड़ दें। अब, जब हम डेटा को सूचीबद्ध करते हैं तो मोनेडाड वैरिएबल दिखाता है कि माताओं और डैड्स कौन हैं मिलान मर्जिंग डेटा फ़ाइलों को संयोजन करने का एक और तरीका मिलान विलय है। कहते हैं कि हम डैड्स को अफ़िफ़िक डेटा फाइल के साथ जोड़ना चाहते थे, जिसमें डैड्स की जानकारी होती है और परिवार की जानकारी के पक्ष में भी। हम ऐसा मैच मर्ज के साथ कर सकते हैं। चलो dads और faminc फ़ाइल पर एक नज़र है। हम डेटा फ़ाइलों को जोड़ना चाहते हैं, ताकि वे इस तरह दिख सकें। ध्यान दें कि famid चर का उपयोग dads फ़ाइल से अवलोकन को अजनक फ़ाइल से उपयुक्त अवलोकन के साथ जोड़ने के लिए किया जाता है। फाइलों को मर्ज करने की रणनीति इस तरह से होती है 1. फैमिड पर सॉर्ट डैड्स और उस फाइल को बचाएं (इसे डैड 2 कहते हैं) 2. famid पर तरह से दुष्चक्र और उस फ़ाइल को बचाने (इसे faminc2 फोन) 3. dads2 फ़ाइल का उपयोग करें। 4. famids2 फाइल के साथ dads2 फाइल को मर्ज करें, ताकि उन्हें मैच के लिए फैमिड का इस्तेमाल किया जा सके। ये चार चरण हैं 1. डैड फ़ाइल को famid द्वारा सॉर्ट करें और उसे डैड 2 के रूप में सहेजें। 2. famid द्वारा faminc फ़ाइल को क्रमबद्ध करें और इसे faminc2 के रूप में सहेजें। 3. dads2 फ़ाइल का उपयोग करें 4. Faminc2 फ़ाइल को famid का उपयोग करके प्रमुख चर के रूप में मर्ज करें। ऐसा लगता है कि यह ठीक काम किया है, लेकिन वह क्या है जो मर्ज वैरिएबल है, मर्ज वैरिएबल इंगित करता है, प्रत्येक अवलोकन के लिए, मर्ज कैसे चला गया। यह बेमेल रिकॉर्डों की पहचान करने के लिए उपयोगी है। मर्ज में तीन मानों में से एक हो सकता है 1 - रिकॉर्ड में फ़ाइल 1 से केवल जानकारी है (जैसे कोई डेड 2 रिकार्ड कोई संबंधित faminc2 रिकार्ड नहीं है। 2 - रिकॉर्ड में फ़ाइल 2 से केवल जानकारी होती है (जैसे कोई संबंधित dad2 रिकॉर्ड के साथ faminc2 रिकॉर्ड। रिकॉर्ड में दोनों फाइलों की जानकारी शामिल होती है (जैसे कि dad2 और faminc2 रिकॉर्ड मिलान होते हैं).जब आपके पास कई रिकॉर्ड हैं, तो मर्ज होने पर आप कितने बेमेल हैं, इसका संक्षेप में सारणीकरण करना बहुत उपयोगी है। हमारे मामले में, सभी रिकॉर्ड मिलते हैं ताकि मर्ज हो सके हमेशा होता था 3. एक-से-कई मिलान विलय एक अन्य प्रकार की मर्ज को एक को कई मर्ज में बुलाया जाता है। हमारे एक से एक को मर्ज मिल गया है, जो कि dads और faminc से मिलते हैं और फाइलों में एक से मेल खाता है। बच्चों के लिए प्रतिदिन कई बच्चे हो सकते हैं, इसलिए यह कई लोगों में से एक है। जैसा कि आप नीचे देख रहे हैं, एक के लिए एक के लिए रणनीति कई विलय वास्तव में एक के रूप में एक ही विलय के समान है। उस फ़ाइल को dads3 के रूप में सहेजना 2. 2। बच्चों को फैमिली पर रखें और इसे बचाएं बच्चों 3 के रूप में फ़ाइल 3. dads3 फ़ाइल का उपयोग करें 4. बच्चों के साथ dads3 फ़ाइल को मर्ज करें, उनके साथ मैच करने के लिए famid का उपयोग कर फ़ाइल 3। 4 कदम नीचे दिखाए गए हैं 1. famids पर dads डेटा फ़ाइल सॉर्ट करें और उस फाइल को dads3 के रूप में सहेजें। 2. बच्चों के डेटा फाइल को famid पर सॉर्ट करें और उस फाइल को बच्चों के रूप में सहेजें 3। 3. dads3 फ़ाइल का उपयोग करें। 4. बच्चों की 3 फाइलों के साथ dads3 फाइल को मर्ज करें, ताकि उन्हें मैच के लिए फैमिड़ का इस्तेमाल किया जा सके। परिणामों को सूची से बाहर करने देता है परिणाम पढ़ना थोड़ा आसान है अगर हम अकड़ और जन्म के आंकड़ों को सॉर्ट करते हैं। जैसा कि आप देख रहे हैं, यह मूल रूप से एक के रूप में एक ही मर्ज है। आपको आश्चर्य हो सकता है कि मर्ज स्टेटमेंट पर मौजूद फाइलों का क्रम प्रासंगिक है या नहीं। यहां, हम फाइलों के ऑर्डर को बदलते हैं और परिणाम समान होते हैं। एकमात्र अंतर विलय के बाद के रिकॉर्डों का क्रम है। डेटा उदाहरण जोड़ना मिलान मर्ज उदाहरण चरण (एक-से-एक और एक-से-कई) मिलान मर्ज उदाहरण प्रोग्राम इस वेब साइट की सामग्री को किसी भी विशेष वेब साइट, पुस्तक या सॉफ़्टवेयर उत्पाद के समर्थन के रूप में नहीं समझा जाना चाहिए कैलिफोर्निया विश्वविद्यालय। शोधकर्ताओं के लिए स्थिति: डेटा सेट का संयोजन यह शोधकर्ताओं की श्रृंखला के लिए आठ भाग का हिस्सा है। इस श्रृंखला में शामिल विषयों की सूची के लिए, परिचय देखें। यदि आप स्ताट में नए हैं तो हम लेखों को क्रमशः पढ़ने की सलाह देते हैं। दो डेटा सेटों का मेल करना एक सामान्य डेटा प्रबंधन कार्य है, और एक ऐसा करने के लिए बहुत आसान है। हालांकि, यह भी गलत पाने के लिए बहुत आसान है। डेटा सेटों के संयोजन से पहले सुनिश्चित करें कि आप दोनों डेटा सेटों की संरचना और उनके संयोजन के तरीके के तर्क समझते हैं। अन्यथा आप एक डेटा सेट के साथ समाप्त कर सकते हैं जिसे आप सोचते हैं कि विश्लेषण के लिए तैयार है, लेकिन वास्तव में बिल्कुल बकवास है। स्ताटा यह सुनिश्चित करने की कोशिश करता है कि आप क्या कर रहे हैं, लेकिन क्या आपको यह बताए नहीं कि क्या समझ में आता है और क्या नहीं। स्टेटा हमेशा एक समय में एक डेटा सेट के साथ काम करता है, इसलिए आप डिस्क पर सेट अन्य डेटा सेट के साथ मेमोरी (मास्टर डेटा सेट) में हमेशा से डेटा सेट जोड़ते रहेंगे (जिसे डेटा सेट का उपयोग कर कहा जाता है, ऐसे कारणों से जो स्पष्ट हो जाएगा जब आप देखेंगे वाक्यविन्यास) डेटा सेट जोड़ना स्टाता यह कहता है कि जब आप डेटा सेट का उपयोग करके मास्टर डेटा सेट पर अवलोकन जोड़ते हैं जोड़ना समझ में आता है जब दोनों डेटा सेटों में अवलोकन समान प्रकार का प्रतिनिधित्व करता है, लेकिन वही बातें नहीं उदाहरण के लिए, आप विस्कॉन्सिन के लोगों के एक डेटा सेट को इलिनॉय के लोगों के डेटा सेट में जोड़ सकते हैं। डेटा सेटों में समान नामों वाले समान या अधिकतर समान चर होना चाहिए। यदि एक वेरिएबल केवल एक डेटा सेट में प्रकट होता है, तो अन्य डेटा सेट के निरीक्षणों को उस वेरिएबल के लिए लापता मान दिया जाएगा। सिंटैक्स एक एपेंड सरल करना है: मुख्य डेटा सेट को लोड करें और फिर टाइप करें: डेटासेट का उपयोग करें जहां डेटासेट उस डेटा का नाम है जिसे आप जोड़ना चाहते हैं मर्जिंग डेटा सेट्स स्टाता को यह मर्ज करने पर कहता है जब दो डेटा सेटों से प्राप्त टिप्पणियां संयुक्त हो जाती हैं। सिद्धांत में, चार प्रकार की विलय: एक-से-एक मर्ज में, मास्टर डेटा सेट से एक अवलोकन डेटा सेट का उपयोग करने से एक अवलोकन के साथ मिलाया जाता है। एक-टू-वन मर्ज तब समझ में आता है जब दोनों डेटा सेटों में टिप्पणियां एक ही चीजों का वर्णन करती हैं, लेकिन उनके बारे में अलग-अलग जानकारी होती है। उदाहरण के लिए, आप उन लोगों के जवाबों को विलय कर सकते हैं जो सर्वेक्षण में से किसी एक सर्वेक्षण में दिए गए उत्तरार्द्ध समान लोगों ने लहर में दो सर्वेक्षण में शामिल किया था। एक-से-कई या कई-से-एक मर्ज में, एक डेटा सेट से एक अवलोकन दूसरे से कई टिप्पणियों के साथ मिलाया जाता है (एक-से-कई और कई-से-एक के बीच का अंतर, चाहे मास्टर डेटा सेट हो quotnanyquot या डेटा सेट का उपयोग कर रहा है)। जब आपके पास क्रमबद्ध डेटा होता है तो ये विलीन हो जाता है, और एक डेटा सेट में स्तर के एक यूनिट के बारे में जानकारी होती है जबकि अन्य में दो स्तरों के स्तर के बारे में जानकारी होती है उदाहरण के लिए, आप उन घरों के बारे में जानकारी के साथ परिवारों के बारे में जानकारी मर्ज कर सकते हैं, जो उन घरों में रहते हैं सिद्धांत रूप में कई-से-कई विलय भी होते हैं अभ्यास में वे शायद ही कभी अगर कभी उपयोगी होते हैं यदि आप खुद को कई-से-कई मर्ज करने की इच्छा रखते हैं, तो आपको फिर से सोचना चाहिए कि आप क्या कर रहे हैं अक्सर आपको क्या करने की ज़रूरत है, डुप्लिकेट आइडेंटिफ़ार्स की पहचान और सही है, और फिर आपका मर्ज एक-से-एक या एक-से-कई के रूप में काम करेगा सभी विलयों में अच्छी तरह से चर्चा करते हुए, स्टेटा उन टिप्पणियों को जोड़ती है जिनके पास एक कुंजी वैरिएबल का समान मूल्य होता है, आमतौर पर एक आईडी। आप कई चर के आधार पर भी मिलान कर सकते हैं (जैसे एक ही स्थिति और वर्ष के लिए डेटा गठबंधन)। एक-से-कई या बहुत-से-एक मर्ज में, यह दो पहलुओं के लिए पहचानकर्ता होता है जो कि प्रमुख चर (उदाहरण के लिए घरेलू आईडी, व्यक्तिगत आईडी नहीं) है। इसकी बहुत महत्वपूर्ण है कि कुंजी वैरिएबल दोनों डेटा सेटों में एक ही प्रारूप है। यदि एक डेटा सेट में एक अवलोकन दूसरे में एक अवलोकन के साथ मेल नहीं खाता है, तो अन्य डेटा सेट से वेरिएबल के लिए लापता मूल्य मिलेगा। चूंकि एक शोध परियोजना की व्यवहार्यता अक्सर कितनी टिप्पणियों पर आधारित हो जाती है (उदाहरण के तौर पर लहर में से कितने लोग तरंगों में से एक लहर में पाए जा सकते हैं) स्ताता आपको यह पता लगाने के लिए टूल प्रदान करता है कि कितने टिप्पणियां वास्तव में विलय और उन की जांच के लिए फ्लॉप। यदि कोई डेटा चर में दोनों में मौजूद है, तो मास्टर डेटा सेट से मान रखा जाएगा और डेटा सेट का उपयोग करने से मान निकाल दिया जाएगा। कभी-कभी यह वही होता है जो आप चाहते हैं, लेकिन इसकी एक त्रुटि होने की अधिक संभावना है। सामान्य तौर पर आपको अपने डेटा को सेट करना चाहिए जैसे कि केवल वेरिएबल जो फ़ाइलों को विलय की जाएंगी वे समान हैं, मुख्य वैरिएबल हैं एक मर्ज के लिए वाक्यविन्यास है: डेटासेट का उपयोग कर मर्ज प्रकार कीवार्स टाइप 1: 1 (एक-टू-एक), 1: m (एक-से कई), मी: 1 (बहुत-से-एक) या मी होना चाहिए: मी (बहुत से कई) कीवर्ड्स कुंजी वैरिएबल या वेरिएबल्स हैं और डाटासेट वह डेटा है जिसका आप मर्ज करना चाहते हैं। डेटा समूह के संयोजन का उदाहरण उदाहरणों में 2007 से काल्पनिक छात्र की जानकारी वाली कई फाइलें शामिल हैं। स्कोरसैट डीटीए में एक मानक परीक्षण पर छात्रों के स्कोर शामिल हैं, जनसांख्यिकीय डेटा में उनके बारे में जनसांख्यिकीय जानकारी है, और teachers. dta में उनके शिक्षकों के बारे में जानकारी है। प्रत्येक फ़ाइल को देखने के लिए कुछ समय निकालें, फिर एक ऐसा फ़ाइल शुरू करें जो स्कोर को लोड करता है। इस डेटा सेट में, प्रत्येक अवलोकन एक छात्र का प्रतिनिधित्व करता है ब्राउज़ करें और आप देखेंगे कि आपके पास छात्र आईडी (आईडी), एक शिक्षक आईडी (शिक्षक) और प्रत्येक के लिए एक अंक है आपका पहला काम जनसांख्यिकीय जानकारी में जोड़ना है जनसांख्यिकीय में प्रत्येक अवलोकन एक छात्र का प्रतिनिधित्व करता है, चर के साथ आईडी और जाति है इस प्रकार यह एक-से-एक मर्ज के लिए एक नौकरी है और कुंजी वैरिएबल आईडी है। 1: 1 आईडी को मर्ज करें जनसांख्यिकीय स्ताटा का उपयोग करके रिपोर्ट किया जाएगा कि सभी 60 अवलोकन मिलान होंगे। यह एक वैरिएबल भी बनायेगा जिसे मर्ज कहते हैं। मर्ज में से एक का अर्थ है कि केवल मास्टर डेटा से आया अवलोकन केवल दो सेटों का मतलब है कि यह केवल डेटा सेट का उपयोग करने से आया है और तीनों का अर्थ है कि एक अवलोकन सफलतापूर्वक मिलान किया गया और इस प्रकार दोनों से आया। इस मामले में हम देखते हैं कि सभी अवलोकन मिलान होते हैं और इस तरह तीन के बराबर मर्ज होते हैं, इसलिए वेरिएबल को रखने की आवश्यकता नहीं होती है। वास्तव में हमें आगे विलय करने से पहले उसे (या नाम बदलने) छोड़ने की आवश्यकता है: अगला शिक्षकों के बारे में जानकारी जोड़ें शिक्षकों में प्रत्येक अवलोकन एक शिक्षक का प्रतिनिधित्व करता है, और प्रत्येक शिक्षक के पास कई छात्र हैं। इससे यह कई-से-एक मर्ज हो जाता है (चूंकि कई छात्र वर्तमान में स्मृति में हैं और एक शिक्षक डेटा सेट का उपयोग कर रहा है)। कुंजी चर आईडी नहीं है चूंकि यह छात्रों को संदर्भित करता है, लेकिन शिक्षक: म्यूज़िक एम: 1 शिक्षक शिक्षकों का इस्तेमाल करते हैं, फिर सभी 60 टिप्पणियां ठीक से मिलती हैं, इसलिए आप मर्ज को छोड़ सकते हैं। पैनल डेटा का संयोजन अब मान लीजिए कि आप इन छात्रों को कई सालों तक ट्रैक कर रहे थे। डेटा सेट पैनल2007.dta में इस डेटा सेट का एक सरलीकृत संस्करण है: सिर्फ आईडी और स्कोर डेटा सेट पैनल 2008.dta के पास एक अलग वर्ष के लिए एक ही चर है। आप उन्हें कैसे जोड़ सकते हैं उन्हें गठबंधन करने का सही तरीका यह है कि आप किस डेटा संरचना को चाहते हैं यह पदानुक्रमित डेटा है जहां स्तर दो यूनिट एक छात्र है और स्तर एक इकाई एक विशेष वर्ष के लिए एक छात्र डेटा है। इस प्रकार यह व्यापक रूप में प्रतिनिधित्व किया जा सकता है (प्रति विद्यार्थी एक अवलोकन), या लंबे समय में (एक छात्र प्रति वर्ष एक अवलोकन) डेटा को लंबे समय के रूप में रखने के लिए बस एन्डेड का उपयोग करके दो डेटा सेटों को ढेर कर दें। हालांकि, आपको यह जानना होगा कि प्रत्येक अवलोकन किस वर्ष का प्रतिनिधित्व करता है। ऐसा करने के लिए, 2007 डेटा के लिए मान 2007 और 2008 डेटा के लिए 2008 के मूल्य के साथ डेटा सेट दोनों में एक वर्ष के वैरिएबल को जोड़ें। आप ऐसा कर सकते हैं निम्न फ़ाइल के साथ: सभी सेट और अधिक बंद कब्जा लॉग बंद लॉग को combine1.log का उपयोग कर, पैनल 20077 का प्रयोग बदलें प्रति वर्ष 20072007 पैनल का उपयोग करें पैनल 2007 2007 का उपयोग करें पैनल 2008 जनरल वर्ष 2008 का प्रयोग करें पैनल 20077 का इस्तेमाल करते हुए संलग्न करेंडेडडेड को बचाने के लिए, स्थान को व्यापक रूप में डालने के लिए, मुख्य चर के रूप में आईडी से एक-टू-वन विलय करें लेकिन पहले आपको चर नाम बदलने की जरूरत है। याद रखें कि व्यापक रूप में, वे चर नाम हैं जो आपको बताते हैं कि किस एक इकाई के बारे में आप बात कर रहे हैं इसलिए स्कोर के बजाय आपको स्कोर 2007 और स्कोर 2008 की आवश्यकता है। गठबंधन 2.log का प्रयोग करके सभी लॉग ऑन लॉग को बंद करें, पैनल का उपयोग करें, बदलें 20072007 मेजर का प्रयोग करें पैनल का उपयोग करें पैनल 2007 का उपयोग बदलें पैनल 2008 का नाम बदलें स्कोर स्कोर 02008 विलय 1: 1 आईडी का प्रयोग करके पैनल 20077 मिर्जेंट मर्ज किए गएडेटा, प्रतिस्थापित करें इस बार आप देखेंगे कि एक अवलोकन मेल नहीं खाता है। आप टाइप करके एक को देख सकते हैं: छात्र संख्या 55 पैनल 2008 में नहीं था और इस तरह मिलान नहीं किया जा सका। नतीजतन, हमें पता नहीं है कि 2008 में उनका क्या परीक्षण था। दुर्भाग्यवश यह बहुत आम है 8212 छात्र स्कूल के जिलों में हर समय परीक्षण के बीच बाहर निकलते हैं। यदि आपका संपूर्ण शोध एजेंडा दोनों परीक्षण स्कोरों पर निर्भर करता है, तो आपको उन टिप्पणियों को छोड़ना पड़ सकता है जो डेटा सेट दोनों में मौजूद नहीं हैं। आप जोड़कर इस बिंदु पर ऐसा कर सकते हैं: drop if merge3 आप यह भी निर्दिष्ट कर सकते हैं कि मर्ज कमांड में कौन सी टिप्पणियों को सीधे रखा जाना चाहिए: 1: 1 आईडी को पैनल 2007 मेर्ज के उपयोग से मर्ज करें, रखो (मैच) रखो (मैच) का मतलब केवल अवलोकन को रखना है जो मैच । विकल्प मास्टर और उपयोग कर रहे हैं। और आप एक से अधिक सूची कर सकते हैं उदाहरण के लिए, उन निष्कर्षों को बनाए रखने के लिए जो मैच और प्रेक्षण हैं जो केवल गुरु डेटा सेट से ही आते हैं, जबकि टिप्पणियों को दूर करते हुए केवल डेटा सेट का उपयोग करते हुए आते हैं, तो आप कहते हैं कि (मास्टर मैच) रखें। मर्ज विलीन के साथ सामान्य समस्याएं आपके डेटा सेट के साथ सभी प्रकार की समस्याओं को उजागर करती हैं (और यदि वे तय नहीं होती हैं तो विलय हो जाएगा तो वे नए होंगे) यहां दो आम हैं और उन्हें कैसे तय किया जाए: अलग-अलग प्रारूपों में संग्रहित कुंजी वैरिएट, जबकि स्ताट खुशी से विभिन्न प्रकार की संख्याओं से मेल खाती है (उदाहरण के लिए इनट्स और फ्लोट्स, उदाहरण के लिए) यह संख्याओं और तारों को नहीं मिल सकता है आईडी को या तो के रूप में संग्रहीत किया जा सकता है (जब तक आप एक संख्यात्मक प्रकार का चयन करते हैं जिसमें पर्याप्त परिशुद्धता 8212see डेटा के साथ कार्य करना है) और यह आपके असामान्य नहीं है कि आपका डेटा सेट आईडी अलग-अलग तरीके से सेट करता है उस स्थिति में, संख्याओं को स्ट्रिंग्स में परिवर्तित करने के लिए आमतौर पर सबसे अच्छा होता है: जीन आईडीस्ट्रिंगस्ट्राइंडिंग (आईडी) ड्रॉप आईडी का नाम बदलना आईडीस्ट्रिंग आईडी स्ट्रिंग () फ़ंक्शन संख्या लेता है और उसे स्ट्रिंग में कनवर्ट करता है। आप इसे दूसरी तर्क दे सकते हैं जिसमें प्रारूप है जिसमें संख्या को उद्धृत किया जाना चाहिए यदि आवश्यक हो डुप्लीकेट आईडी यदि आप एक मर्ज करने की कोशिश करते हैं और आपको एक त्रुटि संदेश मिलता है जैसे कि उद्धारशील आईडी मास्टर डेटाक्वाट में अनन्य रूप से पहचान नहीं करता है तो इसका मतलब है कि आपके पास उल्लिखित डेटा सेट में डुप्लिकेट आईडी हैं इससे पहले कि आप आगे बढ़ें, इस समस्या को हल करने की आवश्यकता है बस प्रासंगिक डेटा सेट के लिए विलय के प्रकार को मर्ज करने के लिए मत बदलो, त्रुटि संदेश को दूर करने के लिए उम्मीद कर रहा हूं। 8212 परिणामस्वरूप डेटा सेट प्रभावित अवलोकन के लिए अर्थ नहीं देगा। एक अनुपयुक्त चर प्रकार में आईडी सहेजने के कारण डुप्लिकेट का एक संभावित स्रोत राउंड-ऑफ त्रुटि है। इस मामले में आपको मूल डेटा पर वापस जाना और यह सुनिश्चित करना होगा कि आइडेंटिफ़ायर एक प्रकार के रूप में संग्रहीत किए जाते हैं, जो उन्हें लंबे समय से, डबल या स्ट्रिंग की तरह घूमते हैं। ध्यान दें कि मर्ज के उद्देश्यों के लिए, लापता मूल्यों को किसी अन्य मूल्य की तरह व्यवहार किया जाता है। यदि आपके पास अनुपस्थित आईडी के साथ टिप्पणियां हैं, तो उन्हें डुप्लिकेट के रूप में गिना जाएगा। आपको शायद विलय करने से पहले उन्हें छोड़ना होगा। लेकिन अधिकांश समय में डुप्लिकेट आईडी डेटा में त्रुटियों का परिणाम है। इससे पहले कि आप अपने मर्ज कर सकें, आपको उनसे कुछ करने की ज़रूरत है एक ऐसा फ़ाइल प्रारंभ करें जो डेटा सेट मर्जरर लोड करता है। इस डेटा सेट में छात्र शामिल हैं, लेकिन उनमें से कुछ में डुप्लिकेट आईडी हैं जिन्हें तय करने की आवश्यकता है। आप डुप्लिकेट रिपोर्ट के साथ आपके पास कितनी समस्याएं देख सकते हैं: डुप्लिकेट रिपोर्ट आईडी यह आपको बताती है कि कितने अवलोकनों के आईडी का समान मूल्य है आउटपुट आपको बताता है कि कोई आईडी दो बार से अधिक नहीं दिखाई देती है, लेकिन बारह अवलोकनों में डुप्लिकेट आईडी हैं। आगे की परीक्षा के लिए, एक वेरिएबल बनाएँ जो आपको बताता है कि प्रत्येक आईडी कितनी प्रतियां है: bystort id: gen copiesN फिर आप बस के साथ समस्या की टिप्पणियों को देख सकते हैं: ब्राउज़ करें यदि copiesgt1 9 के बराबर आईडी के साथ टिप्पणियों के लिए, 26, और 33, एक ही आईडी के साथ दो टिप्पणियां समान हैं। इससे पता चलता है कि एक ही छात्र दो बार दर्ज किया गया था और आप केवल अतिरिक्त टिप्पणियों को छोड़कर समस्या को ठीक कर सकते हैं। इसके साथ ऐसा करें: ध्यान दें कि डुप्लिकेट रिपोर्ट कमांड के विपरीत जो आपने पहले चला था, इस कमांड में varlist नहीं है इसका मतलब है कि यह केवल डुप्लिकेट अवलोकनों को छोड़ देता है यदि उनके पास सभी चर के लिए समान मूल्य है, न कि केवल आईडी। आप इसे एक varlist दे सकते हैं, इसलिए यह अवलोकन को छोड़ देता है अगर केवल उन चर का मूल्य समान है, लेकिन ऐसा करने से बहुत सावधान रहें जटिल समस्याओं में इस बिंदु पर आप पहले से बनाए गए प्रतियों के चर को ड्रॉप करना चाहते हैं और फिर इसे फिर से ब्राउज़ कर सकते हैं यदि copiesgt1 अब आपके द्वारा पहले से तय की गई टिप्पणियों को नहीं दिखाएगा, लेकिन इस डेटा सेट में इसकी कोई आवश्यकता नहीं है। 64, 74 और 94 के बराबर आईडी के साथ टिप्पणियों के लिए, अन्य वैरिएबल दिखाते हैं कि एक ही आईडी के साथ टिप्पणियां एक ही व्यक्ति नहीं हैं। यह विलय करने के लिए एक बड़ी समस्या है: आप यह सुनिश्चित नहीं कर सकते हैं कि इस आंकड़े सेट में 64 quot जो कि अनुमानित अन्य डेटा सेट में quotstudent 64quot के साथ चला जाता है। अधिक चर जोड़ने से मदद मिल सकती है उदाहरण के लिए, इस मामले में, आईडी और नस्ल दोनों में विलय करने से आपको दो विषयों से सही ढंग से मिलान करने की अनुमति मिलेगी, जिसमें आईडी बराबर 94 है। आईडी से विलय दौड़। और ग्रेड आपको आईडी के बराबर 74 के बराबर विषयों से मेल खाने की अनुमति देगा। बस यह ध्यान रखें कि यदि आप इस डेटा के साथ मर्ज करना चाहते हैं तो अगले साल के स्कूल के लिए, जैसा कि हमारे पिछले उदाहरण में है, ग्रेड चर प्रथम यदि आप इस मार्ग पर जाने के लिए चुनते हैं, तो प्रतियां वेरिएबल को पूर्ण चर के सेट का उपयोग करके उपसर्ग द्वारा मिलान करने की योजना बनाएं और देखें कि कितने डुप्लिकेट छोड़ दिए गए हैं 64 के बराबर आईडी के साथ दो टिप्पणियों के साथ कुछ भी मदद नहीं करेगा, और एक बड़े डेटा में यह निर्धारित किया गया है कि कुछ अधिक चर से मिलान करने से आप विषयों की विशिष्ट पहचान कर सकते हैं। ऐसे मामलों में आपको उन सभी टिप्पणियों को छोड़ने की ज़रूरत होती है जिन्हें आप विशिष्ट रूप से पहचान नहीं सकते हैं, क्योंकि आप आसानी से किसी भी उनसे मेल नहीं निकाल सकते हैं। आप इसके साथ ऐसा कर सकते हैं: ड्रॉप यदि copiesgt1 विस्तृत रूप में डेटा सेट को गठबंधन करने का एक वैकल्पिक तरीका पहले उन्हें जोड़ना है और फिर फिर से नयी आकृति प्रदान करना है। इस पद्धति का उपयोग करते हुए पैनल 2007 और पैनल 2008 को व्यापक रूप में मिलाएं। (समाधान) यदि आप दो साल के डेटा को एन्डेड का उपयोग करते हुए लंबे रूप में जोड़ते हैं। आप जिस अवलोकन को 2008 में देख सकते हैं (समाधान) गठबंधन त्रुटि2007.dta और error2008.dta विस्तृत रूप में इसे विलय करके आप जो भी समस्याएं पा सकते हैं उसे फिक्स कर सकते हैं। फिर दो डेटा सेट जोड़ दें और उसी समस्याओं का पता लगाने का प्रयास करें। (समाधान) अंतिम संशोधित: 12292015

No comments:

Post a Comment