रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है
यह कोई आश्चर्य की बात नहीं है कि Reddit के उपयोगकर्ता-जनित डेटा का बहुत अधिक मूल्य है, इतना अधिक कि Google और OpenAI इसका उपयोग अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए करते हैं।
लेकिन बिना पसीना बहाए और अपना बैंक खोए Reddit को कैसे खंगाला जाए और उसका मूल्य बढ़ाया जाए?
चाहे आप एक अनुभवी कोडर हों या कोई ऐसा व्यक्ति जो प्रोग्रामिंग की जटिल दुनिया को नहीं जानता, आपके लिए एक विशेष तरीका तैयार किया गया है।
इस ब्लॉग में, आप सीखेंगे कि दो आसान तरीकों का उपयोग करके Reddit को कैसे स्क्रैप करें और Reddit द्वारा दी जाने वाली जानकारी का खजाना कैसे प्राप्त करें।
लेकिन Reddit को स्क्रैप करने के तरीके की बारीकियों में जाने से पहले, आइए Reddit को स्क्रैप करने के विभिन्न तरीकों पर एक त्वरित नज़र डालें।
Reddit को स्क्रैप करने के विभिन्न तरीके
लोग Reddit को कई तरीकों से खंगालते हैं। इन तरीकों में से प्रत्येक के अपने फायदे और नुकसान हैं।
उनमें से कुछ पार्क में टहलने जितना आसान हैं, जिनके लिए किसी तकनीकी कौशल की आवश्यकता नहीं है, जबकि अन्य कठिन हैं और मध्यम से उच्च प्रोग्रामिंग जानकारी की आवश्यकता है।
आइए आपको Reddit से डेटा स्क्रैप करने के प्रत्येक तरीके से संक्षेप में परिचित कराते हैं।
Reddit को मैन्युअल रूप से स्क्रैप करना
यह Reddit या किसी अन्य प्लेटफ़ॉर्म को स्क्रैप करने का संभवतः सबसे आसान और सबसे सीधा तरीका है। इसके लिए किसी प्रकार की विशेषज्ञता की आवश्यकता नहीं है, बस डेटा को कॉपी करके स्प्रेडशीट में पेस्ट करने की क्षमता की आवश्यकता है।
फ़ोटो और प्रोफ़ाइल चित्र जैसे मीडिया को प्लेटफ़ॉर्म से आसानी से डाउनलोड किया जा सकता है, जबकि वीडियो को तृतीय-पक्ष वीडियो डाउनलोडिंग वेबसाइटों का उपयोग करके निकाला जा सकता है।
इसके अलावा, आप प्रत्येक डेटा बिंदु की जांच कर पाएंगे और यह सुनिश्चित कर पाएंगे कि केवल सही और प्रासंगिक डेटा ही स्प्रेडशीट में शामिल हो।
हालाँकि, चूँकि पूरी प्रक्रिया मैन्युअल है, इसलिए यदि आपकी आवश्यकताएँ बड़ी हैं, तो इसमें आपका काफ़ी समय लगेगा। इसके अलावा, मैन्युअल Reddit स्क्रैपिंग से मानवीय त्रुटियों की संभावना भी बढ़ जाती है।
Reddit को उसके API का उपयोग करके स्क्रैप करें
Reddit डेवलपर्स को Reddit प्लेटफ़ॉर्म पर ऐप्स और अन्य उत्पाद बनाने की सुविधा देने के लिए अपना API प्रदान करता है। आप आप Reddit से डेटा स्क्रैप करने के लिए भी इस API का उपयोग कर सकते हैं। लेकिन ऐसा करने के लिए, आपके पास मध्यम कोडिंग कौशल होना चाहिए।
फिर Reddit द्वारा अन्य प्रतिबंधात्मक नियम निर्धारित किए गए हैं जिनका आपको API का उपयोग करने के लिए पालन करना होगा। उसके ऊपर, उसके बाद2023 Reddit विवाद, API एक शुल्क के साथ आता है और केवल मॉडरेशन टूल डेवलपर्स या शैक्षणिक उद्देश्यों के लिए मुफ़्त रहता है।
कस्टम Reddit स्क्रैपर बनाएँ
आपका अगला विकल्प स्क्रैच से कस्टम Reddit स्क्रैपर बनाकर API के बिना Reddit को स्क्रैप करना है। यह यह विधि कठिन है क्योंकि इसके लिए उन्नत प्रोग्रामिंग कौशल की आवश्यकता होती है, लेकिन यदि आप इसे करने में सफल हो जाते हैं तो यह अत्यधिक आशाजनक है।
यह विधि आपको स्क्रैपर को किसी भी प्रकार के डेटा को निकालने के लिए अनुकूलित करने देती है जो अन्य तैयार स्क्रैपर्स नहीं कर सकते हैं निकालने में सक्षम नहीं हो सकते। इसके अलावा, आप अपनी आवश्यकताओं के अनुसार स्क्रैपिंग कार्यों को बढ़ाने के लिए स्क्रिप्ट लिख सकते हैं।
हालाँकि, एक कस्टम Reddit स्क्रैपर विकसित करना कोई आसान काम नहीं है और यह लागत-गहन और समय लेने वाला है।
नो-कोड रेडिट स्क्रैपर का उपयोग करें
क्या आपके पास कोडिंग पृष्ठभूमि नहीं है? कोई बड़ी बात नहीं। ऐसे ढेरों क्लिक और स्क्रैप टूल हैं जिनके लिए किसी प्रोग्रामिंग की आवश्यकता नहीं होती।
ये उपकरण उपयोगकर्ता के अनुकूल सॉफ़्टवेयर या ब्राउज़र एक्सटेंशन के रूप में आते हैं और आपको केवल कुछ माउस क्लिक के बाद कुछ ही मिनटों में Reddit से डेटा स्क्रैप करने देते हैं।
असली अच्छी बात यह है कि इनमें से ज़्यादातर टूल्स में एक मुफ़्त प्लान होता है जो अक्सर ज़्यादातर उपयोगकर्ताओं के लिए काफ़ी होता है।
Reddit से कोड और बिना कोड का उपयोग करके डेटा कैसे स्क्रैप करें?
अब, बिना किसी और देरी के, चलिए काम पर आते हैं और जानते हैं कि नो-कोड रेडिट स्क्रैपर और पायथन लाइब्रेरी का उपयोग करके रेडिट को कैसे स्क्रैप किया जाए।
Parsehub का उपयोग करके Reddit को स्क्रैप करें (कोई कोड नहीं)
Reddit से डेटा को मैन्युअल रूप से स्क्रैप करने में हमेशा लग सकता है। पोस्ट ढूंढते, उन्हें खोलते, उनके लोड होने का इंतज़ार करते और फिर मैन्युअल रूप से डेटा को कॉपी करके स्प्रेडशीट पर पेस्ट करना संभव है, फिर भी यह अनुत्पादक है, खासकर जब सैकड़ों पोस्ट से निपटना हो।
स्वचालित वेब स्क्रैपर्स आपके लिए यह काम संभालेंगे। ये उपकरण आपको लगभग हर चीज़ को स्वचालित रूप से स्क्रैप करने देंगे। nbsp;Reddit से डेटा का प्रकार, जिसमें उपयोगकर्ता नाम, लिंक, पोस्ट शीर्षक, दिनांक, चित्र और टिप्पणियाँ शामिल हैं, कुछ नाम देने के लिए।
कुछ प्रमुख नो-कोड रेडिट स्क्रैपिंग टूल्स में ParseHub, Apify और Octoparse शामिल हैं।
जैसा कि पहले बताया गया है, नो-कोड टूल का उपयोग करके Reddit को स्क्रैप करना एक आसान काम है, फिर भी शुरुआत करने के लिए आपको कुछ मार्गदर्शन की आवश्यकता है।
तो, आइए सीखें कि ParseHub का उपयोग करके Reddit को कैसे स्क्रैप करें।
-
ParseHub डाउनलोड करें: आधिकारिक वेबसाइट पर जाएंParseHub वेबसाइट पर जाएं और अपने ऑपरेटिंग सिस्टम के लिए उपयुक्त डाउनलोड विकल्प चुनें। सेटअप डाउनलोड हो जाएगा। सेटअप चलाएं और कुछ ही मिनटों में ParseHub इंस्टॉल हो जाएगा।
-
खाता बनाएँ: यदि आप पहली बार ParseHub का उपयोग कर रहे हैं, तो आपको साइन अप करेंऔर एक खाता बनाएँ। प्रक्रिया बहुत तेज़ है। बस अपना नाम, ईमेल और पासवर्ड दर्ज करें, और आप अपने नए खाते में लॉग इन हो जाएँगे।
-
नया प्रोजेक्ट शुरू करें: होम स्क्रीन पर, नया प्रोजेक्ट बटन क्लिक करें।
-
नई स्क्रीन पर, उस सबरेडिट लिंक को पेस्ट करें जिसे आप स्क्रैप करना चाहते हैं। हम अनुशंसा करते हैं कि आप Reddit के पुराने लेआउट का उपयोग करें क्योंकि यह स्क्रैपिंग उद्देश्यों के लिए सबसे अच्छा काम करता है।
-
हम प्रदर्शन के लिए NBA सबरेडिट को स्क्रैप करेंगे।
-
प्रारंभ बटन दबाएँ, और सबरेडिट मुख्य स्क्रीन पर लोड हो जाएगा।
-
प्रासंगिक डेटा चुनें: मान लीजिए कि हम सभी पोस्ट के शीर्षक और लिंक को स्क्रैप करना चाहते हैं। पृष्ठ पर पहली पोस्ट के शीर्षक पर क्लिक करें। चयनित पोस्ट पहला शीर्षक हरा हो जाएगा, और अन्य पोस्ट शीर्षक पीले हो जाएंगे। अब दूसरा पोस्ट शीर्षक चुनें, और सभी शीर्षक हरे हो जाएंगे, यह दर्शाता है कि सभी का चयन कर लिया गया है।
-
साइड पैनल पर, चयन यानी पोस्ट को एक उपयुक्त नाम दें।
-
अधिक चयन करें: मान लीजिए कि हम प्रत्येक पोस्ट की तारीख भी जानना चाहते हैं। इसके लिए, पोस्ट के चयन पर “+” प्रतीक पर क्लिक करें और सापेक्ष चयन चुनें।
-
अब पहली पोस्ट के शीर्षक पर क्लिक करें, और उसके बाद, पोस्ट के टाइमस्टैम्प पर क्लिक करें। पूरा पेज इस तरह दिखने लगता है।
-
नए बनाए गए चयन का नाम बदलकर तारीख करें।
-
दिनांक चयन प्रासंगिक टाइमस्टैम्प निकालता है, लेकिन हम पोस्ट की तिथि और समय चाहते हैं। इसलिए, क्लिक करें तारीख चयन के आगे “+” प्रतीक, पूर्ण मेनू खोलने के लिए उन्नत पर क्लिक करें, और निकालें का चयन करें।
-
निकालने के लिए अगला ड्रॉपडाउन खोलें और “शीर्षक विशेषता” चुनें।
-
आप ध्यान देंगे कि चयन अब दिनांक और समय खींच रहा है।
-
अधिक डेटा प्रकारों के लिए दोहराएँ: उपयोगकर्ता नाम, टिप्पणियों की संख्या और अपवोट के लिए पिछले चरण को दोहराएँ।
-
पृष्ठांकन जोड़ें: अब तक के चयन केवल पहले पृष्ठ से डेटा निकालते हैं। अगले पृष्ठों पर जाने के लिए, पृष्ठ चयन के “+” प्रतीक पर क्लिक करें और चयन करें चुनें।
-
पृष्ठ के नीचे स्क्रॉल करें और अगले पर क्लिक करें।
-
अगले चयन पर “+” प्रतीक पर क्लिक करें और क्लिक चुनें।
-
एक पॉप-अप प्रकट होता है जिसमें पूछा जाता है कि क्या यह अगला पृष्ठ बटन है। हां चुनें और पृष्ठों की संख्या दर्ज करें ;क्लिक किया जाना चाहिए. हमने 2 लिखा है, इसलिए कुल मिलाकर, हम 3 पेज स्क्रैप करेंगे. अब वर्तमान टेम्पलेट दोहराएँ बटन दबाएँ.
-
परियोजना तैयार है।
-
प्रोजेक्ट चलाएँ: डेटा प्राप्त करें बटन दबाएँ।
-
रन चुनें. कुछ ही मिनटों में डेटा तैयार हो जाएगा. अपनी इच्छित फ़ाइल प्रारूप चुनें.
Reddit को Python के साथ स्क्रैप करें(कोड)
नो-कोड टूल का उपयोग करके Reddit को स्क्रैप करना जानने के बाद, आप सोच रहे होंगे कि लोग एक ही कार्य के लिए प्रोग्रामिंग स्क्रिप्ट क्यों लिखते हैं।
इसका उत्तर इस विधि से मिलने वाली स्वतंत्रता में निहित है।
बिना कोड वाले Reddit स्क्रैपर का उपयोग करके, आप केवल उन डेटा प्रकारों को स्क्रैप कर सकते हैं जिन्हें यह आपको स्क्रैप करने की अनुमति देता है। अन्य सीमाएँ भी हो सकती हैं, जैसे पृष्ठ सीमाएँ या पोस्ट सीमाएँ।
आप प्रीमियम प्लान में अपग्रेड करके इन सीमाओं को दरकिनार कर सकते हैं। लेकिन इससे आपके वॉलेट में सेंध, और इसके अलावा, यदि आपकी स्क्रैपिंग आवश्यकताएं जटिल हैं, तो नो-कोड रेडिट स्क्रैपर्स मदद नहीं कर सकते।
यह वह समय है जब आपको Reddit को Python या अन्य प्रोग्रामिंग भाषाओं से खंगालना होगा।
Python के साथ Reddit को स्क्रैप करके, आप न केवल कोई भी डेटा और किसी भी संख्या में पृष्ठ निकाल पाएंगे, बल्कि आपको ऐसा करने के लिए एक भी पैसा खर्च नहीं करना पड़ेगा। यह केवल तभी संभव है जब आप स्वयं कोडिंग जानते हों। अन्यथा, आपको एक स्क्रैपिंग विशेषज्ञ को नियुक्त करना होगा।
तो, आइए देखें कि Python: के साथ Reddit को कैसे स्क्रैप करें
-
आवश्यक लाइब्रेरी स्थापित करें: सुनिश्चित करें कि आपने आवश्यक लाइब्रेरी स्थापित कर ली हैं, जैसे PRAW (Python Reddit API रैपर) और Pandas।
-
Reddit ऐप बनाएँ:Reddit की वेबसाइट पर जाएँ और एक नया एप्लिकेशन बनाएँ। क्लाइंट ID, क्लाइंट सीक्रेट, उपयोगकर्ता नाम और पासवर्ड प्राप्त करें।
-
प्रमाणीकरण: PRAW का उपयोग करके Reddit के API के साथ प्रमाणीकरण करने के लिए प्राप्त क्रेडेंशियल्स का उपयोग करें।
-
सबरेडिट चुनें: वह सबरेडिट निर्दिष्ट करें जिसे आप स्क्रैप करना चाहते हैं।
-
डेटा स्क्रैप करें: चुने हुए सबरेडिट से पोस्ट पुनर्प्राप्त करने के लिए PRAW का उपयोग करें, अर्थात पोस्ट की संख्या और वांछित विशेषताएँ निर्दिष्ट करें।
-
डेटा संग्रहीत करें: स्क्रैप किए गए डेटा को पांडा का उपयोग करके उपयुक्त प्रारूप में, जैसे डेटाफ़्रेम में संग्रहीत करें।
-
विश्लेषण करें या विज़ुअलाइज़ करें: अपने प्रोजेक्ट या विश्लेषण के लिए आवश्यकतानुसार स्क्रैप किए गए डेटा का विश्लेषण करें या विज़ुअलाइज़ करें।
प्रत्येक चरण के लिए गहन समझ और कोड स्निपेट के लिए, आगे बढ़ें यह विस्तृत ब्लॉग.
अपनी स्क्रैपिंग गतिविधि को ब्लॉक होने से सुरक्षित करें
Reddit के अनुसारउपयोगकर्ता अनुबंध, पूर्व सहमति के बिना स्वचालन के माध्यम से साइट तक पहुँचना और Reddit से डेटा स्क्रैप करना निषिद्ध है।
हालाँकि, Reddit के स्क्रैपिंग के विरुद्ध निवारक उपायों, जैसे IP प्रतिबंध या खाता निलंबन, के बारे में अधिक जानकारी उपलब्ध नहीं है।
यह स्क्रैपिंग के प्रति Reddit के उदार रवैये का संकेत हो सकता है। लेकिन फिर भी संभावना है कि आपका स्क्रैपर कैप्चा, दर सीमा या निलंबन जैसी बाधाओं में फंस सकता है।
यह वही है जोAdsPower एंटी-डिटेक्ट ब्राउज़र को नियंत्रित करने के लिए बनाया गया है। AdsPower एंटी-फिंगरप्रिंटिंग उपायों के माध्यम से आपके स्क्रैपर्स को वास्तविक उपयोगकर्ताओं जैसा दिखाता है ताकि आप डेटा को आसानी से स्क्रैप कर सकें।
अब जब आप जानते हैं कि कोडिंग के साथ और बिना Reddit को कैसे स्क्रैप किया जाए,मुफ़्त में साइन अप करेंविज्ञापनों की शक्ति और बिना किसी रुकावट के उपयोगी सबरेडिट को स्क्रैप करने के लिए।

लोग यह भी पढ़ें
- Shopify स्क्रैपर गाइड: कोड के साथ और बिना कोड के दो तरीके
Shopify स्क्रैपर गाइड: कोड के साथ और बिना कोड के दो तरीके
Shopify को स्क्रैप करना दूसरी ई-कॉमर्स साइट्स से ज़्यादा आसान है। नो-कोड स्क्रैपर और पायथन स्क्रिप्ट पर हमारी गाइड से Shopify डेटा एक्सपोर्ट करना सीखें।
- फेसबुक स्क्रैप कैसे करें: कोडर्स और नॉन-कोडर्स के लिए 2 आसान तरीके
फेसबुक स्क्रैप कैसे करें: कोडर्स और नॉन-कोडर्स के लिए 2 आसान तरीके
इस ब्लॉग के माध्यम से जानें कि फेसबुक को कुशलतापूर्वक कैसे स्क्रैप किया जाए और इसके एंटी-स्क्रैपिंग तंत्र को कैसे बायपास किया जाए।
- Pinterest स्क्रैपर सरलीकृत: बिना कोड से कोडिंग तक Pinterest स्क्रैपिंग तकनीकें
Pinterest स्क्रैपर सरलीकृत: बिना कोड से कोडिंग तक Pinterest स्क्रैपिंग तकनीकें
इस ब्लॉग में उपयोगकर्ता-अनुकूल Pinterest स्क्रैपर या पायथन का उपयोग करके Pinterest को स्क्रैप करना सीखें।
- क्या अमेज़न से स्क्रैपिंग करना कानूनी है? 6 ज़रूरी सुझाव और विचार
क्या अमेज़न से स्क्रैपिंग करना कानूनी है? 6 ज़रूरी सुझाव और विचार
क्या अमेज़न स्क्रैपिंग कानूनी है? अमेज़न स्क्रैपिंग शुरू करने से पहले आपको किन बातों का ध्यान रखना चाहिए? ये वो सवाल हैं जिनके जवाब हम इस ब्लॉग में देंगे।
- इंस्टाग्राम स्क्रैपिंग कैसे करें? स्क्रैपिंग से ज़्यादा से ज़्यादा फ़ायदा पाने के 3 तरीके
इंस्टाग्राम स्क्रैपिंग कैसे करें? स्क्रैपिंग से ज़्यादा से ज़्यादा फ़ायदा पाने के 3 तरीके
कोड और नो-कोड दोनों तरीकों का उपयोग करके इंस्टाग्राम स्क्रैपिंग की कानूनी और तकनीकी चुनौतियों को दूर करने का तरीका जानें।