AdsPower
AdsPower

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

By AdsPower||1,083 Views

यह कोई आश्चर्य की बात नहीं है कि Reddit के उपयोगकर्ता-जनित डेटा का बहुत अधिक मूल्य है, इतना अधिक कि Google और OpenAI इसका उपयोग अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए करते हैं।

लेकिन बिना पसीना बहाए और अपना बैंक खोए Reddit को कैसे खंगाला जाए और उसका मूल्य बढ़ाया जाए?

चाहे आप एक अनुभवी कोडर हों या कोई ऐसा व्यक्ति जो प्रोग्रामिंग की जटिल दुनिया को नहीं जानता, आपके लिए एक विशेष तरीका तैयार किया गया है।

इस ब्लॉग में, आप सीखेंगे कि दो आसान तरीकों का उपयोग करके Reddit को कैसे स्क्रैप करें और Reddit द्वारा दी जाने वाली जानकारी का खजाना कैसे प्राप्त करें।

लेकिन Reddit को स्क्रैप करने के तरीके की बारीकियों में जाने से पहले, आइए Reddit को स्क्रैप करने के विभिन्न तरीकों पर एक त्वरित नज़र डालें।

Reddit को स्क्रैप करने के विभिन्न तरीके

लोग Reddit को कई तरीकों से खंगालते हैं। इन तरीकों में से प्रत्येक के अपने फायदे और नुकसान हैं।

उनमें से कुछ पार्क में टहलने जितना आसान हैं, जिनके लिए किसी तकनीकी कौशल की आवश्यकता नहीं है, जबकि अन्य कठिन हैं और मध्यम से उच्च प्रोग्रामिंग जानकारी की आवश्यकता है।

आइए आपको Reddit से डेटा स्क्रैप करने के प्रत्येक तरीके से संक्षेप में परिचित कराते हैं।

Reddit को मैन्युअल रूप से स्क्रैप करना

यह Reddit या किसी अन्य प्लेटफ़ॉर्म को स्क्रैप करने का संभवतः सबसे आसान और सबसे सीधा तरीका है। इसके लिए किसी प्रकार की विशेषज्ञता की आवश्यकता नहीं है, बस डेटा को कॉपी करके स्प्रेडशीट में पेस्ट करने की क्षमता की आवश्यकता है।

फ़ोटो और प्रोफ़ाइल चित्र जैसे मीडिया को प्लेटफ़ॉर्म से आसानी से डाउनलोड किया जा सकता है, जबकि वीडियो को तृतीय-पक्ष वीडियो डाउनलोडिंग वेबसाइटों का उपयोग करके निकाला जा सकता है।

इसके अलावा, आप प्रत्येक डेटा बिंदु की जांच कर पाएंगे और यह सुनिश्चित कर पाएंगे कि केवल सही और प्रासंगिक डेटा ही स्प्रेडशीट में शामिल हो।

हालाँकि, चूँकि पूरी प्रक्रिया मैन्युअल है, इसलिए यदि आपकी आवश्यकताएँ बड़ी हैं, तो इसमें आपका काफ़ी समय लगेगा। इसके अलावा, मैन्युअल Reddit स्क्रैपिंग से मानवीय त्रुटियों की संभावना भी बढ़ जाती है।

Reddit को उसके API का उपयोग करके स्क्रैप करें

Reddit डेवलपर्स को Reddit प्लेटफ़ॉर्म पर ऐप्स और अन्य उत्पाद बनाने की सुविधा देने के लिए अपना API प्रदान करता है। आप आप Reddit से डेटा स्क्रैप करने के लिए भी इस API का उपयोग कर सकते हैं। लेकिन ऐसा करने के लिए, आपके पास मध्यम कोडिंग कौशल होना चाहिए।

फिर Reddit द्वारा अन्य प्रतिबंधात्मक नियम निर्धारित किए गए हैं जिनका आपको API का उपयोग करने के लिए पालन करना होगा। उसके ऊपर, उसके बाद2023 Reddit विवाद, API एक शुल्क के साथ आता है और केवल मॉडरेशन टूल डेवलपर्स या शैक्षणिक उद्देश्यों के लिए मुफ़्त रहता है।

कस्टम Reddit स्क्रैपर बनाएँ

आपका अगला विकल्प स्क्रैच से कस्टम Reddit स्क्रैपर बनाकर API के बिना Reddit को स्क्रैप करना है। यह यह विधि कठिन है क्योंकि इसके लिए उन्नत प्रोग्रामिंग कौशल की आवश्यकता होती है, लेकिन यदि आप इसे करने में सफल हो जाते हैं तो यह अत्यधिक आशाजनक है।

यह विधि आपको स्क्रैपर को किसी भी प्रकार के डेटा को निकालने के लिए अनुकूलित करने देती है जो अन्य तैयार स्क्रैपर्स नहीं कर सकते हैं निकालने में सक्षम नहीं हो सकते। इसके अलावा, आप अपनी आवश्यकताओं के अनुसार स्क्रैपिंग कार्यों को बढ़ाने के लिए स्क्रिप्ट लिख सकते हैं।

हालाँकि, एक कस्टम Reddit स्क्रैपर विकसित करना कोई आसान काम नहीं है और यह लागत-गहन और समय लेने वाला है।

नो-कोड रेडिट स्क्रैपर का उपयोग करें

क्या आपके पास कोडिंग पृष्ठभूमि नहीं है? कोई बड़ी बात नहीं। ऐसे ढेरों क्लिक और स्क्रैप टूल हैं जिनके लिए किसी प्रोग्रामिंग की आवश्यकता नहीं होती।

ये उपकरण उपयोगकर्ता के अनुकूल सॉफ़्टवेयर या ब्राउज़र एक्सटेंशन के रूप में आते हैं और आपको केवल कुछ माउस क्लिक के बाद कुछ ही मिनटों में Reddit से डेटा स्क्रैप करने देते हैं।

असली अच्छी बात यह है कि इनमें से ज़्यादातर टूल्स में एक मुफ़्त प्लान होता है जो अक्सर ज़्यादातर उपयोगकर्ताओं के लिए काफ़ी होता है।

Reddit से कोड और बिना कोड का उपयोग करके डेटा कैसे स्क्रैप करें?

अब, बिना किसी और देरी के, चलिए काम पर आते हैं और जानते हैं कि नो-कोड रेडिट स्क्रैपर और पायथन लाइब्रेरी का उपयोग करके रेडिट को कैसे स्क्रैप किया जाए।

Parsehub का उपयोग करके Reddit को स्क्रैप करें (कोई कोड नहीं)

Reddit से डेटा को मैन्युअल रूप से स्क्रैप करने में हमेशा लग सकता है। पोस्ट ढूंढते, उन्हें खोलते, उनके लोड होने का इंतज़ार करते और फिर मैन्युअल रूप से डेटा को कॉपी करके स्प्रेडशीट पर पेस्ट करना संभव है, फिर भी यह अनुत्पादक है, खासकर जब सैकड़ों पोस्ट से निपटना हो।

स्वचालित वेब स्क्रैपर्स आपके लिए यह काम संभालेंगे। ये उपकरण आपको लगभग हर चीज़ को स्वचालित रूप से स्क्रैप करने देंगे। nbsp;Reddit से डेटा का प्रकार, जिसमें उपयोगकर्ता नाम, लिंक, पोस्ट शीर्षक, दिनांक, चित्र और टिप्पणियाँ शामिल हैं, कुछ नाम देने के लिए।

कुछ प्रमुख नो-कोड रेडिट स्क्रैपिंग टूल्स में ParseHub, Apify और Octoparse शामिल हैं।

जैसा कि पहले बताया गया है, नो-कोड टूल का उपयोग करके Reddit को स्क्रैप करना एक आसान काम है, फिर भी शुरुआत करने के लिए आपको कुछ मार्गदर्शन की आवश्यकता है।

तो, आइए सीखें कि ParseHub का उपयोग करके Reddit को कैसे स्क्रैप करें।

  • ParseHub डाउनलोड करें: आधिकारिक वेबसाइट पर जाएंParseHub वेबसाइट पर जाएं और अपने ऑपरेटिंग सिस्टम के लिए उपयुक्त डाउनलोड विकल्प चुनें। सेटअप डाउनलोड हो जाएगा। सेटअप चलाएं और कुछ ही मिनटों में ParseHub इंस्टॉल हो जाएगा।

  • खाता बनाएँ: यदि आप पहली बार ParseHub का उपयोग कर रहे हैं, तो आपको साइन अप करेंऔर एक खाता बनाएँ। प्रक्रिया बहुत तेज़ है। बस अपना नाम, ईमेल और पासवर्ड दर्ज करें, और आप अपने नए खाते में लॉग इन हो जाएँगे।

  • नया प्रोजेक्ट शुरू करें: होम स्क्रीन पर, नया प्रोजेक्ट बटन क्लिक करें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • नई स्क्रीन पर, उस सबरेडिट लिंक को पेस्ट करें जिसे आप स्क्रैप करना चाहते हैं। हम अनुशंसा करते हैं कि आप Reddit के पुराने लेआउट का उपयोग करें क्योंकि यह स्क्रैपिंग उद्देश्यों के लिए सबसे अच्छा काम करता है।

  • हम प्रदर्शन के लिए NBA सबरेडिट को स्क्रैप करेंगे।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • प्रारंभ बटन दबाएँ, और सबरेडिट मुख्य स्क्रीन पर लोड हो जाएगा।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • प्रासंगिक डेटा चुनें: मान लीजिए कि हम सभी पोस्ट के शीर्षक और लिंक को स्क्रैप करना चाहते हैं। पृष्ठ पर पहली पोस्ट के शीर्षक पर क्लिक करें। चयनित पोस्ट पहला शीर्षक हरा हो जाएगा, और अन्य पोस्ट शीर्षक पीले हो जाएंगे। अब दूसरा पोस्ट शीर्षक चुनें, और सभी शीर्षक हरे हो जाएंगे, यह दर्शाता है कि सभी का चयन कर लिया गया है।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • साइड पैनल पर, चयन यानी पोस्ट को एक उपयुक्त नाम दें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • अधिक चयन करें: मान लीजिए कि हम प्रत्येक पोस्ट की तारीख भी जानना चाहते हैं। इसके लिए, पोस्ट के चयन पर “+” प्रतीक पर क्लिक करें और सापेक्ष चयन चुनें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • अब पहली पोस्ट के शीर्षक पर क्लिक करें, और उसके बाद, पोस्ट के टाइमस्टैम्प पर क्लिक करें। पूरा पेज इस तरह दिखने लगता है।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • नए बनाए गए चयन का नाम बदलकर तारीख करें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • दिनांक चयन प्रासंगिक टाइमस्टैम्प निकालता है, लेकिन हम पोस्ट की तिथि और समय चाहते हैं। इसलिए, क्लिक करें तारीख चयन के आगे “+” प्रतीक, पूर्ण मेनू खोलने के लिए उन्नत पर क्लिक करें, और निकालें का चयन करें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • निकालने के लिए अगला ड्रॉपडाउन खोलें और “शीर्षक विशेषता” चुनें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • आप ध्यान देंगे कि चयन अब दिनांक और समय खींच रहा है।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • अधिक डेटा प्रकारों के लिए दोहराएँ: उपयोगकर्ता नाम, टिप्पणियों की संख्या और अपवोट के लिए पिछले चरण को दोहराएँ।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • पृष्ठांकन जोड़ें: अब तक के चयन केवल पहले पृष्ठ से डेटा निकालते हैं। अगले पृष्ठों पर जाने के लिए, पृष्ठ चयन के “+” प्रतीक पर क्लिक करें और चयन करें चुनें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • पृष्ठ के नीचे स्क्रॉल करें और अगले पर क्लिक करें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • अगले चयन पर “+” प्रतीक पर क्लिक करें और क्लिक चुनें।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • एक पॉप-अप प्रकट होता है जिसमें पूछा जाता है कि क्या यह अगला पृष्ठ बटन है। हां चुनें और पृष्ठों की संख्या दर्ज करें ;क्लिक किया जाना चाहिए. हमने 2 लिखा है, इसलिए कुल मिलाकर, हम 3 पेज स्क्रैप करेंगे. अब वर्तमान टेम्पलेट दोहराएँ बटन दबाएँ.

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • परियोजना तैयार है।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • प्रोजेक्ट चलाएँ: डेटा प्राप्त करें बटन दबाएँ।

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

  • रन चुनें. कुछ ही मिनटों में डेटा तैयार हो जाएगा. अपनी इच्छित फ़ाइल प्रारूप चुनें.

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

Reddit को Python के साथ स्क्रैप करें(कोड)

नो-कोड टूल का उपयोग करके Reddit को स्क्रैप करना जानने के बाद, आप सोच रहे होंगे कि लोग एक ही कार्य के लिए प्रोग्रामिंग स्क्रिप्ट क्यों लिखते हैं।

इसका उत्तर इस विधि से मिलने वाली स्वतंत्रता में निहित है।

बिना कोड वाले Reddit स्क्रैपर का उपयोग करके, आप केवल उन डेटा प्रकारों को स्क्रैप कर सकते हैं जिन्हें यह आपको स्क्रैप करने की अनुमति देता है। अन्य सीमाएँ भी हो सकती हैं, जैसे पृष्ठ सीमाएँ या पोस्ट सीमाएँ।

आप प्रीमियम प्लान में अपग्रेड करके इन सीमाओं को दरकिनार कर सकते हैं। लेकिन इससे आपके वॉलेट में सेंध, और इसके अलावा, यदि आपकी स्क्रैपिंग आवश्यकताएं जटिल हैं, तो नो-कोड रेडिट स्क्रैपर्स मदद नहीं कर सकते।

यह वह समय है जब आपको Reddit को Python या अन्य प्रोग्रामिंग भाषाओं से खंगालना होगा।

Python के साथ Reddit को स्क्रैप करके, आप न केवल कोई भी डेटा और किसी भी संख्या में पृष्ठ निकाल पाएंगे, बल्कि आपको ऐसा करने के लिए एक भी पैसा खर्च नहीं करना पड़ेगा। यह केवल तभी संभव है जब आप स्वयं कोडिंग जानते हों। अन्यथा, आपको एक स्क्रैपिंग विशेषज्ञ को नियुक्त करना होगा।

तो, आइए देखें कि Python: के साथ Reddit को कैसे स्क्रैप करें

  1. आवश्यक लाइब्रेरी स्थापित करें: सुनिश्चित करें कि आपने आवश्यक लाइब्रेरी स्थापित कर ली हैं, जैसे PRAW (Python Reddit API रैपर) और Pandas।

  2. Reddit ऐप बनाएँ:Reddit की वेबसाइट पर जाएँ और एक नया एप्लिकेशन बनाएँ। क्लाइंट ID, क्लाइंट सीक्रेट, उपयोगकर्ता नाम और पासवर्ड प्राप्त करें।

  3. प्रमाणीकरण: PRAW का उपयोग करके Reddit के API के साथ प्रमाणीकरण करने के लिए प्राप्त क्रेडेंशियल्स का उपयोग करें।

  4. सबरेडिट चुनें: वह सबरेडिट निर्दिष्ट करें जिसे आप स्क्रैप करना चाहते हैं।

  5. डेटा स्क्रैप करें: चुने हुए सबरेडिट से पोस्ट पुनर्प्राप्त करने के लिए PRAW का उपयोग करें, अर्थात पोस्ट की संख्या और वांछित विशेषताएँ निर्दिष्ट करें।

  6. डेटा संग्रहीत करें: स्क्रैप किए गए डेटा को पांडा का उपयोग करके उपयुक्त प्रारूप में, जैसे डेटाफ़्रेम में संग्रहीत करें।

  7. विश्लेषण करें या विज़ुअलाइज़ करें: अपने प्रोजेक्ट या विश्लेषण के लिए आवश्यकतानुसार स्क्रैप किए गए डेटा का विश्लेषण करें या विज़ुअलाइज़ करें।

प्रत्येक चरण के लिए गहन समझ और कोड स्निपेट के लिए, आगे बढ़ें यह विस्तृत ब्लॉग.

अपनी स्क्रैपिंग गतिविधि को ब्लॉक होने से सुरक्षित करें

Reddit के अनुसारउपयोगकर्ता अनुबंध, पूर्व सहमति के बिना स्वचालन के माध्यम से साइट तक पहुँचना और Reddit से डेटा स्क्रैप करना निषिद्ध है।

हालाँकि, Reddit के स्क्रैपिंग के विरुद्ध निवारक उपायों, जैसे IP प्रतिबंध या खाता निलंबन, के बारे में अधिक जानकारी उपलब्ध नहीं है।

यह स्क्रैपिंग के प्रति Reddit के उदार रवैये का संकेत हो सकता है। लेकिन फिर भी संभावना है कि आपका स्क्रैपर कैप्चा, दर सीमा या निलंबन जैसी बाधाओं में फंस सकता है।

यह वही है जोAdsPower एंटी-डिटेक्ट ब्राउज़र को नियंत्रित करने के लिए बनाया गया है। AdsPower एंटी-फिंगरप्रिंटिंग उपायों के माध्यम से आपके स्क्रैपर्स को वास्तविक उपयोगकर्ताओं जैसा दिखाता है ताकि आप डेटा को आसानी से स्क्रैप कर सकें।

अब जब आप जानते हैं कि कोडिंग के साथ और बिना Reddit को कैसे स्क्रैप किया जाए,मुफ़्त में साइन अप करेंविज्ञापनों की शक्ति और बिना किसी रुकावट के उपयोगी सबरेडिट को स्क्रैप करने के लिए।

AdsPower

किसी भी उद्योग के लिए सर्वश्रेष्ठ मल्टी-लॉगिन ब्राउज़र

रेडिट को दो अलग-अलग लेकिन प्रभावी तरीकों से स्क्रैप करने का तरीका यहां बताया गया है

लोग यह भी पढ़ें