AdsPower
AdsPower

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

By AdsPower||1,042 Views

क्या आप जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग करना सीखना चाहते हैं, लेकिन आपको नहीं पता कि शुरुआत कहाँ से करें? चिंता न करें।

इस ब्लॉग में, हम आपको जावास्क्रिप्ट स्क्रैपिंग शुरू करने के लिए ज़रूरी सभी जानकारी देंगे। साथ ही, हम आपको Puppeteer के साथ जावास्क्रिप्ट का उपयोग करके वेबसाइट स्क्रैप करने की चरण-दर-चरण प्रक्रिया से अवगत कराएँगे।

चलिए शुरू करते हैं।

जावास्क्रिप्ट स्क्रैपिंग क्या है?

आज के डिजिटल युग में, वेब स्क्रैपिंग के लिए जावास्क्रिप्ट न केवल डेवलपर्स और डेटा उत्साही लोगों के लिए, बल्कि मार्केटर्स के लिए भी सीखने का एक आवश्यक कौशल बन गया है।

इसके मूल में, जावास्क्रिप्ट स्क्रैपिंग, वेबसाइटों से मूल्यवान डेटा निकालने के लिए जावास्क्रिप्ट-आधारित लाइब्रेरी या टूल का उपयोग करने की प्रक्रिया है। जबकि आप अन्य प्रोग्रामिंग भाषाओं का उपयोग कर सकते हैं जैसे Python से किसी वेबसाइट को स्क्रैप करना, जावास्क्रिप्ट स्क्रैपिंग विशेष रूप से उन वेबसाइटों से जानकारी एकत्र करने के लिए उपयोगी है जो सामग्री प्रदर्शित करने के लिए जावास्क्रिप्ट पर भारी हैं।

जब आप जावास्क्रिप्ट का उपयोग करके किसी वेबसाइट को स्क्रैप करते हैं, तो आप मूलतः वेब ब्राउज़र से डेटा एकत्र करने की प्रक्रिया को स्वचालित करने के लिए कोड लिख रहे होते हैं। यह डेटा निष्कर्षण का एक शक्तिशाली तरीका है, जो अपेक्षाकृत कम समय में विशाल मात्रा में जानकारी एकत्र करने की अनुमति देता है।

चाहे आप बाज़ार के रुझानों का विश्लेषण करना चाहते हों, प्रतिस्पर्धी जानकारी एकत्र करना चाहते हों, या अपने व्यवसाय के लिए लीड उत्पन्न करने हेतु डेटा एकत्र करना चाहते हों, जावास्क्रिप्ट का उपयोग करके डेटा स्क्रैपिंग एक अमूल्य उपकरण हो सकता है। यह विधि विभिन्न वेब पृष्ठों से डेटा नेविगेट करने, चयन करने और निकालने के लिए, वेब विकास में गहराई से अंतर्निहित भाषा, जावास्क्रिप्ट की क्षमताओं का लाभ उठाती है।

अब, जब हम समझ गए हैं कि जावास्क्रिप्ट वेब स्क्रैपिंग क्या है, तो आइए जानें कि आप किसी साइट को स्क्रैप करने के लिए जावास्क्रिप्ट का उपयोग किन तरीकों से कर सकते हैं।

जावास्क्रिप्ट का उपयोग करके वेबसाइट स्क्रैप करने के 3 सामान्य तरीके

वेबसाइट स्क्रैप करने के लिए जावास्क्रिप्ट का उपयोग करने के कई तरीके हैं। लेकिन आपको कौन सा तरीका अपनाना चाहिए? इसका उत्तर आपकी स्क्रैपिंग आवश्यकताओं पर निर्भर करता है। इस अनुभाग में, हम तीन सामान्य तरीकों की व्याख्या करेंगे जिनका उपयोग लोग जावास्क्रिप्ट का उपयोग करके वेबसाइट को स्क्रैप करने के लिए करते हैं।

सरल स्थैतिक वेबसाइटों के लिए चीरियो

क्या आपने ऐसी HTML वेबसाइटें देखी हैं जिनकी सामग्री प्रारंभिक अनुरोध में शीघ्रता से लोड हो जाती है? ऐसा इसलिए है क्योंकि उनमें वीडियो या जटिल एनिमेशन जैसी भारी सामग्री नहीं होती है। ऐसी स्थिर वेबसाइटों से निपटते समय, Cheerio एक आदर्श विकल्प है।

HTTP क्लाइंट के माध्यम से पृष्ठ के कच्चे HTML को प्राप्त करके, Cheerio आपको DOM को आसानी से पार करने और हेरफेर करने की अनुमति देता है।

यह हल्का और तेज़ है, मुख्यतः क्योंकि इसे पूरे ब्राउज़र वातावरण को लोड करने की आवश्यकता नहीं है। जैसा कि हमने बताया, यह विधि सरल, स्थिर वेबसाइटों के लिए एकदम सही है, जहाँ डेटा HTML कोड में आसानी से उपलब्ध होता है।

गतिशील सामग्री को स्क्रैप करने के लिए कठपुतली

यदि आप एक अधिक जटिल वेबसाइट के साथ काम कर रहे हैं, जिसमें वीडियो और छवियों जैसी गतिशील सामग्री है, या जावास्क्रिप्ट-भारी साइटें हैं जहां सामग्री गतिशील रूप से लोड की जाती है, तो नोड लाइब्रेरी, पपेटियर, सबसे अच्छा विकल्प है।

Puppeteer वेब पेजों के साथ इंटरैक्ट करने के लिए एक हेडलेस ब्राउज़र, बिना ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) वाले वेब ब्राउज़र का उपयोग करता है। इसका मतलब है यह उपयोगकर्ता की क्रियाओं का अनुकरण कर सकता है जैसे बटन पर क्लिक करना या स्क्रॉल करना, जो इन इंटरैक्शन के परिणामस्वरूप दिखाई देने वाली सामग्री तक पहुँचने के लिए आवश्यक है।

Puppeteer आधुनिक वेब अनुप्रयोगों को स्क्रैप करने के लिए शक्तिशाली है जो AJAX पर निर्भर करते हैं और जावास्क्रिप्ट कोड निष्पादित करने और सामग्री प्रस्तुत करने के लिए एक पूर्ण ब्राउज़र वातावरण की आवश्यकता होती है।

jQuery का उपयोग करके वेबसाइट को स्क्रैप करें

jQuery एक उपयोगी उपकरण हो सकता है। हालाँकि यह ब्राउज़र में चलने वाली एक क्लाइंट-साइड स्क्रिप्ट है, आप आसानी से वेब पृष्ठों से डेटा का चयन और निष्कर्षण करने के लिए jQuery का उपयोग कर सकते हैं।

यह विधि विशेष रूप से एड-हॉक स्क्रैपिंग कार्यों के लिए उपयोगी है। यह आपके कंसोल को खोलने, jQuery कोड की कुछ पंक्तियाँ लिखने और आवश्यक जानकारी निकालने जितना ही सरल है। हालाँकि, यह तरीका बड़े पैमाने पर या स्वचालित स्क्रैपिंग कार्यों के लिए उपयुक्त नहीं है।

इनमें से प्रत्येक विधि के अपने फायदे हैं और यह विभिन्न स्क्रैपिंग आवश्यकताओं के लिए उपयुक्त है। चाहे वह एक बार का डेटा निष्कर्षण हो या गतिशील सामग्री से जुड़ा कोई जटिल स्क्रैपिंग कार्य, जावास्क्रिप्ट एक मजबूत और लचीला समाधान प्रदान करता है।

हालाँकि, जहाँ तक इस गाइड का संबंध है, हम Puppeteer का उपयोग करके जावास्क्रिप्ट में वेब स्क्रैपिंग करेंगे। आइए आपको जावास्क्रिप्ट का उपयोग करके कठपुतली के साथ वेब स्क्रैपिंग करने की चरण-दर-चरण प्रक्रिया के माध्यम से चलते हैं।

जावास्क्रिप्ट कठपुतली का उपयोग करके वेब स्क्रैपिंग कैसे करें?

वेब स्क्रैपिंग कभी-कभी कठिन लग सकती है, लेकिन अगर आप सही टूल जानते हैं तो यह काम 10 गुना आसान हो जाता है। इस अनुभाग में, हम वेब स्क्रैपिंग के लिए नोड लाइब्रेरी, पपेटियर का उपयोग कैसे करें, इसका अन्वेषण करें। पपेटियर गतिशील सामग्री को स्क्रैप करने के लिए एक आदर्श जावास्क्रिप्ट टूल है।

आइए इस प्रक्रिया को तीन सरल चरणों में विभाजित करें, और आपको दिखाएं कि "खुश कुत्ते" के लिए Google खोज से छवियों को कैसे स्क्रैप किया जाए। आइए इसमें गोता लगाएँ!

चरण 1: एक नई निर्देशिका बनाना और कठपुतली स्थापित करना

सबसे पहले, आइए अपने प्रोजेक्ट का वातावरण तैयार करें। सबसे पहले, एक नई प्रोजेक्ट निर्देशिका बनाएँ और उसे प्रारंभ करें।

फिर, Puppeteer इंस्टॉल करें, जिसका उपयोग हम स्क्रैपिंग के लिए करेंगे। अपना कंसोल खोलें और निम्नलिखित कमांड निष्पादित करें:

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

  • एक नई निर्देशिका बनाने के लिए:mkdir वेब स्क्रैपिंग कठपुतली

  • निर्देशिका में ले जाने के लिए:cd वेब स्क्रैपिंग कठपुतली

  • एक नया Node.js प्रोजेक्ट आरंभ कर रहा है:npm init-y

  • कठपुतली स्थापित कर रहा है:npm इंस्टॉल कठपुतली


चरण 2: प्रारंभिक कोड लिखना

अब, आइए ब्राउज़र लॉन्च करने, Google Images पर नेविगेट करने और "happy do" खोजने के लिए प्रारंभिक कोड लिखें g". हम एक नई ब्राउज़र विंडो खोलने, व्यूपोर्ट सेट करने और पृष्ठ तत्वों के साथ बातचीत करने के लिए कठपुतली का उपयोग करेंगे।

इस चरण के लिए कोड यहां दिया गया है:

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

कोड की व्याख्या:

  • const कठपुतली = आवश्यकता ('कठपुतली');

    • याद रखें कि पहले चरण में हमने अपने सिस्टम में कठपुतली संचालक को स्थापित किया था? खैर, यह पंक्ति कठपुतली लाइब्रेरी को स्क्रिप्ट में आयात करती है। यह हमें एक हेडलेस ब्राउज़र को नियंत्रित करने के लिए इसकी कार्यक्षमताओं का उपयोग करने की अनुमति देती है।

  • (async()=>{...})();

    • यह पंक्ति एक अतुल्यकालिक फ़ंक्शन घोषित करेगी। यह फ़ंक्शन वेब स्क्रैपिंग कार्यों को संभालेगा। अतुल्यकालिक फ़ंक्शन हमें अगले चरण पर जाने से पहले कुछ क्रियाओं के पूरा होने (जैसे पेज लोड होने) की प्रतीक्षा करें, जो वेब स्क्रैपिंग में महत्वपूर्ण है।

  • const ब्राउज़र = await puppeteer.launch();

    • यह पंक्ति कठपुतली संचालक को एक नया ब्राउज़र सत्र शुरू करने के लिए कहती है। प्रतीक्षा कीवर्ड का उपयोग यह सुनिश्चित करने के लिए किया जाता है कि स्क्रिप्ट आगे बढ़ने से पहले ब्राउज़र पूरी तरह से लॉन्च हो जाए।

  • const page = await browser.newPage();

    • ब्राउज़र लॉन्च करने के बाद, यह कमांड ब्राउज़र में एक नया पृष्ठ (या टैब) खोलता है।

  • await page.goto('https://www.google.com/imghp?hl=en');

    • स्क्रिप्ट खुले हुए पृष्ठ को निर्दिष्ट URL पर ले जाती है, जो इस मामले में Google Images खोज पृष्ठ है। प्रतीक्षा कीवर्ड यह सुनिश्चित करता है कि आगे बढ़ने से पहले नेविगेशन पूरा हो जाए।

  • await page.setViewport({ width: 1080, height: 1024 });

    • यह व्यूपोर्ट (पृष्ठ का देखने योग्य अनुभाग) के आयाम निर्धारित करता है। स्क्रीनशॉट या पृष्ठों के लिए यह महत्वपूर्ण है कि स्क्रीन आकार के आधार पर लेआउट में परिवर्तन हो।

  • await page.type('textarea[name="q"]', 'happy dog');

    • यह कमांड पृष्ठ पर एक इनपुट फ़ील्ड में 'happy dog' टेक्स्ट टाइप करने का अनुकरण करता है, विशेष रूप से नाम विशेषता 'q' वाले टेक्स्ट (जो कि Google Images में खोज फ़ील्ड है)।

  • page.click('button[type="submit"]');

    • यह पंक्ति फ़ॉर्म के सबमिट बटन पर क्लिक करने का अनुकरण करती है, जिससे खोज शुरू हो जाती है।

  • page.waitForNavigation() का इंतजार करें;

    • सबमिट बटन पर क्लिक करने के बाद, यह कमांड पेज नेविगेशन के पूरा होने की प्रतीक्षा करता है (यानी, खोज परिणामों के लोड होने की प्रतीक्षा करता है)।

  • browser.close() का इंतजार करें;

    • जब सभी पिछले चरण पूरे हो जाते हैं, तो यह कमांड ब्राउज़र को बंद कर देता है।

चरण 3: Google Images से "खुश कुत्ते" की छवि प्राप्त करना।

अब हमारा लक्ष्य उस छवि का चयन करना है जिसे हम स्क्रैप करना चाहते हैं और इसके वर्ग, आईडी, और स्रोत यूआरएल को इसके विभाजन के अंदर पहचानना चाहते हैं।

ऐसा करने के लिए, आपको अपना ब्राउज़र खोलना होगा, "खुश कुत्ते" खोजना होगा, और इमेज पर क्लिक करना होगा जिसे आप स्क्रैप करना चाहते हैं। छवि का विस्तार होने के बाद, उस पर राइट-क्लिक करें और "निरीक्षण करें" विकल्प चुनें।

निरीक्षण विकल्प आपको छवि का विभाजन कंटेनर दिखाएगा जिसमें उसका वर्ग, आईडी और स्रोत URL होगा जिसे आपको अपने कोड में शामिल करने के लिए कॉपी करना होगा।

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

पूरा कोड इस तरह दिखेगा:

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

इस कोड में:

  • हम सबसे पहले यह सुनिश्चित करते हैं कि कठपुतली संचालक गूगल इमेज पर जाए और "खुश कुत्ते" की खोज करे।

  • परिणाम लोड होने के बाद, हम उन सभी छवियों का चयन करते हैं जो '.sFlh5c.pT0Scc.iPVvYb' वर्ग से मेल खाती हैं।

  • फिर हम पूर्वावलोकन को ट्रिगर करने के लिए सूची में वांछित छवि पर क्लिक करते हैं।

  • हम पूर्वावलोकन कंटेनर (#islsp) और उसके अंदर की बड़ी छवि के लोड होने का इंतज़ार कर रहे हैं।

  • अंत में, हम बड़ी छवि का src विशेषता निकालते हैं, जिसमें उसका URL शामिल है।

यदि आप सोच रहे हैं, तो हमने यह सुनिश्चित करने के लिए इस कोड में "यदि" और "अन्यथा" कथनों का उपयोग किया है कि यह गलत वर्ग के मामले में निर्दिष्ट वर्ग के साथ कोई चित्र नहीं मिला वापस करता है। अन्यथा, कभी-कभी, कोड टूट जाता है।

आपने अब सफलतापूर्वक सीख लिया है कि जावास्क्रिप्ट और कठपुतली का उपयोग करके किसी वेबसाइट को कैसे स्क्रैप किया जाता है। आप किसी भी वेबसाइट से कई छवियों को स्क्रैप करने के लिए समान दृष्टिकोण का उपयोग कर सकते हैं।

हालाँकि, कुछ वेबसाइटें आपको उनकी सामग्री को स्क्रैप करने की अनुमति नहीं देती हैं। उनके पास एंटी-स्क्रैपिंग तकनीकें मौजूद हैं इससे आपके लिए काम पूरा करना मुश्किल हो जाता है। या इससे भी बदतर, आप पूरी तरह से ब्लॉक हो सकते हैं।

लेकिन इस समस्या का भी एक समाधान है। आप कैसे कर सकते हैं इसके बारे में अधिक जानने के लिए अगले भाग पर जाएँबिना पता लगे या ब्लॉक किए वेबसाइटों को स्क्रैप करें.

अज्ञात ब्राउज़िंग के लिए विज्ञापन शक्ति का उपयोग करें

यदि आप जावास्क्रिप्ट का उपयोग करके डेटा स्क्रैपिंग करते समय सुरक्षा की एक परत जोड़ना चाहते हैं, तो AdsPower आपके लिए उपयोग करने योग्य सर्वोत्तम एंटी-डिटेक्ट ब्राउज़र है।AdsPower ब्राउज़र एंटी-स्क्रैपिंग चुनौतियों को प्रभावी ढंग से चकमा देकर एक निर्बाध वेब स्क्रैपिंग अनुभव सुनिश्चित करता है।

आप इसका उपयोग कई उपयोगकर्ता प्रोफाइल बनाने और वेब पर गुमनाम बने रहने के लिए भी कर सकते हैं।अपना कल सुरक्षित करने के लिए आज ही साइन अप करें

समापन!

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग करना सीखने से डेटा की संभावनाओं की एक दुनिया खुल जाती है। चाहे यह व्यक्तिगत परियोजनाओं के लिए हो या पेशेवर विश्लेषण के लिए, कठपुतली जैसे उपकरण इसे सुलभ और कुशल बनाते हैं।

इस ब्लॉग में बताई गई तकनीक का इस्तेमाल करें और ज़रूरी जानकारी को स्क्रैप करें। साथ ही, सुरक्षित स्क्रैपिंग के लिए AdsPower का इस्तेमाल करना न भूलें।

AdsPower

किसी भी उद्योग के लिए सर्वश्रेष्ठ मल्टी-लॉगिन ब्राउज़र

जावास्क्रिप्ट का उपयोग करके वेब स्क्रैपिंग कैसे करें: एक व्यापक गाइड

लोग यह भी पढ़ें