Javascript Kullanarak Web Kazıma Nasıl Yapılır: Kapsamlı Bir Kılavuz
Javascript kullanarak web kazıma yapmayı öğrenmek istiyorsunuz ancak nereden başlayacağınızı bilmiyor musunuz? Endişelenmeyin.
Bu blogda, Javascript kazımaya başlamak için ihtiyacınız olan tüm gerekli bilgileri sağlayacağız. Ayrıca, Puppeteer ile JavaScript kullanarak bir web sitesini kazıma sürecini adım adım anlatacağız.
Hadi başlayalım.
Javascript Kazıma Nedir?
Günümüzün dijital çağında, web kazıma için JavaScript, yalnızca geliştiriciler ve veri meraklıları için değil, aynı zamanda pazarlamacıların da öğrenmesi gereken temel bir beceri haline geldi.
Özünde, JavaScript kazıma web sitelerinden değerli veri çıkarmak için JavaScript tabanlı kütüphaneleri veya araçları kullanma işlemi dir. Diğer programlama dillerini kullanabilirsiniz Python ile bir web sitesini kazımak, JavaScript kullanarak içerik görüntülemek için yoğun olarak kullanılan web sitelerinden bilgi toplamak için özellikle yararlıdır.
JavaScript kullanarak bir web sitesini kazıdığınızda, aslında bir web tarayıcısından veri toplama sürecini otomatikleştirmek için kod yazıyorsunuz. Veri çıkarmak için güçlü bir yöntemdir ve nispeten kısa bir sürede büyük miktarda bilgi toplamanıza olanak tanır.
İster pazar trendlerini analiz etmek, ister rekabet istihbaratı toplamak, ister işletmeniz için potansiyel müşteri yaratmak üzere veri toplamak isteyin, JavaScript kullanarak veri kazıma paha biçilmez bir araç olabilir. Bu yöntem, web geliştirmeye derinlemesine yerleşmiş bir dil olan JavaScript'in çeşitli web sayfalarında gezinme, seçim yapma ve veri çıkarma yeteneklerinden yararlanır.
Şimdi, Javascript web kazımanın ne olduğunu anladığımıza göre, bir siteyi kazımak için Javascript'i hangi yollarla kullanabileceğinizi öğrenelim.
Javascript Kullanarak Bir Web Sitesini Taramanın 3 Yaygın Yolu
Bir web sitesini taramak için Javascript'i kullanabileceğiniz birden fazla yol vardır. Peki hangisini kullanmalısınız? Bunun cevabı, tarama gereksinimlerinize bağlıdır. Bu bölümde, insanların Javascript kullanarak bir web sitesini taramak için kullandıkları üç yaygın yolu açıklayacağız.
Basit Statik Web Siteleri İçin Hoş&nara
İlk istekte içeriği hızlı yüklenen HTML web siteleri gördünüz m ? Şey, bunun ... href="https://github.com/cheeriojs/cheerio" target="_blank" rel="noopener" data-link-href-cangjie="https://github.com/cheeriojs/cheerio">Cheerio ideal bir seçimdir.
Sayfanın ham HTML'sini bir HTTP istemcisi aracılığıyla alarak Cheerio, DOM'u kolayca gezmenize ve değiştirmenize olanak tanır.
Hafif ve hızlıdır, çünkü tarayıcı ortamının tamamını yüklemesi gerekmez. Belirttiğimiz gibi, bu yöntem verilerin HTML kodunda kolayca bulunabildiği basit, statik web siteleri için mükemmeldir.
Dinamik İçerik Kazımak İçin Kuklacı
Daha karmaşık bir web sitesiyle, videolar ve resimler gibi dinamik içerik barındıran veya içeriğin dinamik olarak yüklendiği JavaScript ağırlıklı sitelerle uğraşıyorsanız, Node kütüphanesi olan Puppeteer en iyi seçimdir.
Kuklacı, web sayfalarıyla etkileşim kurmak için grafiksel bir kullanıcı arayüzü (GUI) olmayan bir web tarayıcısı olan başı olmayan bir tarayıcı kullanır. Bu anlamına Bu etkileşimlerin sonucu olarak görünen içeriğe erişmek için gerekli olan düğmelere tıklama veya kaydırma gibi kullanıcı eylemlerini taklit edebilir.
Puppeteer, AJAX'a dayanan ve JavaScript kodunu çalıştırmak ve içeriği işlemek için tam bir tarayıcı ortamı gerektiren modern web uygulamalarını kazımak için güçlüdür.
jQuery Kullanarak Bir Web Sitesini Kazı
Bazen, büyük miktarlarda veri kazımanız gerekmeyebilir. Belirli e-posta adreslerini kazımak gibi hızlı bilgi bir&kere çıkarma gerekebilir. Büt durumlarda, jQuery kullanışlı bir araç olabilir. Tarayıcıda çalışan istemci tarafı bir betik olmasına rağmen, jQuery'yi web sayfalarından verileri kolayca seçmek ve çıkarmak için kullanabilirsiniz.
Bu yöntem, özellikle geçici veri ayıklama görevleri için kullanışlıdır. Konsolunuzu açmak, birkaç satır jQuery kodu yazmak ve gerekli bilgileri çıkarmak kadar basittir. Ancak, bu yaklaşım büyük ölçekli veya otomatik veri ayıklama görevleri için uygun değildir.
Bu yöntemlerin her birinin kendine özgü avantajları vardır ve farklı veri ayıklama ihtiyaçları için uygundur. İster tek seferlik bir veri ayıklama, ister dinamik içerik içeren karmaşık bir veri ayıklama görevi olsun, JavaScript sağlam ve esnek bir çözüm sunar.
Ancak, bu kılavuzda Puppeteer kullanarak Javascript'te web kazıma yapacağız. Puppeteer ile Javascript kullanarak web kazımanın nasıl yapılacağını adım adım anlatalım.
Puppeteer Kullanarak Javascript Kullanarak Web Kazıma Nasıl Yapılır?
Web kazıma bazen göz korkutucu olabilir ama doğru araçları biliyorsanız görev 10 kat kolaylaşır Bu bölümde, Web kazıma için bir Node kütüphanesi olan Puppeteer'ı nasıl kullanacağınızı keşfedin. Puppeteer, dinamik içerik kazıma için mükemmel bir JavaScript aracıdır.
İşlemi üç basit adıma bölelim ve size Google'da "mutlu köpek" aramasından görselleri nasıl kazıyacağınızı gösterelim. Hadi başlayalım!
Adım 1: Yeni Bir Dizin Oluşturma ve Puppeteer Yükleme
İlk olarak, proje ortamımızı ayarlayalım. İlk olarak, yeni bir proje dizini oluşturalım ve başlatalım.
Ardından, kazıma için kullanacağımız Puppeteer'ı yükleyin. Konsolunuzu açın ve aşağıdaki komutları yürütün:
-
Yeni bir dizin oluşturmak için: mkdir web-scraping-puppeteer
-
Dizine taşımak için: cd web-scraping-puppeteer
-
Yeni bir Node.js projesi başlatılıyor: npm init -y
-
Puppeteer yükleniyor: npm install puppeteer
Adım 2: İlk Kodu Yazma
Şimdi, bir tarayıcıyı başlatmak Google Görseller e gitmek ve "happy do için ilk kodu yazalım g". Yeni bir tarayıcı penceresi açmak, görüntü alanını ayarlamak ve sayfa öğeleriyle etkileşim kurmak için Puppeteer kullanacağız.
İşte bu adım için kod:
Kodun Açıklaması:
-
const puppeteer = require('puppeteer');
-
İlk adımda Puppeteer'ı sistemimize kurduğumuzu hatırlıyor musunuz? Bu satır Puppeteer kütüphanesini betik içine aktarır. Ardından işlevlerini başı olmayan bir tarayıcıyı kontrol&etmek için kullanmamıza izin verir.
-
-
(async () => { ... })();
-
Bu satır eşzamansız bir fonksiyon tanımlayacaktır. Bu fonksiyon web kazıma görevlerini işleyecektir. Eşzamansız fonksiyonlar bize şunları yapmamıza izin verir. Bir sonraki adıma geçmeden önce belirli eylemlerin (örneğin sayfa yüklemeleri) tamamlanmasını bekleyin; bu, web kazımada kritik öneme sahiptir.
-
-
const tarayıcı = await kuklacı.başlat();
-
Bu satır Puppeteer 'a yeni bir tarayıcı oturum başlatmasını söyler. await anahtar kelimesi komut dosyası devam etmeden önce tarayıcının tamamen başlatılmasını sağlamak için kullanılır.
-
-
const sayfa = await tarayıcı.yeniSayfa();
-
Tarayıcıyı başlattıktan sonra bu&komut&tarayıcıda yeni bir&sayfa (veya sekme)
-
-
await page.goto('https://www.google.com/imghp?hl=tr');
-
Komut dosyası, açık sayfayı belirtilen URL'ye gezintirir; bu durum için Google Görseller arama sayfası dır. await anahtar kelimesi devam etmeden önce gezinmenin tamamlanmasını sağlar.
-
-
bekliyor page.setViewport({ genişlik: 1080, yükseklik: 1024 });
-
Bu, görünüm alanının (sayfanın görüntülenebilir bölümü) boyutlarını ayarlar. Ekran görüntüleri veya ekran boyutuna göre düzeni değişen sayfalar için önemlidir.
-
-
bekliyor page.type('textarea[name="q"]', 'mutlu köpek');
-
Bu komut 'mutlu köpek' metnini sayfadaki giriş alanına özellikle ad özniteliği 'q' olan metnine yazılmasını simüle eder(Google Görseller de arama alanıdır).
-
-
bekliyor page.click('button[type="submit"]');
-
Bu satır formun gönder düğmesine tıklanmasını simüle ederek aramayı tetikler.
-
-
await page.waitForNavigation();
-
Gönder düğmesine tıkladıktan sonra, bu&komut sayfa gezinmesinin tamamlanmasını bekler(yani, arama sonuçlarının yüklenmesini bekler).
-
-
tarayıcıyı bekliyor.kapat();
-
Önceki tüm adımlar tamamlandığında, bu komut tarayıcıyı kapatır.
-
Adım 3: "mutlu köpeğin" Görselini Google Görseller den alma
Şimdi hedefimiz kazımak istediğimiz görüntüyü seçmek ve sınıfını, kimliğini ve kaynak URL'sini div içinde tanımlamak
Bunu yapmak için tarayıcınızı açmanız, "mutlu köpek" araması yapmanız ve resme tıklamanız gerekir Kazımak istediğiniz resmi seçin. Resim genişletildikten sonra, üzerine sağ tıklayın ve "İncele" seçeneğini belirleyin.
Denetleme seçeneği size kodumuza eklemek için sınıfını kimliğini ve kaynak URL olacak görsel div kapsayıcısını gösterecektir.
İşte tam kodun nasıl görüneceği:
Bu kodda:
-
Öncelikle Puppeteer'ın Google Görseller'e gidip "mutlu köpek" aramasını yapmasını sağlıyoruz.
-
Sonuçlar yüklendikten sonra, '.sFlh5c.pT0Scc.iPVvYb' sınıfıyla eşleşen tüm görselleri seçiyoruz.
-
Daha sonra, önizlemeyi tetiklemek için listedeki istediğimiz resme tıklıyoruz.
-
Önizleme kabının (#islsp) ve içindeki büyük resmin yüklenmesini bekliyoruz.
-
Son olarak, URL'sini içeren büyük resmin src özniteliğini çıkarıyoruz.
Merak ediyorsanız, bu kodda if ve else ifadelerini kullanarak bu kodun sağlandığından emin olduğundan ... “  ... data-type="text">Artık JavaScript ve Puppeteer kullanarak bir web sitesini nasıl kazıyacağınızı başarıyla öğrendiniz. Herhangi bir web sitesinden birden fazla görseli kazımak için de aynı yaklaşımı kullanabilirsiniz.
Ancak, bazı web siteleri içeriklerini taramanıza izin vermez. Bu sitelerde taramaya karşı koruma teknikleri mevcuttur. İşin yapılmasını sizin için zorlaştıran hatta daha da kötüsü, tamamen engellenmenizle sonuçlanabilir.
Ancak bu soruna da bir çözüm var. Daha fazlasını öğrenmek için bir sonraki bölüme geçin ve web sitelerini algılanmadan veya engellenmeden tarayın.
Algılanamayan Tarama için AdsPower'ı Kullanın
JavaScript kullanarak veri kazırken bir&koruma katmanı&eklemek istiyorsanız, AdsPower kullanabileceğiniz en algılama önleyici tarayıcıdır. AdsPower tarayıcısı, tarama karşıtı zorlukları etkili bir şekilde atlatarak sorunsuz bir web tarama deneyimi sağlar.
Ayrıca, birden fazla kullanıcı profili oluşturmak ve web'de anonim kalmak için de kullanabilirsiniz. Yarınınızı güvence altına almak için bugün kaydolun.
Son
JavaScript kullanarak web kazıma işleminin nasıl yapılacağını öğrenmek, veri olasılıklarıyla dolu bir dünyanın kapılarını açar. İster kişisel projeler, ister profesyonel analiz için olsun, Puppeteer gibi araçlar bunu erişilebilir ve verimli hale getirir.
Bu blog da bahsedilen tekniği kullanın ve ihtiyacınız bilgileri kazı . Ayrıca güvenli kazı için AdsPower kullanmayı unutmayın.

İnsanlar Ayrıca Okuyun
- Twitter'dan Veri Nasıl Toplanır ve Bu Yasal mı?
Twitter'dan Veri Nasıl Toplanır ve Bu Yasal mı?
Twitter veri toplamayı öğrenmek ister misiniz? Bu blog, ücretsiz araçlardan ücretli tekniklere kadar her şeyi kapsıyor.
- LinkedIn Verileri Nasıl Toplanır: Kodlamalı ve Kodlamasız 3 Yöntem
LinkedIn Verileri Nasıl Toplanır: Kodlamalı ve Kodlamasız 3 Yöntem
Basit potansiyel müşteri oluşturma yöntemleri arayan bir satış temsilcisi misiniz? LinkedIn'de kod yazarak veya yazmadan veri toplamanın üç yolunu öğrenmek için bu blogu okuyun.
- TikTok'ta Ortak Pazarlama ile Hızlı Para Kazanma (2024 Sürümü)
TikTok'ta Ortak Pazarlama ile Hızlı Para Kazanma (2024 Sürümü)
TikTok Ortaklık Pazarlaması, internetten para kazanmanın en hızlı yollarından biridir. İşte nasıl başlayabileceğiniz.
- How to Scrape Ecommerce Website: A Comprehensive Guide
How to Scrape Ecommerce Website: A Comprehensive Guide
Web scraping is essential for business growth. Follow our guide to learn how to scrape ecommerce websites with or without coding skills.
- Web Kazımaya Nasıl Başlanır: Yeni Başlayanlar İçin Kılavuz
Web Kazımaya Nasıl Başlanır: Yeni Başlayanlar İçin Kılavuz
Bu makalede, web kazımayı, web kazıyıcı türlerini, kullanım durumlarını, web'i kazımak için ihtiyaç duyacağınız araçları ve nasıl başlayabileceğinizi inceliyoruz.