ProgramlamaWeb

Web Scraping (Web Kazıma) Nedir? Ne işe yarar

Web Scraping, çeşitli yazılım ve yöntemler kullanarak çoğunlukla HTML formatında veri çıkarılması ve bu verileri merkezi bir veri tabanında ve analizde depolanmaya uygun bir forma dönüştürülmesi işlemidir. Çoğunlukla bu yöntem herhangi bir şekilde API hizmeti vermeyen sitelerde kullanılır.

Hem analizde, hem de derin öğrenmede, matematiksel hesaplamaları çok kolay hale getiren modülleri ve kütüphaneleri olduğu için Web Scraper’ların çoğu Python dilinde yazılmaktadır;

Python’da “requests”,”Beautiful Soup” ve “Scrapy” kütüphaneleri ile bu işleri kolayca halledip birsürü siteden rahatlıkla veri çekebilir ve bu verilerle daha sonra fiyat karşılaştırması, iş listeleri, araştırma ve geliştirme ve çok daha fazlası gibi çeşitli gerçek dünya süreçlerinde işinizi hızlandırabilirsiniz. Oluşturulan kayıtlar sizin tercihinize bağlı olarak *json ya da *CSV formatında olabilir hatta bu verileri veritabanınızda saklamanız mümkün.

Python’da Web Scraping için gereken aşamalar nelerdir;

• Kazımak istediğiniz hedef URL bulunur.

• Sayfanın yapısı incelenir

•Çıkarmak istediğiniz sayfanın verileri bulunur

•Kodlar yazılır.

• Kod çalıştırılır ve veriler çıkartılır.

• Veriler gerekli formatta saklanır

Web Scraping Yasal Mı?

Ne yazık ki bu sorunun cevabı ne evet ne de hayır. Bu olayın yasal olmamasının sebebi verileri toplayıp analiz etmek değil, veriyi kullandırmak, verinin telif haklarına uygun davranmak ve kurumlara satmaktır. Elbette kötü amaçlı işler yapıp karşı kişinin haklarını ihmal etmediğiniz sürece legal bir durum yok.

Ekşisözlük, itüsözlük, uludağsözlük gibi popüler sözlüklerden belirtilen başlıklardaki tüm girdileri alıp, veritabanına yazan crawler. Arıyorsanız eren isimli şahısın GitHub’daki projesine bakabilirsiniz

https://github.com/eren/sozlukcrawler

Bu yazının da sonuna geldik. İyi günler dilerim ☺️

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu