Scrapy, Python'da yazılmış, ücretsiz ve açık kaynaklı bir web tarama çerçevesidir. Orijinal olarak web kazıma için tasarlanmış olup, API'leri kullanarak veya genel amaçlı bir web tarayıcısı olarak veri çıkarmak için de kullanılabilir
Müşteriler, ürünleriniz ve hizmetleriniz hakkında sosyal medya, çevrimiçi forumlar ve hemen hemen tüm internet üzerinden istenmeyen geri bildirimler bırakıyor. Bu araç Sikayetvar sitesinden banka müşterilerinin hesap işlemleri,kredi kartları, atm işlemleri,kredi işlemleri gibi banka işlemleri hakkında sorunlarını dile getirdikleri verileri çekmek için yazılan bir bot aracıdır. Scrapy web sayfasını doğrudan kazıyamadığı için HTTP API'sine sahip hafif bir tarayıcı olarak scrapy-splash kullanılmıştır.
pip install Scrapy
pip install scrapy-splash
Terminal üzerinden projeyi başlatmak
scrapy startproject whiskyscraper
Proje üzerinde uygulamanın gerçekleşeceği dizine gitmek
cd whiskyscraper/whiskyscraper
Kabuğa geri dönmek
scrapy shell
Url'e request göndermek
fetch('https://www.sikayetvar.com/banka')
Html tag'lerine göre verileri çekmek için scrapy selector documentasyon:
Response ile seçilen bir div tag'indeki class'a ait python kodu:
response.css(div.class)
Uygulamayı Çalıştırma ve Csv Dosyasına Kaydetme
scrapy crawl bankscraper -O bank.csv