- Python3.4
- Virtualenv
pip install -r requierements.txt
python test.py
Extrae una lista de urls dado un dominio. i.e queremos extraer articulos de celularis.com:
ruby extractor.rb URL >> archivo_donde_se_guardan urls
- i.e:
ruby extractor.rb http://www.celularis.com/\?utm_source\=self\&utm_medium\=nav\&utm_campaign\=Nav%2BBlogs%2BHeader >> celularis
- i.e:
nota:
hacer gem install anemone
primero ;).
Extrae contenido de todas las urls en el archivo texts/finanzas
y las guarda en: texts/finanzas.json
:
python scraper.py texts/finanzas texts/finanzas.json