GitHub - raalzate/webscraping: Escarbando la web usando java

Scraping Library

Usando esta librería ayuda a realizar Web Scraping de un forma mas fácil y ágil, apoyándose de la librería JSoup para poder extraer el documento HTML. En este caso no es necesario generar un mecanismos de navegación usando WebDriver.

Proporciona una adaptación de conexión, ejecución y transformación, para poder de forma diferente realizar la extracción ya sea de forma local o remota, usando diferentes mecanismo ya sea JSoup o Htmlunit.

Internamente para la definiciones de las acciones para la cual se desea realiza Web Scraping se realiza a través de un archivo externo JSON, con el objetivo de parametrizar y configurar de forma fácil, este archivo contiene las acciones que puede ser modificados en tiempo de ejecución.

EJEMPLO PARA OBTENER EL PRONOSTICO DEL TIEMPO

Usando el buscador de google podemos obtener el pronostico del tiempo en donde estemos.

String url = "https://www.google.com.co/search?q=pronostico+de+tiempo";

MetaModel metaModel = new MetaModel("consult", url, "GET");
metaModel.setSelector("#wob_tm");

Map<String, Object> result = new ScraperCommand()
            .execute(modelState -> Extractors.builder(new JSoupAdapter())
                        .setState(modelState)
                        .buildExtractor("dato_c", new TextSelector()), 
             metaModel);

System.out.println(result);

Para tener mas detalle de la ejecución del Scraping entrar aquí

Instalarla

Ir a los tags del repositorio para descargar el jar.

Contribución

Crea tu rama de características: git checkout -b feature/my-feat
Confirma tus cambios: `git commit -am 'Agrega alguna característica'
Empuje a la rama: git push origin feature/my-feat
Presentar una Merge Requests

Historia

Versión 1.0 (2019-01-09) - Ajustes en los comandos

Créditos

Lead Developer - Raul .A Alzate (@raul.alzate)

Name		Name	Last commit message	Last commit date
Latest commit History 52 Commits
.gradle		.gradle
gradle/wrapper		gradle/wrapper
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
build.gradle		build.gradle
gradlew		gradlew
gradlew.bat		gradlew.bat
settings.gradle		settings.gradle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scraping Library

Instalarla

Contribución

Historia

Créditos

About

Releases 1

Packages

Languages

License

raalzate/webscraping

Folders and files

Latest commit

History

Repository files navigation

Scraping Library

Instalarla

Contribución

Historia

Créditos

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages