Parallel Web Crawler

usage: crawler.py [-h] [-s START_URL] [-t THREAD_LIMIT] [-p PATH]

Crawls the web, like a spider. Uses threads, also like a spider.

optional arguments:
  -h, --help            show this help message and exit
  -s START_URL, --start-url START_URL
                        the starting point of the crawl, defaults to
                        https://www.wikipedia.org/
  -t THREAD_LIMIT, --thread-limit THREAD_LIMIT
                        the number of threads to use when crawling, defaults to 4
  -p PATH, --path PATH  if provided, crawling results will be loaded and saved to this file,
                        defaults to web.save

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.gitignore		.gitignore
crawler.py		crawler.py
readme.md		readme.md
requirements.txt		requirements.txt
setup.py		setup.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Parallel Web Crawler

About

Releases 1

Packages

Languages

ShaynAli/Parallel-Web-Crawler

Folders and files

Latest commit

History

Repository files navigation

Parallel Web Crawler

About

Topics

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages