Skip to content

lzqwebsoft/QiuShiBaike

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 

Repository files navigation

关于

本项目为一个娱乐项目,使用Python Scrapy爬取 糗事百科前35页热门笑话,并将其保存到MySQL数据库中,然后使用Java编写的一个客户端读取其内容并显示的小应用;用于学习Python Scrapy插件。

目录结构

  • Java ------- Java糗百客户端程序
  • Python ----- Python Scrapy糗百爬取程序

Java编译

  • cd QiuShiBaike/Java/src
  • javac -classpath . -encoding utf8 Main.java

Java运行

  • java -classpath <mysql驱动>.jar;. Main

Python依赖模块

  • service_identity
  • pywin32(windows环境)
  • mysql.connector
  • PIL

注意

  1. Java糗百客户端程序使用One-jar打包,使用方法参见:http://lzqwebsoft.net/show/20140809085836.html
  2. 在使用打包好的Java/bin/qiushiclient-v1.0.jar文件时,需修改qiushiclient-v1.0.jar/main/qiushiclient.jar/config.properties文件中的数据库连接配置文件。
  3. 运行Python服务端应用时先修改tutorial/tutorial/settings.py数据库配置,及爬取的图片文件存放目录路径IMAGES_STORE:
IMAGES_STORE = '/root/Images/QiuShiBaiKe'

DATABASE = {
     'host' : 'localhost',
     'port' : 3306,
     'user' : 'root',
     'password' : '123456',
     'database' : 'scrape',
     'raise_on_warnings': True,
}

运行截图

About

Scrapy糗事百科爬虫及Java版客户端

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published