Skip to content

brucefeng10/registry_check

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

registry_check

目标:

目标是判断一个手机用户是否在某个网站注册,部分网站进入忘记密码页面输入手机号点击下一步,网页就可以给出反馈该号码是否注册,其他网站则会弹出验证码,需要正确输入验证码内容才能给出反馈信息。

方法:

  • 对于无需输入验证码的网站,通过selenium+chromediver(or phantomjs)爬虫即可完成;对于需要需要输入验证码的网站,需要将验证码截图保存,然后利用训练好的深度学习模型识别验证码内容,再通过selenium输入,进入下一步;
  • 全程使用selenium模拟登录,可以循环爬取大量信息,注意网站反爬机制;
  • 关于验证码识别模型,可以先截取少量验证码,手工标注,训练一个初步模型;然后将该模型进行在线识别,识别正确的保存下来作为增加的训练样本,识别错误的可以有针对性地进行人工标注,防止模型过拟合;积累一定训练集后,重新训练模型,大大提高模型识别准确率;
  • 关于验证码的识别模型,可参考https://github.com/ypwhs/captcha_break

文件说明:

  • 代码入口为
web_check.py
  • cnn_model里面存放验证码识别模型,xx_pic文件夹是截存下来的图片,

About

selenium网页登录爬虫+验证码识别

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published