python爬虫相关信息
opendatatools
pip install opendatatools
pip install html5lib
pip install pyecharts
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
Scrapy
pip install scrapy
生成项目
scrapy startproject quotes生成spider
scrapy genspider quotes quotes.toscrape.compipeline输出
settings.py 里面设置
ITEM_PIPELINES = {
‘quotes.pipelines.TextPipeline’: 400,
‘quotes.pipelines.MongoPipeline’: 300,
}
后面的400,300是序号,数值越小,优先级越高mongodb 参数在settings里面设置
pip install pymongo
Scrapy运行流程大概如下:
首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
然后,爬虫解析Response
若是解析出实体(Item),则交给实体管道进行进一步的处理。
若是解析出的是链接(URL),则把URL交给Scheduler等待抓取
Obey robots.txt rules
输出中文
但是对于现在版本的可以直接在setting文件中设置:FEED_EXPORT_ENCODING = ‘utf-8’
useragent
. useragent 模仿百度(“Baiduspider…”),2. IP每爬半个小时就换一个IP代理。
随机1-3秒爬一次,爬10次休息10秒,每天只在8-12,18-20点爬,隔几天还休息一下
图像识别(关键词 PIL,tesseract),再对验证码进行了二值化,分词,模式训练之后,识别了小黎的验证码
择了内置浏览器引擎的爬虫(关键词:PhantomJS,Selenium),在浏览器引擎中js 加密脚本算出了正确的结果,又一次拿到了对方的数据。
Twisted
Twisted是用Python实现的基于事件驱动的网络引擎框架。