python爬虫相关信息

发表于 2018-05-28 更新于 2018-05-30 分类于 Language 阅读次数：本文字数： 983 阅读时长 ≈ 1 分钟

opendatatools

pip install opendatatools
pip install html5lib

pip install pyecharts
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg

Scrapy

pip install scrapy

生成项目
scrapy startproject quotes
生成spider
scrapy genspider quotes quotes.toscrape.com
pipeline输出
settings.py 里面设置
ITEM_PIPELINES = {
‘quotes.pipelines.TextPipeline’: 400,
‘quotes.pipelines.MongoPipeline’: 300,
}
后面的400，300是序号，数值越小，优先级越高
mongodb 参数在settings里面设置
pip install pymongo

Scrapy运行流程大概如下：

首先，引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器，下载器把资源下载下来，并封装成应答包(Response)
然后，爬虫解析Response
若是解析出实体（Item）,则交给实体管道进行进一步的处理。
若是解析出的是链接（URL）,则把URL交给Scheduler等待抓取

Obey robots.txt rules

输出中文
但是对于现在版本的可以直接在setting文件中设置：FEED_EXPORT_ENCODING = ‘utf-8’

useragent
. useragent 模仿百度(“Baiduspider…”)，2. IP每爬半个小时就换一个IP代理。
随机1-3秒爬一次，爬10次休息10秒，每天只在8-12，18-20点爬，隔几天还休息一下
图像识别（关键词 PIL，tesseract），再对验证码进行了二值化，分词，模式训练之后，识别了小黎的验证码
择了内置浏览器引擎的爬虫(关键词：PhantomJS，Selenium)，在浏览器引擎中js 加密脚本算出了正确的结果，又一次拿到了对方的数据。

Twisted

Twisted是用Python实现的基于事件驱动的网络引擎框架。