分类:技术

scrapy 分布式爬取并去重配置

这里的分布式去重用到三个东西 第一个为调度器, 第二个为优先级队列 第三个为持外化pipeline 这个需要安装scrapy-redis模块 1 # DUPEFILTER_CLASS = "scrapy_redis.dupefilte...

admin 21小时前 3℃ 0评论 0喜欢

scrapy setting log

Logging Scrapy提供了log功能,可以通过 logging 模块使用,程序初步调试阶段可以开启error级别日志,这样信息会少很多,方便定位初级错误 LOG_FILE = "mySpider.log" LOG_LEVEL = ...

admin 2天前 3℃ 0评论 0喜欢

centos 安装php56

history命令历史 8 yum provides php #自带的只有5.4版本 9 rpm -Uvh https://mirror.webtatic.com/yum/el7/epel-release.rpm #更新源 10 rpm -...

admin 2个月前 (12-26) 55℃ 0评论 0喜欢

pycharm2018.3破解激活

两种方式都可以 一种永久破解,一种激活 先看激活: 第一步,host文件加上 0.0.0.0 account.jetbrains.com 第二步,打开pycharm, help>register,选择active code,输入 S...

admin 3个月前 (11-30) 125℃ 0评论 0喜欢

vim配置开发IDE

本文参考博客园一位vim资深大神的成果,我就拿来用了: github上一套很成熟的方案: https://github.com/ma6174/vim-deprecated 步骤如下: 安装vim sudo apt-get install v...

admin 3个月前 (11-22) 50℃ 0评论 0喜欢