抓取代码:
# -*- coding: utf-8 -*-
import scrapy
from aidatacrawler.items import MeituluItem
import sys
reload(sys)
sy...
admin
2年前 (2019-03-05) 564℃ 0评论
0喜欢
这里的分布式去重用到三个东西
第一个为调度器,
第二个为优先级队列
第三个为持外化pipeline
这个需要安装scrapy-redis模块
1 # DUPEFILTER_CLASS = "scrapy_redis.dupefilte...
admin
2年前 (2019-02-21) 319℃ 0评论
0喜欢
get
def start_requests(self):
url = 'https://www.amazon.cn/gp/site-directory/ref=nav_deepshopall_variant_ful...
admin
2年前 (2019-02-20) 385℃ 0评论
0喜欢
Logging
Scrapy提供了log功能,可以通过 logging 模块使用,程序初步调试阶段可以开启error级别日志,这样信息会少很多,方便定位初级错误
LOG_FILE = "mySpider.log"
LOG_LEVEL = ...
admin
2年前 (2019-02-20) 368℃ 0评论
0喜欢
# -*-coding:utf-8-*-
import re
str = 'abc<img src="http://life240.com/abc.jpg"> check <img src="http://life...
admin
2年前 (2019-02-18) 386℃ 0评论
0喜欢
pipline, 这里用到setting的设置大家也可以学下,在pipeline里引用spider定义的 custom_setting
# -*- coding: utf-8 -*-
# Define your item pipeli...
admin
2年前 (2019-02-18) 359℃ 0评论
0喜欢
知乎上找的一个朋友的代码,这个方式确实可行
#淘宝模拟登陆facebook入口
from selenium import webdriver
from bs4 import BeautifulSoup
import time
#...
admin
2年前 (2018-12-24) 551℃ 0评论
2喜欢
windows下利用scrapy(python2.7)写爬虫,运行 scrapy crawl dmoz
命令时提示:exceptions.ImportError: No module named win32api
解决办法:安...
admin
3年前 (2018-06-12) 496℃ 0评论
0喜欢