爬虫心得

技术 admin 299℃ 0评论

最近用爬虫用的比较多,记录下一些感想

语言:php, 因为php比较熟,所以还是想用php进行快速开发,当然python go也会比较好

以前用正则,现在直接xpath解析,php有个比较好用的phpquery,懒得写正则

代理:看了下代理获取的工具,比较出名的是proxypool, 有go版本和python版本,这个最后我还是自己写了一套,其实大家可以参考它的一些结构就可以写一个比较好的用。

  • 代理网站收集
  • 抓取对应网站代理,这个注意你服务器开放端口(我的只抓80端口的代理)
  • 代理较验(两次取baidu的robots.txt)正确则认为可用
  • 代理评分,这个比较牛逼的想法,初始10分,小于0分直接弃用(抓取时自动进行评分)
  • 代理池定时更新

其实细则不一一列举

对了,抓取内容时加一些重试机制吧,至少一次,这样可以比较好地保证抓取内容的完整性

转载请注明:朋克网 » 爬虫心得

喜欢 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址