python模块学习之xpath(requests, lxml)

python admin 9℃ 0评论

这里要讲到xpath,以前用php抓内容都是用正则,呵呵

xpath对结构化的文档解析非常友好,配合chrome插件xpath helper能够快速准确的定位html节点

前面没有讲过requests, Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。支持 Python3

# -*- coding: utf-8 -*-

import requests

from lxml import html

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36',
    "Cookie": 'd_c0="ACCCItg0bguPTuSWzkKoBlPEFSv_VHbV4f4=|1489154388"; _zap=a1cd94b2-4f86-4883-917b-3915b8cb26e9; _ga=GA1.2.1981484424.1494568992; r_cap_id="NzQxYTE5MGNiNTE4NDk5Mjg4M2FjZTJjMGE1ZjM2NTc=|1498541307|3757c40a1662d8408b6edf67f352361bb24a81e2"; cap_id="MGI3ZDQwOWI4ZWY2NGZkNDkyZDVmMDdiZDk3ZmI5NWM=|1498541307|4bcc436cdfa7cbddf850f22cbf2a0813d527dbc7"; z_c0=Mi4wQUFDQWViRWNBQUFBSUlJaTJEUnVDeGNBQUFCaEFsVk5fbmw1V1FEeEFKcU9fV05IT3hXbk1oU05xVXdqazFKZk9B|1498541310|abb3f10588b5aaf8629f9c3b908fc96ee07010a2; q_c1=2343456a6f4546169eff16afd3ca3eda|1500188880000|1489154388000; q_c1=2343456a6f4546169eff16afd3ca3eda|1500188880000|1489154388000; aliyungf_tc=AQAAAPpv11DjqwEAAS10e/kIN5mMraiF; _xsrf=21251e64-0e14-487d-ade9-ec26e3b48d7c; __utma=51854390.1981484424.1494568992.1500603028.1500734369.2; __utmb=51854390.0.10.1500734369; __utmc=51854390; __utmz=51854390.1500734369.2.2.utmcsr=zhihu.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmv=51854390.100-1|2=registration_date=20130729=1^3=entry_date=20130729=1'
}

url = 'https://life240.com'
resp = requests.get(url).content

content = html.fromstring(resp)

print content


arr = content.xpath('//h2/a/text()')
for title in arr:
    print title

运行结果:

<Element html at 0x4e76ae8>
说到清新女神裸妆肌 还是郭碧婷最专业! 
 
口线一哥李佳琦推荐视频汇总,代购最无奈的网红 
 
冬季护唇指南 时尚博主教你养出你的嘟嘟唇 
 
你们在关注海星CP,而我只看到了吴昕的护肤大法! 
 
我觉得有必要给你们安利一下  “南韩颜霸”裴珠泫啦!  
中国最重名重姓排行榜,几个名字是你认识的人  
倪妮女神都逃不过的黑眼圈,你怕了吗?  
林允都看不下去的美妆蛋,你的美妆蛋好好清洗了吗!  
敏感肌换季护肤大作战,准备好你的护肤大法了吗!  
过年必备的祛痘攻略 还不速速收好?  
[Finished in 2.3s]

 

转载请注明:朋克网 » python模块学习之xpath(requests, lxml)

喜欢 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址