爬虫_for_python

想飞的人

于 2016-12-01 08:52:43 发布

阅读量266

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签：爬虫 python

本文链接：https://blog.youkuaiyun.com/qq_26818085/article/details/53418050

python 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了Python爬虫技术的基础知识，包括requests库的安装与使用方法，如GET、POST等请求方式，以及如何解析网页内容。同时，还介绍了如何利用正则表达式和XPath进行数据提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫_for_python

requests安装
```
pip install requests
```

requests使用

requests.get()
requests.post()
requests.head()
requests.delete()

例子

import requests
url='http://www.baidu.com'
html=requests.get(url)
print html.text

python正则模块使用

findall(pattern,str,re.S)
search(pattern,str,re.S)
sub(pattern,str,replace)

例子

import re
urls=re.findall('<a href=(.*?)>',html.text,re.S)
for each in urls:
    print each
print re.search('<a href=(.*?)>',html.text,re.S)
for i in range(10):
    print re.sub('pn=\d','pn=%d'%i,pages)

xpath语法

//根节点
/下一层路径
[@xx=xx]特定的标签
/text（）以文本返回
/@para返回参数
string（.）当前层的所有内容作为一个字符串输出
start-with(str)所有已这个str开头的标签

例子

form lxml import etree
selector=etree.HTML（html.text）
content=selector.XPath('//div[start-with(@id,"test")]/text()')
for each  in content:
    print each
selector=etree.HTML(html.text)
tmp=selector.XPath('//div[@id="class"]')[0]
info=tmp.XPath('string(.)')
content2=info.replace('\n','')
print content2