# -*- coding: utf-8 -*-
import requests
from lxml import etree
"""
url = 'http://www.baidu.com'
r = requests.get(url, timeout=5)
r.encoding = r.apparent_encoding
print r.status_code
text = r.text
tree = etree.HTML(text)
result = etree.tostring(tree, encoding='utf-8') # 获取网页源代码内容,编码
print result # 网页源代码内容
table_all = tree.xpath('//table[@xxxx]/tr') # 找到带有'xxxx'的table标签下所有的tr标签
table_0 = tree.xpath('//table[@xxxx]/tr[1]') # 找到tr的第一个标签,从1开始。
th = table_all[0].xpath('./th') # 当前目录下找到所有的th标签
td = table_all[1].xpath('./td') # 当前目录下的td标签
# td_1 = table.xpath('//td') # 找到所有目录下得td标签
# 获得的数据为列表格式,需要用list[i]找到元素,用text方法取出列表内容。
print len(th)
for i in range(len(th)): # 分别取出th标签的内容 th[i].text
print th[i].text
"""
data = {"ACTIONID": "7",
"AJAX": "AJAX-TRUE",
"CATALOGID": "1837_xxpl",
"TABKEY": "tab1",
"tab2PAGENO": 1,
"tab2PAGECOUNT": "22",
"tab2RECORDCOUNT": "435",
"REPORT_ACTION": "navigate",
"txtDate": "2018-03-02"
}
url = 'http://www.szse.cn/szseWeb/FrontController.szse?'
r = requests.post(url, data=data, timeout=5)
r.encoding = r.apparent_encoding
text = r.text
tree = etree.HTML(text)
table_sum = tree.xpath('//table[@id="REPORTID_tab2"]/tr') # 两个table下tr标签,一个是所有数据的名称,第二个是所有数据。
table_qtd = tree.xpath('//table[@id="REPORTID_tab2"]/tr[1]')
print tree
print table_sum
print table_qtd
lxml.xpath用法
最新推荐文章于 2025-02-07 19:54:23 发布