怎么把html相同部分提取,如何提取HTML段落的某些部分

我不熟悉网页垃圾和正则表达式,在这里面临一个问题。我的一段代码给了我一个HTML输出,但是我需要从段落中提取出某个部分,而不是完整的段落。我需要帮助。下面是我的代码。你知道吗import mechanize

from bs4 import BeautifulSoup

import urllib2

br = mechanize.Browser()

response = br.open("http://www.consultadni.info/index.php")

br.select_form(name="form1")

br['APE_PAT']='PATRICIO'

br['APE_MAT']='GAMARRA'

br['NOMBRES']='MARCELINA'

req=br.submit().read()

soup = BeautifulSoup(req, "lxml")

for link in soup.findAll("a"):

sub=link.get("href")

soup1 = BeautifulSoup(sub, "lxml")

print soup1.find_all('p')

屏幕输出:[

/

]

[

datospersonales.php?nc=PATRICIO GAMARRA MARCELINA&dni1=40772568&dni2=12405868&id1=12a40a58a68&id2=30/06/1980&dni3=40631880

]

[

datospersonales.php?nc=PATRICIO GAMARRA MARCELINA&dni1=40772568&dni2=12405868&id1=12a40a58a68&id2=30/06/1980&dni3=40631880

]

[

http://www.infocorpperuconsultatusdeudas.blogspot.com/2015/05/infocorp-consulta-gratis-tu-reporte-de.html?ref=dnionline

]

我需要什么:30/06/1980&40631880

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值