python 提取网页内容工具

#!/usr/bin/python
#coding=utf8

__doc__="""
	This class is used to extract text from a string content,
	mostly used when we need to extract what we want from a 
	downloaded html page
"""

__author__="""jemygraw@gmail.com"""


class TextUtil:
	def __init__(self,content):
		self.content=content
		self.start_index=0
	def selectText(self,start,end):
		self.start_flag=start
		self.end_flag=end
		from_index=self.content.find(start,self.start_index)
		if from_index!=-1:
			end_index=self.content.find(end,from_index+len(start))
			if end_index!=-1:
				self.start_index=end_index+len(end)
				self.from_index=from_index
				self.end_index=end_index
				return True
		return False
		
	def extractText(self):
		return self.content[self.from_index+len(self.start_flag):self.end_index]
	
	def deselectText(self):
		self.from_index=0
		self.end_index=0
		self.start_index=0

转载于:https://my.oschina.net/jemygraw/blog/13918

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值