
爬虫
爬虫相关
木子六日
好好学习天天向上
展开
-
gne——新闻网页的页面解析工具介绍
gne——新闻网页的页面解析工具介绍说明爬新闻的时候,针对不同的新闻网站要写不一样的解析代码。有一个大神写了一个工具叫gne,下面是这个工具的GitHub地址:gne——Github先要装一下这个包:pip install --upgrade gne使用方法# 导入gnefrom gne import GeneralNewsExtractorhtml = '''网页的html代码...原创 2020-05-02 13:18:26 · 1044 阅读 · 0 评论 -
解析HTML—— BeautifulSoup和xPath的基本使用
Beautifulsoup和xPath的基本使用Beautifulsoup的基本使用导包:from bs4 import BeautifulSoup解析:soup1 = BeautifulSoup(html,'html.parser'),这里的html是一个字符串,一般都是response的text属性。find和find_allfind:例如tag = soup.fin...原创 2020-03-21 16:16:24 · 6883 阅读 · 1 评论 -
python正则表达式基本使用
python正则表达式基本用法1.直接匹配import restr = 'hello world'ret = re.match('hello',str)print(ret.group())2.单个字符的匹配# . 匹配处换行符\n外的任意字符ret = re.match('.',str)print(ret.group())# \d 匹配任意单个数字:0~9 \D ...原创 2020-03-18 21:30:22 · 155 阅读 · 0 评论 -
python爬虫的简单上手
python爬虫简单上手要导的一些包import requestsimport reimport bs4from bs4 import BeautifulSoup爬下来的数据写进csv还是写进数据库,相应的还要导一些别的包。获取内容url = '你的url'r = requests.get(url)# 如果你的url是网页的话text = r.text# 如果是音频、p...原创 2020-02-16 22:08:50 · 154 阅读 · 0 评论 -
JAVA爬虫(一)
JAVA爬虫(一)jar包准备:htmlparser.jarhttpclient-4.1.2.jarHttpClient:用于模拟客户端请求HttpClient httpClient = new DefaultHttpClient();HttpGet:请求方式,还有HttpPost。HttpGet httpGet = new HttpGet(url);...原创 2020-01-16 20:08:33 · 197 阅读 · 0 评论