python实现网络爬虫
文章平均质量分 77
weixin_42280639
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python实现网络爬虫基础学习(四)
抓取评论数的方法------函数将方法写成一个函数式,这样每次就只需要改变链接就可以获取我们要得到的总评论数 而且我们每次只要更新新闻的id即可,所以将我们获取的链接中的id去除掉,用一个{}代替,每次改变了连接后,我们只需要将id写入前一个链接即可。newsid=comos-hftenhz3270493&变为newsid=comos-{}&下面开始进行操作...原创 2018-07-25 22:55:07 · 270 阅读 · 0 评论 -
Python实现网络爬虫基础学习(三)
获取新闻评论数发现获取到的评论数为空 猜想数据可能是采用JavaScript的方式存放的,会不会并没有放在document下,那么试着找一下js里面,接下来需要大海捞针了,筛选一下其他的链接,找出可能放有评论数的工具还可以发现这里的评论也全部存放在这里 那么我们就可以进行操作,就可以发现确实有916数字 # 评论数# http://...原创 2018-07-25 18:41:55 · 264 阅读 · 0 评论 -
Python实现网络爬虫基础学习(二)
抓取新闻内文页面我的上一篇讲了如何抓取新闻的时间、内容以及链接import requests from bs4 import BeautifulSoup res = requests.get("http://www.ggj.gov.cn/xwzx/tpxw/") # 请求 获取国管局信息 res.encoding = "utf-8" soup = B...原创 2018-07-24 23:35:46 · 261 阅读 · 0 评论 -
Python实现网络爬虫基础学习(一)
非结构数据处理与网络爬虫非结构化数据:(1)没有固定的数据格式,例如网页资料;(2)必须透过ETL(Extract(数据抽取),Transformation(数据转换),Loading(数据储存)三个方法)工具将数据转换为结构化数据才能取用 网络爬虫-----将非结构化的网页数据转换成结构化信息 网页右键---->检查或者直接点击F12按键只要是新闻网页都有...原创 2018-07-24 13:46:53 · 410 阅读 · 0 评论 -
python实现网络爬虫之scrapy框架
今天老师给我们讲了一下使用vscode环境下python实现爬取豆瓣电影网的信息,老师用的python是3.6.5,而我用的是3.6.4,但是结果没有什么不同。准备工作:(1)先安装好python,我的电脑是安装的python3.6.4,安装python时第一步记得勾选添加路径 Add python3.6 to PATH....,如果安装成功后就可以在cmd运行 python -v就可以...原创 2018-09-10 17:46:27 · 742 阅读 · 0 评论
分享