
网络爬虫
lger_Pro
这个作者很懒,什么都没留下…
展开
-
课程作业——爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
要求: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个...原创 2018-04-03 13:33:14 · 696 阅读 · 0 评论 -
网络爬虫基础练习
以下是练习使用URL链接: http://news.gzcc.cn/html/xiaoyuanxinwen/这里是使用了requests库和BeautifulSoup库来做爬虫练习,所以在使用前先安装好这两个库练习要求如下:取出h1标签的文本取出a标签的链接取出所有li标签的所有内容取出第2个li标签的a标签的第3个div标签的属性取出一条新闻的标题、链接、发布时间、来源im...原创 2018-03-28 20:27:18 · 434 阅读 · 0 评论 -
课程作业——获取全部校园新闻
作业要求:取出一个新闻列表页的全部新闻 包装成函数。获取总的新闻篇数,算出新闻总页数。获取全部新闻列表页的全部新闻详情。找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。前三个要求代码如下:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimpo...原创 2018-04-11 14:02:27 · 577 阅读 · 0 评论 -
课程作业——数据结构化与保存
1.将新闻的正文内容保存到文本文件 2.将新闻数据结构化为字典的列表:单条新闻的详情–>字典news一个列表页所有单条新闻汇总–>列表newsls.append(news)所有列表页的所有新闻汇总列表newstotal.extend(newsls)3.安装pandas,用pandas.DataFrame(newstotal),创建一个DataFrame对象df. 4...原创 2018-04-12 18:22:04 · 592 阅读 · 0 评论 -
在‘句子迷’爬取网友总结的方文山歌词并作词频统计
要求: 1. 选一个自己感兴趣的主题。 2. 用python 编写爬虫程序,从网络上爬取相关主题的数据。 3. 对爬了的数据进行文本分析,生成词云。 4. 对文本分析结果进行解释说明。 5. 写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6. 最后提交爬取的全部数据、爬虫及数据分析源代码。 在此次作业中,我通过爬取网站‘句子迷’中方文山的歌词片段...原创 2018-04-27 20:12:55 · 1070 阅读 · 2 评论 -
Hadoop综合大作业
Hadoop综合大作业 要求:用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。...原创 2018-05-24 22:30:57 · 1079 阅读 · 0 评论