- 博客(5)
- 收藏
- 关注
原创 知乎爬虫二
爬虫目标本次爬虫需要从知乎的话题精华回答中爬取前1000个回答的问题。然后得到关注数最多的100个问题的url后,到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分:1.爬取精华回答页面,获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数,用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数、回答时间、回...
2020-04-21 00:14:18
469
原创 获取新闻联播文字稿
从tushare获取央视联播新闻稿数据联播新闻稿获取tushare实际上是一个支持金融分析的接口包,主要提供股票数据。在其提供的特色大数据中有新闻联播文字稿。2020年新冠疫情期间还添加了新冠肺炎感染人数、全球新冠疫情数据。代码import tushare as tsts.set_token('xxx1')pro = ts.pro_api('xxx1')df = pro.cctv_...
2020-04-20 23:55:56
1390
原创 知乎动态数据加载爬虫
爬虫目标本次爬虫需要从知乎的话题新型冠状病毒肺炎的精华回答中爬取前100个回答的问题。然后得到<=100的问题的url后,到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分:1.爬取精华回答页面,获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数,用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数...
2020-04-20 23:53:51
723
原创 Python文本分析及预处理
文本分析的基本功能学习,包括句子切分、单词切分、大小写转化、删除停用词、题干提取、词性还原。基本功能学习#句子切分,单词切分import nltka='i have a pen, i have a apple's=nltk.sent_tokenize(a)print (s)w=[]for i in s: for j in nltk.word_tokenize(i): ...
2019-10-09 16:40:26
964
原创 arp协议的学习记录
小白的arp协议的学习记录因为最初是用OneNote记录的所以直接使用链接。arp的捕获arp请求包和回应包的分析arp数据包编辑与捕获
2019-03-22 13:28:11
149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人