
爬虫
scratch、requests、request-html
Clairezcy
喜欢用技术手段研究感兴趣的问题,热衷数据分析和自然语言处理,寻找数据和语言文字背后的逻辑和联系,尤其看好知识图谱的发展~~
展开
-
【爬虫+文本分类】--新浪各类新闻标题,并用各类算法进行文本分类
自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:)**第一部分:爬虫**分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类...原创 2020-02-18 12:37:22 · 4195 阅读 · 9 评论 -
爬虫--上市公司名称业绩及相关新闻
刚发现request-html库,比requests好用,之前用requests爬过新浪新闻标题,这次用request-html爬取网易财经上市公司名称业绩,和东方财富网的上市公司新闻内容crawler_entity.pyfrom requests_html import HTMLSessionimport csvimport osimport randomUSER_AGENT...原创 2020-02-17 15:49:55 · 793 阅读 · 0 评论 -
记录scrapy爬虫----经典豆瓣图书排行
记录之前学习scrapy爬虫框架时写的一个脚本,ps.发现很多学过的东东,如果不及时复盘记录,后面用的少了就淡忘了。。。所以把之前搞过的东东都搬上来,常看常新,耶!1、新建scrapy project:选定文件夹,shift+鼠标右键,打开powershell,输入scrapy startproject douban_book_crawler按照提示输入:cd douban_book_craw...原创 2020-02-19 12:10:27 · 603 阅读 · 0 评论