
代码专区
明的大世界
在校研究生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习笔记:爬取古诗文网
1、目标网站目标网站:https://so.gushiwen.org/shiwen/default.aspx?2、爬虫目的爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中。3、爬虫程序# -*- coding:utf-8 -*-#爬取古诗网站import requestsimport re#下载数据def wr...原创 2020-04-09 19:23:29 · 1594 阅读 · 0 评论 -
爬虫学习笔记:爬取笔趣阁剑来小说
1、目的爬取笔趣阁网站的剑来小说正文内容,并保存到本地中。2、实现方案首先,请求目标网站的网页数据,通过分析找出章节地址的特点,并通过xpath获取到章节链接;其次,请求每一章节的内容,通过数据清洗去除脏数据,得到剑来文章正文;最后,保存数据到本地。3、程序设计3.1 请求数据模块请求模块,负责请求网站数据,主要使用req...原创 2020-04-04 13:02:20 · 1874 阅读 · 0 评论 -
爬虫学习笔记:爬取百度贴吧(美女吧)图片
1、摘要目的:爬虫项目学习,使用requests方法,爬取百度贴吧美女吧每个帖子的图片,并保存到本地中。方法:首先,通过requests请求美女吧网页内容;其次,通过xpath方法清洗数据,获取到每个帖子的url地址;再次,请求每个帖子的地址,并从每个帖子地址中爬取图片链接;最后,请求图片数据,以二进制格式保存数据到本地。2、网页分析如下图所示,为本次爬取的目标网站,百度美女吧,需...原创 2020-04-03 13:47:05 · 889 阅读 · 1 评论 -
自然语言处理——中文文本预处理
自然语言处理——中文文本预处理近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。1、中文语料的特点第一点:中文语料中词与词之间是紧密相连的,这一点不同与英文或者其它语种的语料,因此在分词的时候不能像英文使用空格分词,可以jieb...原创 2020-03-16 21:27:26 · 11699 阅读 · 9 评论