学习笔记
文章平均质量分 81
以介绍项目结果与设计为主,长的像教程。可能含有大量代码,可能含有新知识点的总结说明。
憧憬少
个人hexo博客:https://yxchangingself.xyz/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫解析库BeautifulSoup速查
为了方便使用,将BeautifulSoup库常用的接口写到一起。 总结内容来源:《python3网络爬虫开发实战》崔庆才 导入与解析 from bs4 import Beat soup = BeautifulSoup(response.text,'lxml') 节点选择器 提取属性 获取到的是第一个标签 soup.title.string:获取title标签的文本内容 soup.title.n...原创 2019-09-10 19:08:00 · 541 阅读 · 1 评论 -
c++实现的简易倒排索引
前言 智能信息检索这门课程有个上机作业,题目是“实现倒排索引”。 用到了以前没有学的STL中的vector。 个人博客本文传送门 勿抄袭代码,代码仅供参考。转载注明出处 倒排索引简介 为了从文档集(collection)中检索出想要的结果,首先要将文档集中的每个词项(term)建立索引,以确定词项所在的文档(document)的id,从而返回根据关键字查询的结果。 倒排索引的格式大概是下图这样(代...原创 2019-04-04 22:05:08 · 3884 阅读 · 2 评论 -
python爬虫学习笔记5爬虫类结构优化
前言 打算全部以cookie来登陆,而不依赖于session(因为听组长说session没cookie快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我github的spider库里面。 前文传送门: python爬虫学习笔记1一个简单的爬虫 python爬虫学习笔记2模拟登录与数据库 python爬虫学...原创 2019-04-21 14:59:00 · 539 阅读 · 1 评论 -
python爬虫学习笔记4模拟登录函数的优化
前言 前面写的代码虽然完成了爬取的功能,但是过于凌乱,于是打算重构一遍。首先从登陆开始。 前文传送门: python爬虫学习笔记1一个简单的爬虫 python爬虫学习笔记2模拟登录与数据库 python爬虫学习笔记3封装爬虫类 个人博客本文传送门: python爬虫学习笔记4模拟登录函数的优化 改进前的代码 面向过程 这是第一次写的登录函数,获取登录信息和登录本身是放在一起的。 def lo...原创 2019-04-21 14:54:09 · 370 阅读 · 1 评论 -
python爬虫学习笔记3封装爬虫类
前言 在完成了基本的爬取任务之后,接到了将其封装为一个爬虫类的任务 个人博客传送门: python爬虫学习笔记1一个简单的爬虫 python爬虫学习笔记2模拟登录与数据库 由于本文比较长,建议前往我个人博客阅读有侧栏目录的版本: python爬虫学习笔记3封装爬虫类 这篇和前面两篇一样,是按照时间记录的。 转载注明出处。 任务介绍 1、尝试不使用session去进行爬取,最好能将cookie...原创 2019-04-21 14:47:55 · 1983 阅读 · 1 评论 -
python爬虫学习笔记2模拟登录与数据库
前言 为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务。这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库。 本文按照日期来记录我完成任务的过程,然后再整理一遍全部代码。读者可以通过下方传送门去我个人博客阅读,这样通过侧栏目录跳转阅读。不介绍库的安装。 对爬取的网站地址等内容进行了一些“打码处理”。 个人博客传送门: 爬虫学习笔记1一...原创 2019-03-13 20:58:15 · 897 阅读 · 1 评论 -
python爬虫学习笔记1
前言 我的个人博客内的这篇文章的传送门 学了python语法之后在b站搜索练手的小项目,发现了这个视频:Python实用练手小项目(超简单) 视频里面讲解了一个爬取图片网站图片的小爬虫。后面用到了我还没学的数据库,不过前面的部分是已经学了的,于是我就打算写一个不用数据库的,爬取某个盗版小说内容的爬虫。 声明:本人不会将得到的小说内容作任何商业用途,也请阅读此文章的各位读者遵纪守法,此文章只用作学习...原创 2019-02-08 21:53:34 · 219 阅读 · 0 评论
分享