爬虫
hi_zf
天地万物 生生不息
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫学习笔记 01-02
网址池的实现原创 2020-11-30 16:00:11 · 112 阅读 · 0 评论 -
python爬虫基本概念
爬虫学习笔记 01-01原创 2020-11-29 00:13:05 · 254 阅读 · 0 评论 -
win环境下selenium设置webdriver.exe的相对路径
将selenium的webdriver文件放到resources文件夹下,并使用相对路径配置selenium使其通适 这样做的好处是统一了路径在不同的电脑可以不再修改代码中webdriver的路径 缺点是webdriver的版本要和Chrome的版本一致 String osName = System.getProperties().getProperty("os.name"); if (!osName.equals("Linux")) { /.原创 2020-10-12 13:31:52 · 3023 阅读 · 0 评论 -
聚焦爬虫与通用爬虫的区别
为什么要学习爬虫? 学习爬虫,可以私人订制一个搜索引擎。 大数据时代,要进行数据分析,首先要有数据源。 对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。 什么是网络爬虫? 模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序。 只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做。意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以抓取。 爬虫的用途 主要用:途数据采集 其他用途:12306抢票、各种抢购、投票...转载 2020-06-01 09:27:54 · 2126 阅读 · 0 评论 -
对HTML中的table拆分合并的行或列
对于合并的表格 拆分 拆分后我会将上下两行合并为面积(单位:平方米) 和 面积(单位:亩) 两个字段作为属性名 , 这个方法同样适用于 数据的拆分 思路是先定义一个二维数组,按照td的colSpan和rowSpan,映射覆盖的二维数组 public UnitBox[][] splitHtmlTable(int size, List<HtmlTableRow&...原创 2020-03-17 19:42:36 · 3189 阅读 · 2 评论 -
Charles安装与配置及https抓包
安装与配置: https://www.jianshu.com/p/d0a5e6986445/ https: https://www.cnblogs.com/ceshijiagoushi/p/6812493.html https://www.jianshu.com/p/75126f57e933 备注:想要抓取所有站点,只需配置为*:443即可 ...原创 2020-03-03 07:20:20 · 230 阅读 · 0 评论 -
cookie反爬措施的应对
有些站点再初次访问的时候会有cookie验证,会拒绝请求,因为代码使用htmlunit或者selenium浏览器的时候每一次都是全新启动所以没有cookie 这个时候重新刷新一下界面可以解决大部分问题:) 注 : 不要忘了开启cookie支持(如果默认关闭或者没开的情况下) 注:这个是我的个人经验,并没有深究,爬虫也没有很niubility 欢迎交流 指导 3Q ...原创 2020-02-26 10:49:26 · 921 阅读 · 0 评论
分享