网络爬虫
文章平均质量分 53
爬虫相关技术栈
极客点儿
但行好事,莫问前程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫爬下来的 HTML 数据如何准确、有效、快速的提取?
有同学做爬虫爬类似新闻网站的网页数据,但是一直没有找到好的数据提取方式,我之前写爬虫时记得有一种提取方式比较准确、有效、快速处理。它就是《基于行块分布函数的通用网页正文抽取算法:cx-extractor》,作者陈鑫之前是哈工大信息检索研究中心的研究员,这篇算法论文也是那时候写的。原文章找不到了,不过在谷歌的项目托管上找到了相关资料:https://code.google.com/archive/p/cx-extractor/。优快云 下载:https://download.youkuaiyun.com/downl原创 2022-04-01 17:59:14 · 722 阅读 · 0 评论 -
Mac 下配置 Python3 和 Selenium3 环境
Selenium 是一套 Web 测试框架,Selenium2 中新增加了 Webdriver,可以用了测试 UI 层,控制浏览器执行爬虫等操作。一、安装selenium可以通过 pip 安装:sudo pip3 installselenium也可以源码安装:https://pypi.python.org/pypi/selenium二、下载浏览器驱动selenium的三大浏览器驱动 Chro...原创 2018-06-15 10:45:10 · 5552 阅读 · 1 评论 -
解析 html 的几种操作方式
解析html是爬虫后的重要的一个处理数据的环节。一下记录解析html的几种方式。先介绍基础的辅助函数,主要用于获取html并输入解析后的结束#把传递解析函数,便于下面的修改def get_html(url, paraser=bs4_paraser): headers = { 'Accept': '*/*', 'Accept-Encoding': ...原创 2018-03-24 10:49:30 · 5506 阅读 · 0 评论 -
常见的反爬机制及应对策略
1. Headers:从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对Referer (上级链接)进行检测 从而实现爬虫。相应的解决措施:通过审查元素或者开发者工具获取相应的headers 然后把相应的headers 传输给python 的requests,这样就能很好地绕过。...原创 2019-03-31 22:35:35 · 3978 阅读 · 0 评论 -
python3 使用 selenium3 注意事项
selenium3 获取属性和元素中的文本内容1、通过 get_attribute(‘src’) 来获取属性的文本值rule = "//div[@class='access-check-code text-muted']//img"img_url = driver.find_element_by_xpath(rule).get_attribute('src')2、通过get_attrib...原创 2019-05-22 21:27:57 · 759 阅读 · 0 评论 -
如何采集 APP 上的数据
APP 爬虫和 WEB 爬虫类似,只不过 APP 的接口和数据是需要通过抓包来分析的,而且绝大多数 APP 都会采用 HTTPS 加密协议传送数据1. 抓包抓包工具有很多,可自行查找 Mac 下使用轻量级的 Charles 即可Charles 官方教程:https://www.charlesproxy.com/documentation/using-charles/ssl-certifica...原创 2019-05-14 12:10:49 · 13581 阅读 · 3 评论 -
如何破解 App 网络代理后出现网络不可用的情况
之前就 App 爬虫写了一个大概的流程,如何采集 APP 上的数据 但是在实际情况中,你会遇到各种各样的问题。编写爬虫的过程,就是破解 App 接口的过程,很多情况都是需要猜的。今天就谈谈我在 App 爬虫过程中遇到的一些坑我之前抓 app 包用的是安卓模拟器,但是模拟器太消耗资源了,我的 Mac 不一会儿就吱吱响~ 实在是有点儿心疼。所以这次我使用的是 小米 PAD2,顺便吐槽一下,千万别买...原创 2019-05-15 18:50:26 · 10313 阅读 · 0 评论
分享