uncledrew2017-优快云博客

原创爬虫快速入门（二）：动态页面抓取

上一篇文章简单介绍了静态网页的爬取，今天和大家分享一些动态网页爬取的技巧。什么是动态网页呢，举个很常见的例子，当我们在浏览网站时，随着不断向下滑动网页，当前页面会不断刷新出新的内容，但浏览器址栏上的URL却始终没有变化。这种由JavaScript动态生成的页面，当我们通过浏览器查看它的网页源代码时，往往找不到页面上显示的内容。抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内

2021-03-06 10:40:47 2370

原创爬虫快速入门（一）：静态页面爬取

在这个数据为王的时代，掌握一手好的模型炼丹技巧还远远不够，有时候就是那么一小撮数据，就会对模型性能产生至关重要的影响。虽说大一点的公司一般都有专门负责爬虫的同学，但求人不如求己，每一位炼丹师都应该掌握一些基本的爬虫知识。本篇文章就和大家聊一聊如何通过爬虫，获得自己想要的数据。今天先来讲讲相对简单的静态页面爬取，不同于动态页面，静态页面是存在于服务器（访问时没有查数据库的过程），不含程序，不可交互。简单来说，我们想要爬取的内容都可从网页源码直接解析得到。在爬取这类网页时，一般分为三步：模拟浏览器的真实请

2021-03-04 01:23:48 1087 1

德鲁大叔的博客

原创爬虫快速入门（二）：动态页面抓取

原创爬虫快速入门（一）：静态页面爬取

原创关联分析--Apriori算法

原创 K-Means聚类算法实现

原创机器学习--LR算法实现

原创 Zookeeper异常ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse解决

空空如也

空空如也

原创 爬虫快速入门（二）：动态页面抓取

原创 爬虫快速入门（一）：静态页面爬取

原创 关联分析--Apriori算法

原创 K-Means聚类算法实现

原创 机器学习--LR算法实现

原创 Zookeeper异常ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse解决

空空如也

空空如也

原创爬虫快速入门（二）：动态页面抓取

原创爬虫快速入门（一）：静态页面爬取

原创关联分析--Apriori算法

原创机器学习--LR算法实现