- 博客(6)
- 收藏
- 关注
原创 爬虫快速入门(二):动态页面抓取
上一篇文章简单介绍了静态网页的爬取,今天和大家分享一些动态网页爬取的技巧。什么是动态网页呢,举个很常见的例子,当我们在浏览网站时,随着不断向下滑动网页,当前页面会不断刷新出新的内容,但浏览器址栏上的URL却始终没有变化。这种由JavaScript动态生成的页面,当我们通过浏览器查看它的网页源代码时,往往找不到页面上显示的内容。抓取动态页面有两种常用的方法,一是通过JavaScript逆向工程获取动态数据接口(真实的访问路径),另一种是利用selenium库模拟真实浏览器,获取JavaScript渲染后的内
2021-03-06 10:40:47
2101
原创 爬虫快速入门(一):静态页面爬取
在这个数据为王的时代,掌握一手好的模型炼丹技巧还远远不够,有时候就是那么一小撮数据,就会对模型性能产生至关重要的影响。虽说大一点的公司一般都有专门负责爬虫的同学,但求人不如求己,每一位炼丹师都应该掌握一些基本的爬虫知识。本篇文章就和大家聊一聊如何通过爬虫,获得自己想要的数据。今天先来讲讲相对简单的静态页面爬取,不同于动态页面,静态页面是存在于服务器(访问时没有查数据库的过程),不含程序,不可交互。简单来说,我们想要爬取的内容都可从网页源码直接解析得到。在爬取这类网页时,一般分为三步:模拟浏览器的真实请
2021-03-04 01:23:48
1030
1
原创 关联分析--Apriori算法
把机器学习实战上的代码敲了一遍由于python2报错的地方修改了仅供参考def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]def createC1(dataSet): C1=[] for transaction in dataSet: for item in transacti...
2018-09-22 21:25:07
351
原创 K-Means聚类算法实现
《机器学习实战》中关于kmeans的代码会报各种错误修改后的代码如下供大家参考def loadDataSet(fileName): dataMat=[] fr=open(fileName) for line in fr.readlines(): curLine=line.strip().split(' ') fltLine=li...
2018-09-21 16:43:48
300
原创 机器学习--LR算法实现
numpy库下的实践:import numpy as npimport matplotlib.pyplot as plt#加载数据def loadDataSet():dataMat=[]; labelMat=[]fr=open('testSet.txt')for line in fr.readlines():lineArr=line.strip().split() ...
2018-09-17 22:50:57
737
原创 Zookeeper异常ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse解决
最近在运行Zookeeper程序时,eclipse报如下错误:Exception in thread "main" org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse在网上搜了很多答案,把防火墙关了,还是报错,其他的答案也都没能解决问题...
2018-03-04 15:51:33
3464
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人