- 博客(34)
- 收藏
- 关注
原创 scrapy模拟浏览器爬取51job(动态渲染页面爬取)
scrapy模拟浏览器爬取51job51job链接网络爬虫时,网页不止有静态页面还有动态页面,动态页面主要由JavaScript动态渲染,网络爬虫经常遇见爬取JavaScript动态渲染的页面。动态渲染页面爬取,就是模拟浏览器的运行方式,可以做到在浏览器中看到是什么内容爬取的源码就是相应的内容,实现了可见即可爬。这个方法在爬虫过程中会打开一个浏览器 加载该网页,自动操作浏览器浏览各个网页,同时也可爬取加载的页面 HTML。用一句简单 而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页
2021-09-11 12:49:04
2718
10
原创 scrapy框架 爬取重庆工程学院
目的:爬取重庆工程学院 中的管理学院的学院动态百度搜索重庆工程学院,看到如图所示因为我使用scarpy框架,不懂得可以看看我之前的文章(简单的理了一下步奏)
2021-09-06 09:03:52
1061
1
原创 Python数据分析与挖掘——泰坦尼克号
Python数据分析与挖掘——泰坦尼克号本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据,通过决策树等模型来预测测试集数据乘客的生存情况#导包import numpy as npimport pandas as pdfrom sklearn.tree import DecisionTreeClassifier as DTC #决策树from sklearn.model_selection import GridSearchCV # 超参数自动搜索模块from skle
2021-09-05 15:56:11
1668
1
原创 XPath 详讲
xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath被开发者用来当作小型查询语言,基于XML的树状结构,用于定位元素节点、属性节点、文本节点,提供在数据结构树中找寻节点的能力。lxml库的安装lxml库是一种执行效率高并且简单易学的第三方网页解析库,是本书推荐读者必须要掌握的网页解析库。lxml库不是Python标准库,需要自行安装。可以在命令行下使用pip命令安装lxml库。pip install lxml在
2021-09-02 09:03:17
653
原创 爬虫——豆瓣电影top250
爬虫——豆瓣电影top250无论是动态网页爬虫和静态网页爬虫,实现的思路基 本上都是获取页面 html、页面解析、数据保存或输出。虽然获取页面 html 以及数据保存都 已经封装为通用函数,但依然编写繁琐。使用爬虫框架可以很好的解决这些问题,让我们在 编写爬虫的过程中专注于页面解析,大大简化编写爬虫的工作量,并能提高爬虫运行的效率。所谓的爬虫框架,是一个半成品的爬虫,已经实现了工作队列、下载器、保存处理数据 的逻辑以及日志、异常处理、反反爬虫等通用功能。对于使用者来说,更多的工作是通过更 改配置调整需要
2021-01-10 14:26:24
1126
1
原创 频繁项集算法实现-商品购物篮
商品购物篮购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业研究的重点问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究客户的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本章使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。购物篮关联规则挖掘主要步骤如下:1)对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。2)对原始数据进行数据预处理,转换数据形式,使之符合Apr
2020-12-18 17:31:09
1462
2
原创 python数据分析与挖掘——航空数据模型
航空数据模型数据探索# 导入需要的库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False plane=pd.read_excel('./航空数据.xls') #读取数据plane.head()plane.info()des=plane.
2020-12-18 17:06:57
1184
1
原创 决策树-红酒分析
决策树是一种非参数的有监督学习方法决策树算法的核心是要解决两个问题:1)如何从数据表中找出最佳节点和最佳分枝?2)如何让决策树停止生长,防止过拟合?不纯度越低,决策树对训练集的拟合越好Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:输入”entropy“,使用信息熵(Entropy)输入”gini“,使用基尼系数(Gini Impurity)from sklearn.tree import DecisionTreeClassifier as DT
2020-11-20 22:20:52
4149
原创 Java异常处理机制
Java异常处理机制什么是异常运行时发生的错误称为异常。处理这些异常就称为异常处理。一旦引发异常,程序将突然中止,且控制将返回操作系统。发生异常后此前分配的所有资源都将保留在相同的状态,这将导致资源漏洞。Java异常处理基础Java异常处理机制采用一个统一和相对简单的抛出和处理错误的机制。如果一个方法本身能引发异常,当所调用的方法出现异常时,调用者可以捕获异常使之得到处理;也可以回避异常,这时异常将在调用的堆栈中向下传递,直到被处理。常见异常及其用途异常处理机制Java异常机
2020-11-20 22:00:54
793
1
原创 hbase基本操作命令及练习
hbase基本操作命令1.命名空间list_namespace:列举所以命名空间list_namespace_tables:列举指定命名空间中的表alter_namespace:修改命名空间create_namespace:创建命名空间describe_namespace:查看指定命名空间配置drop_namespace:删除命名空间2.新建表create ‘命名空间:表名’ , ‘列族名1’ , ‘列族名2’,… , ‘列族名n’create ‘命名空间:表名’,{语法参数}
2020-11-14 16:56:46
1548
原创 熟悉常用的Linux操作 练习题
熟悉常用的Linux操作一、 实验目的为后续上机实验做准备,熟悉常用的Linux操作。二、实验平台操作系统:Linux三、实验内容和要求cd命令:切换目录(1)切换到目录 /usr/localcd /usr/local(2)去到目前的上层目录cd . .(3)回到自己的主文件夹cd ~ls命令:查看文件与目录(4)查看目录/usr下所有的文件cd /usrls -almkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在cd /
2020-11-14 16:26:10
1805
1
原创 伪分布式Hadoop平台搭建
伪分布式Hadoop平台搭建一、 实验目的1.掌握配置集群节点间免密登录2.掌握配置JDK3.掌握配置部署hadoop的步骤和配置相关环境文件4.掌握如何启动HDFS二、实验环境电脑+VMware虚拟机一台内存配置要求:8G及以上三、实验步骤(一)创建hadoop用户(已创建请忽略)1、创建hadoop用户[root@hadoop1 ~]# adduser hadoop//创建用户,我命名为hadoop2、修改hadoop的主机名字vim /etc/hostnamemas
2020-11-14 16:20:46
440
1
原创 分布式数据库HBase
分布式数据库HBaseHBase简介1.从BigTable说起BigTable是一个分布式存储系统利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据使用谷歌分布式文件系统GFS作为底层数据存储采用Chubby提供协同服务管理可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、社交网站Orkut、视频共享网站YouTube和博客网站Blogger等2.HBase简介HB
2020-11-12 11:08:26
349
原创 java 面向对象 ——实现圆柱体类
java 面向对象 基础练习三种方式实现圆柱体类的设计并生成具体的圆柱体对象进行测试1,简单类(半径,高)2,类作为一个数据类型使用(底,高)3,继承(半径,高。父类是圆,子类是圆柱体)1,简单类(半径,高)package ZuoYe2_1;public class YuanZuTi { private double r;//半径 private double height;//高 final double PI=3.1415826;//常量π //构造方法 public Yu
2020-11-08 15:55:56
7279
1
原创 逻辑回归(一) 乳腺癌的数据集
逻辑回归回归,用于处理和预测连续型标签的算法线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。正则化L1范式表现为参数向量中的每一个参数的绝对数之和L2范式表现为参数向量中的每一个参数的平方和的开方值正则化强度逐渐增大,参数的取值会逐渐变小,L1正则化会将参数压缩为0,L2正则化只会让参数尽量小,不会取到0导入所需要的的库from sklearn.linear_model import LogisticRegressi
2020-11-06 21:56:05
3139
原创 多元线性回归——加利福尼亚房屋预测
导入需要的模块和库import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号from sklearn import linear_model #导入线性模型模块model=linear_model.Lin.
2020-11-06 21:37:14
1512
原创 多元线性回归——波士顿房屋价值模型预测
波士顿房屋价值模型预测import numpy as npimport pandas as pdimport matplotlib.pylab as pltplt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False from sklearn import linear_model model=linear_model.LinearRegression() 导入数据from s
2020-11-01 21:39:25
1573
原创 java基础小练习(36-40)
36.打印图形112123123412345package ZuoYe1_jt;public class ZuoYe_36 { public static void main(String[] args) { // TODO Auto-generated method stub for(int i=1;i<=5;i++) { for(int j=1;j<=i;j++) { System.out.print(j); } System.ou
2020-10-22 21:37:49
329
原创 java基础小练习(31-35)
31.打印九九乘法表,形式如下(三角形)package ZuoYe1_jt;public class ZuoYe_31 { /** *主方法:多重循环 *@param args *@return 没有返回值 */ public static void main(String[] args) { // TODO Auto-generated method stub //定义 int i;//控制外层循环 int j;//控制内层循环 //输出 System
2020-10-22 13:23:43
368
原创 java基础小练习(26-30)
26.求前50个素数的和。(素数是一个大于1且只能被1和它本身整除的整数)package ZuoYe1_jt;public class ZuoYe_26 { public static void main(String[] args) { // TODO Auto-generated method stub int x; int i; int sum=0; int count=0; for(x=2;x<=1000;x++) { //从2开始
2020-10-21 22:05:33
187
原创 java基础小练习(21-25)
21.判断某个数是否为完全数。(完全数:所有小于该数本身的因子之和等于该数本身,例如6是一个完全数,因为,6=1+2+3)package ZuoYe1_jt;import java.util.Scanner;public class ZuoYe_21 { public static void main(String[] args) { // TODO Auto-generated method stub //从控制台输入整数 Scanner input =new Scanner
2020-10-21 21:56:05
272
原创 java基础小练习(16-20)
16.统计1000以内所有能被7整除的数的个数。package ZuoYe1_jt;public class ZuoYe_16 { /** * 主方法:for循环,if语句 * @param args * @return */ public static void main(String[] args) { // TODO Auto-generated method stub int x;//数字 int count=0;//个数 for(x=1;x<
2020-10-11 12:26:55
610
原创 java 基础小练习(11-15)
java 基础小练习(11-15)11.求1到100之间的所有整数的和。package ZuoYe1_jt;public class ZuoYe_11 { public static void main(String[] args) { // TODO Auto-generated method stub int sum=0;//和 //输出 System.out.println("求1到100之间的所有整数的和"); //计算 for(int i=1;i<
2020-09-28 14:42:17
299
原创 Java 基础小练习(6-10)
6.三个数比较大小,输出最大值。package ZuoYe1_jt;public class ZuoYe_6 { /** *主方法:if语句 *@param args *@return 没有 */ public static void main(String[] args) { // TODO Auto-generated method stub int a=12;//定义任意数 int b=34; int c=5; int max;//中间量 //输出
2020-09-26 13:54:06
421
原创 java 基础练习(1-5)
java 基础小练习1.编程实现两个整数交换位置,例如:int x = 6,y = 9,交换后 x = 9,y = 6。package ZuoYe1_jt;/** * 编程实现两个整数交换位置,例如:int x = 6,y = 9,交换后 x = 9,y = 6。 */public class ZuoYe_1 { /** * 主方法 * @param args 命令行参数 * @return 没有返回值 */ public static void main(Stri
2020-09-26 13:41:22
849
原创 Python 函数练习题
1.编写一个名为collatz()的函数,它有一个名为number的参数。如果参数是偶数,那么collatz()就打印出number//2,如果number是奇数,collatz()就打印3*number+1def collatz(number): if number%2==0: return number//2 else: return 3*...
2019-11-12 21:19:08
1173
1
原创 Python 练习题 类
练习题定义一个Student类,具有name,sex,score属性。并使用这个类实例化几个不同的对象,检测下述要求是否达成:1.name为公有属性,sex和score为私有属性。2.构造函数的参数进行进行检查,如果不合理(类型不合理或者取值不合理),请拒绝生成对象。提示,需要用到isinstance和raise。3.给两个私有属性添加getter和setter方法。4.在成绩(scor...
2019-11-12 21:09:11
366
原创 Python 练习题 类
定义一个最简单的类定义一个类,格式如下:class 类名:属性列表方法列表class Student(object): #class表示类,Student表示类名,object表示附类 pass #pass表示占位,啥功能都没有,就是这里需要有一行语句,没有会报错。zs=Student() #Student为类,zs为实例...
2019-11-11 19:53:04
684
原创 javascriprt 练习
1、实现一个函数,求任两个整数之间(含这两个整数)所有整数之和。并写出它的箭头函数形式。{ let sumFun = function(_a,_b){ let a=_a; let b=_b let sum=0; for (let i=a;i<=b;i++){ sum+=i; }...
2019-11-10 13:17:36
228
原创 Python 练习题 词云
三国演义的词云对不必要的字词进行删除,对人名进行去重import jiebafrom wordcloud import WordCloudthreekingdoms=open('threekingdoms.txt',encoding='utf-8').read() threekingdomlist=list(jieba.cut(threekingdoms))' '.join(three...
2019-11-09 21:23:27
749
原创 Python 练习题 身体素质指数
身体素质指数设计一个calc_bmi函数,根据用户输入的身高(m)和体重(kg),调用该函数,算出BMI(身体质量指数)并返回两个值,第一个返回值是浮点型的BMI值,第二个返回值是字符串,说明体型是偏廋,正常,超重,还是肥胖。根据这两个返回值输出计算结果。要求:不限定函数调用时的参数顺序,可以身高在前,体重在后,也可以反过来。 例:bmi, text = calc_bmi(身高和体重) #请自...
2019-11-09 21:17:49
2506
原创 Python 练习题 阶乘
定义一个可变参数函数,求参数的阶乘和,比如参数为1,3,5,就求1!+3!+5!的和。def calc(*numbers): sum=0 for x in numbers: if not (isinstance(x,int) and x>0): raise TypeError('类型错误,要求正整数') ...
2019-11-09 21:06:08
354
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅