自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

池边的树的博客

你有多渴望 你有多付出

  • 博客(27)
  • 收藏
  • 关注

原创 wsl简单安装Kafka

wsl简单安装Kafka1 安装环境Window11 安装 wsl Ubuntu 18.04 LTS2 安装Java3 下载kafka安装包下载地址:https://kafka.apache.org/downloads选择想要下载的二进制安装包我这里使用的是kafka2.11(最好选用scala 2.12)4 windows本地新建个文件夹解压wsl中可以在/mnt文件加下直接访问windows文件,例如我windows的路径D:\hadoop\kafka_2.12-2.1.0,对应的w

2022-03-19 12:37:25 3575 1

原创 SpringBoot使用jdbc查询sql(druid手动创建DataSource)

SpringBoot的默认支持的连接池有四种hikari,tomcat, dbcp,dbcp2,底层配置好的连接池为hikari,这里使用druid连接池可以使用配置方式也可用硬编码方式,这里使用硬编码手动创建DataSource方式实现以下为代码import com.alibaba.druid.pool.DruidDataSource;import com.alibaba.fastjson.JSON;import com.xiangyun.supervise.BaseTest;import l

2022-02-22 12:16:50 2259

原创 springboot使用使用poi生成excel(使用反射获取数据pojo属性)

springboot使用使用poi生成excel(使用反射获取数据pojo属性)业务场景Excel生成工具类UUID生成工具类service接口及实现类controller使用postman进行调试业务场景系统导出数据较多,由前端查询后进行导出下载存在性能问题,故后端进行数据查询后生成excel,前端直接调用导出接口进行下载。考虑到通用性(不同业务场景下导出数据不同),使用反射获取传输数据的pojo属性,并匹配传入参数中需导出字段输出excel文件流。Excel生成工具类import lombok.

2021-10-26 15:03:22 797 1

原创 Redis工具类RedisPoolUntil

Redis工具类RedisPoolUntilredis.properties#redis服务器ipredis.ip=127.0.0.1#redis服务器端口号redis.port=6379#redis密码redis.passWord=#与服务器建立连接的超时时间redis.timeout=3000#jedis的最大活跃连接数pool.maxTotal=10#jedis最大空闲连接数pool.maxIdle=3#jedis池没有连接对象返回时,等待可用连接的最大时间,单位毫秒,默认

2021-06-23 09:03:18 377

原创 ABtest与Python代码

AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。而分析,评估测试结果的方法是使用统计学中的假设检验,假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。下面将基于Z检验介绍A/B测试。AB测试步骤确定...

2019-08-25 20:23:13 4892 1

原创 远程连接hive配置

远程连接hive配置1. 配置hive-site.xml在hive-site.xml中加入配置信息,ip需要修改。<property> <name>hive.server2.thrift.port</name> <value>10000</value></property><property>...

2019-06-08 23:00:16 7717

原创 集成学习

集成学习集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务。其一般结构为:先产生一组个体学习器(individual learner) 。个体学习器通常由一种或者多种现有的学习算法从训练数据中产生。如果个体学习器都是从某一种学习算法从训练数据中产生,则称这样的集成学习是同质的(homogenerous)。此时的个体学习器也称作基学习器(bas...

2019-06-07 19:03:55 1348

原创 Idea远程连接Hadoop运行MapReduce

Idea远程连接Hadoop运行MapReduce环境:hadoop2.7.1虚拟机伪分布式集群虚拟机镜像文件下载看到网上有许多文章,都很复杂,其实只需要以下三步就可以使用Idea远程连接Hadoop运行MapReduce新建项目导入jar包及设置配置文件编写MapReduce运行一、新建项目这里不用多说,新建普通项目。二、导入jar包及配置文件导入jar包HADO...

2019-06-02 15:16:09 3730 2

原创 HBase Java常用API

HBase Java常用API常用APIhbase类功能org.apache.hadoop.hbase.HBaseConfigurationHBase配置信息。默认的构造方法会尝试从hbase-default.xml和hbase-site.xml中读取配置。org.apache.hadoop.hbase.client.HBaseAdmin提供了一个接口来管理HBa...

2019-05-26 13:49:48 242

原创 远程访问hadoop拒绝连接9000端口

远程访问hadoop查看端口开放情况netstat -tpnl修改hists配置文件sudo vim /etc/hostslocalhost(或master)ip由127.0.0.1修改为0.0.0.0再次查看端口开放情况netstat -tpnl重启hadoop这时只有访问权限,如需修改权限需要在hdfs namenode所在机器添加新用户adduser ...

2019-05-26 00:07:12 3986 3

原创 K-Means

K-Means在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。一个经典的无监督学习任务:寻找数据的最佳表达(representation)。常见的有:低维表达:试图将数据(位于高维空间)中的信息尽可能压缩在一个较低维空间中。稀疏表达:将数据嵌入到大多数项为零的...

2019-05-24 00:06:58 964

原创 HDFS Java常用API

HDFS Java常用API常用APIhadoop类功能org.apache.hadoop.fs.FileSystem一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有的可能使用Hadoop文件系统的代码都要使用到这个类org.apache.hadoop.fs.FileStatus客户端可见的文件状态信息org.apache.hadoop.fs.F...

2019-05-19 23:42:38 349

转载 K近邻

K近邻k近邻法(k-Nearest Neighbor,简称kNN)是一种基本的分类与回归方法。分类问题:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。k近邻法不具有显式的学习过程,它是直接预测。它是惰性学习(lazy learning)的著名代表。它实际上利用训练数据集对特...

2019-05-11 23:04:30 5553

原创 支持向量机

支持向量机支持向量机(Support Vector Machine ,简称SVM)是一种二分类模型。它是定义在特征空间上的、间隔最大的线性分类器。间隔最大使得支持向量机有别于感知机。如果数据集是线性可分的,那么感知机获得的模型可能有很多个,而支持向量机选择的是间隔最大的那一个。支持向量机还支持核技巧,从而使它成为实质上的非线性分类器。支持向量机支持处理线性可分数据集、...

2019-05-08 22:52:18 505

原创 约束优化-拉格朗日乘子法

约束优化-拉格朗日乘子法拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值方法。通过引入拉格朗日乘子,可将有ddd个变量与kkk个约束条件的最优化问题转化为具有d+kd+kd+k个变量的无约束优化问题求解一、原始问题假设x\mathbf xx为ddd维向量,,欲寻找x\mathbf xx的某个取值x∗\mathbf x^*x∗,使目标函数f(x...

2019-05-01 20:24:53 1303

原创 朴素贝叶斯

朴素贝叶斯一、贝叶斯定理设S\mathbb{S}S为试验EEE的样本空间; B1,B2,…,BnB_1,B_2,…,B_nB1​,B2​,…,Bn​为EEE的一组事件。若 :Bi⋂Bj=ϕ,i≠j,i,j=1,2,…,nB_i\bigcap B_j = \phi,i\neq j,i,j=1, 2,…,nBi​⋂Bj​=ϕ,i̸​=j,i,j=1,2,…,nB1⋃B2…⋃Bn=SB_...

2019-04-27 15:15:38 243

原创 决策树

决策树决策树(decision tree)是一种常见的机器学习算法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看作对"当前样本属于正类吗?"这个问题的"决策"或"判定"过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应...

2019-04-20 22:21:50 1281

原创 逻辑回归

逻辑回归一、问题考虑二分类问题给定给定数据集D\mathbf{D}D = {(x1\mathbf{x}_{1}x1​,y1y_{1}y1​),(x2\mathbf{x}_{2}x2​,y2y_{2}y2​),…,(xm\mathbf{x}_{m}xm​,ymy_{m}ym​)},其中 xi\mathbf{x}_{i}xi​ = {xi1x_{i1}xi1​;xi2x_{i2}xi2​;…...

2019-04-07 18:20:15 301

原创 线性回归

线性回归一、问题1.1 线性模型基本形式给定d个属性描述的示例 x=(x1;x2;...;xd)\mathbf{x} = (x_{1};x_{2};...;x_{d})x=(x1​;x2​;...;xd​),其中xix_{i}xi​是x\mathbf{x}x在第iii个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即(1)f(x)=ω1x...

2019-04-06 14:54:59 321

原创 流浪地球热门影评数据分析

既然已经获取到了数据,下面就可以开始进行数据分析了(数据爬取的文章在这里https://blog.youkuaiyun.com/weixin_44508906/article/details/87904982)首先要理清一下分析思路无论做什么分析,最先做的肯定是数据处理,将数据处理成我们想要的格式并进行数据清洗 观察数据,进行统计性描述(这里只有一个score,且数据量过小,就略过了),确立分析...

2019-03-01 16:59:06 1422 17

原创 scrapy框架实现豆瓣爬取热门短评

最近流浪地球的话题非常热,于是我想做一篇关于流浪地球的影评分析。首先要获取数据,于是这两天学习了一下scrapy框架并简单地实现了豆瓣热门点评的爬取。思路是这样:获取评论页面 查看评论页面,根据页面能提供的内容确定爬取数据指标 分析评论页面,查看所需数据所在位置 实现单页面抓取 实现单页面存储 完善代码,爬取所有页面一、获取评论页面1、进入豆瓣电影网页,在搜索框中输入流浪地...

2019-02-25 15:59:15 1852

原创 scrapy设置headers,cookies

scrapy中有三种方式设置headers,cookiessetting中设置cookie middlewares中设置cookie sipder文件中重写start_requests方法这里记录第三种,重写start_requests方法,这里以豆瓣网为例一、设置请求头headers在start_request中新增headers = { 'User-Agent'...

2019-02-23 19:16:44 13938 2

原创 WordCloud词云包的安装

Windows安装1.下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloudcp代表python版本号,如cp37为python3.7打开python shell查看自己是下载win32还是win64 注意:这里的win64,win32不代表cpu位数2.安装进入安装包下载路径,运行shell,使用pip in...

2019-02-22 15:59:05 2396

原创 mac配置python+selenium+chromedriver

1、安装seleniumpip install selenium2、下载chromedriverchromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html根据chrome版本下载对应的chromedriver下载后解压为chromedriver文件 3、将chromedriver移...

2019-02-22 14:12:33 1223

转载 ImportError: cannot import name '_validate_lengths'

找到:Anaconda3/lib/python3.6/site-packages/numpy/lib/arraypad.py   954行,添加下面两个函数保存,重新加载即可消除错误 def _normalize_shape(ndarray, shape, cast_to_int=True): """ Private function which does some chec...

2019-02-15 11:07:25 12731 30

原创 朴素贝叶斯文本分类

1、文档共有 4 种类型:女性、体育、文学、校园2、训练集放到 train 文件夹里,测试集放到 test 文件夹里,停用词放到 stop 文件夹里使用朴素贝叶斯分类对训练集进行训练,并对测试集进行验证,并给出测试集的准确率极客时间|数据分析45讲练习题https://time.geekbang.org/column/article/79762import osimport j...

2019-02-12 21:34:52 601

原创 Matplotlib/Seaborn中文字体乱码问题解决-Windows+Mac

Windows1.改变全局字体from pylab importmplmpl.rcParams['font.sans-serif']=['FangSong']mpl.rcParams['axes.unicode_minus']=False或import matplotlibmatplotlib.rcParams['font.family']='SimHei'#黑体'S...

2019-01-26 23:45:24 2614 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除