自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 逻辑回归原理及spark例子

之前在乐视网的时候组内有同事的挖掘工作用到逻辑回归,最近利用零散时间看了下逻辑回归的原理。主要参考了https://www.cnblogs.com/pinard/p/6029432.html  这篇文章,感觉写的比较清晰。例子中对K元逻辑回归没有详细推导,我自己推导了一下,过程也比较简单。(太长时间不写字,感觉已经不会拿笔了。。。)过程如图:然后运行了一下spark自带的Logis...

2018-09-14 17:03:02 884

原创 一个简单的spark贝叶斯分类程序

在笔记本跑了一个简单的贝叶斯分类示例,工程级的代码原理类似,只不过有些细节需要修改。主要代码如下:import org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.ml.feature.{HashingTF, _}import org.apache.hadoop.fs.Pathimpo...

2018-08-21 15:03:18 516

原创 Spark-特征抽取(TF-IDF)

mac单机简单实现一个Spark-特征抽取(TF-IDF)。TF-IDF原理:词频TF(t,d)是某个词t在文档d中出现的次数。 文档频率DF(t,D)是包含词t的文档d的数目。如果我们仅使用词频来衡量重要性,则很容易过分强调那些出现非常频繁但携带很少与文档相关信息量的词。比如:的,地,得一类的。如果一个词在在语料库中出现非常频繁,意味着它更不能携带特定文档的特定信息。逆文档频率...

2018-08-16 13:47:16 385

原创 idea环境开发spark程序

Mac安装idea后可以方便的进行spark相关代码开发。假设idea上已安装了scala插件(安装过程可百度)。第一步:新建一个maven工程及文件,在src目录下添加工程结构如图:NaiveBayesExample.scala文件文件内容:import org.apache.spark.{SparkConf, SparkContext}// $example o...

2018-08-09 17:00:45 165

原创 一小时搞定Mapreduce程序

之前一直用hive处理数据,觉得MR程序打包上传的比较麻烦,后来偶遇hive搞不定的文件网上找了个MR的例子稍微改一下感觉也比较方便,主要是处理速度快。MR程序主要是有3各类:main函数类,map重载类,reduce重载类。第一步:maven里面添加几个jar包:代码如下:<dependencies> <dependency> &...

2018-08-06 16:21:52 326

原创 Mac单机运行spark自带例子

第一步下载spark安装包:包不大,直接百度,官网下载即可。目前安装的是spark-2.2.0-bin-hadoop2.7。解压之后就可以使用了。进入安装包目录spark-2.2.0-bin-hadoop2.7,可见到如下文件夹:LICENSE        R        RELEASE        conf        derby.log    jars        log...

2018-08-03 17:08:25 1389

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除