- 博客(6)
- 收藏
- 关注
原创 逻辑回归原理及spark例子
之前在乐视网的时候组内有同事的挖掘工作用到逻辑回归,最近利用零散时间看了下逻辑回归的原理。主要参考了https://www.cnblogs.com/pinard/p/6029432.html 这篇文章,感觉写的比较清晰。例子中对K元逻辑回归没有详细推导,我自己推导了一下,过程也比较简单。(太长时间不写字,感觉已经不会拿笔了。。。)过程如图:然后运行了一下spark自带的Logis...
2018-09-14 17:03:02
884
原创 一个简单的spark贝叶斯分类程序
在笔记本跑了一个简单的贝叶斯分类示例,工程级的代码原理类似,只不过有些细节需要修改。主要代码如下:import org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.ml.feature.{HashingTF, _}import org.apache.hadoop.fs.Pathimpo...
2018-08-21 15:03:18
516
原创 Spark-特征抽取(TF-IDF)
mac单机简单实现一个Spark-特征抽取(TF-IDF)。TF-IDF原理:词频TF(t,d)是某个词t在文档d中出现的次数。 文档频率DF(t,D)是包含词t的文档d的数目。如果我们仅使用词频来衡量重要性,则很容易过分强调那些出现非常频繁但携带很少与文档相关信息量的词。比如:的,地,得一类的。如果一个词在在语料库中出现非常频繁,意味着它更不能携带特定文档的特定信息。逆文档频率...
2018-08-16 13:47:16
385
原创 idea环境开发spark程序
Mac安装idea后可以方便的进行spark相关代码开发。假设idea上已安装了scala插件(安装过程可百度)。第一步:新建一个maven工程及文件,在src目录下添加工程结构如图:NaiveBayesExample.scala文件文件内容:import org.apache.spark.{SparkConf, SparkContext}// $example o...
2018-08-09 17:00:45
165
原创 一小时搞定Mapreduce程序
之前一直用hive处理数据,觉得MR程序打包上传的比较麻烦,后来偶遇hive搞不定的文件网上找了个MR的例子稍微改一下感觉也比较方便,主要是处理速度快。MR程序主要是有3各类:main函数类,map重载类,reduce重载类。第一步:maven里面添加几个jar包:代码如下:<dependencies> <dependency> &...
2018-08-06 16:21:52
326
原创 Mac单机运行spark自带例子
第一步下载spark安装包:包不大,直接百度,官网下载即可。目前安装的是spark-2.2.0-bin-hadoop2.7。解压之后就可以使用了。进入安装包目录spark-2.2.0-bin-hadoop2.7,可见到如下文件夹:LICENSE R RELEASE conf derby.log jars log...
2018-08-03 17:08:25
1389
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人