- 博客(16)
- 资源 (1)
- 收藏
- 关注

原创 spark word2vec 源码详细解析
spark word2vec 源码详细解析简单介绍spark word2vec源码解析word2vec 的原理 只需要看层次哈弗曼树skip-gram那部分简单介绍spark word2vecWord2Vec creates vector representation of words in a text corpus.The algorithm first constructs a voc...
2020-01-16 11:26:14
4173

原创 安装Spark+hadoop,spark、hadoop分布式集群搭建...(亲自搭建过!!)
首先说一下我所用的版本:spark-2.1.1-bin-hadoop2.7.tgz,hadoop-2.7.3.tar.gz,jdk-8u131-linux-x64.rpm,我们实验室有4台服务器:每个节点硬盘:300GB,内存:64GB。 1. 先装java1.8环境:给各个节点上传jdk-8u131-linux-x64.rpm到/home里面。用rpm安装。[root@localhost h
2017-11-20 17:58:38
15136
3
原创 spark 报java.lang.StackOverflowError
spark 广播类报java.lang.StackOverflowError 背景:需要广播一个167M的tree类,所以报栈内存不够解决办法:在spark-submit里加上:(目前由于数据量级小,所以采用local模式运行)spark-submit \$--class bp_beauty_op.beauty_op \$--master local[*] \$--driver-java-options "-Xss256m" \$test-1.0-SNAPSHOT.jar或者在spark-
2020-12-14 17:39:09
609
原创 spark HashingTF TFIDF怎样提取出词对应的TFIDF值
1.这个是spark官网的实例代码:import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}val sentenceData = spark.createDataFrame(Seq( (0.0, "Hi I heard about Spark"), (0.0, "I wish Java could use case c...
2020-04-03 10:51:19
2322
4
原创 Anaconda Navigator 闪退解决办法
点击Anaconda Prompt 在里面输入:conda install -c anaconda anaconda-navigator=1.6.2 可能有时因为网络不稳定,导致报错,这样的话多多试几次就可以。 这样就可以解决问题,亲自试过!
2017-11-21 14:36:48
2111
原创 openTSDB安装,部署
1. 安装JDK。可以直接用yum进行安装,如果你已经随便装了Java,openTSDB和Hbase对JDK版本有要求。 a.Hbase对JDK的要求: b.openTSDB对环境的要求: java环境可以使用Oracle的jdk或者openjdk,我选择的是openJDK1.7。现在开始安装opeJDK1.7: c.检查自己安装的java版本: java -version如果不是
2017-06-28 23:34:02
5225
原创 centOS7 网络配置,IP设置,连网配置
首先设置虚拟机的网络设置点击 编辑—>虚拟网络编辑器 后进入一个编辑页面:注意:在VMnet8下编辑内容,选中将主机虚拟适配器连接到此网络 取消选择 使用本地DHCP服务将IP地址分配给虚拟机。然后,点击 NAT设置(S) 可以看到此页面: 要记住第一个红色框框的子网掩码和网关的内容!点击第二个红色框框下面的 添加(A)… 可以看到:(这里相当于一个映射:将本地主机的一个端口映射到虚拟机中
2017-06-24 17:18:24
3001
原创 CentOS7 安装迷你版后,没有ifconfig命令的解决办法
配置yum源(本地) 挂载系统安装光盘mount /dev/cdrom /mnt/cdrom/在linux 输入如下命令:cd /etc/yum.repos.d/,然后ls显示yum.repos.d文件里面的文件有:CentOS-Base.repo CentOS-CR.repo CentOS-Debuginfo.repo CentOS-fasttrack.repo CentOS-Medi
2017-06-22 16:43:38
3756
原创 正则表达式给查找到的内容加引号
首先介绍一下正则表达式的基本语法,不使用任何一门语言,就使用notepad++进行正则表达式的操作。正则表达式:正则表达式表达就是操作字符串的一个规则,正则表达式使用了特殊的符号表示。正则表达式对字符串的操作主要有一下集中应用:匹配切割替换查找预定义字符(注意:任何预定义字符没有加上数量词之前都只能匹配一个字符,比如"12"就不能被”\\d“匹配):. 表示任何字符(与行结束符可能匹配也
2017-06-19 13:17:27
10254
3
原创 如何利用Python里面的json中的dump()/dumps()函数处理中文
比如说有这样的一个 data={'username':'李华','sex':'male','age':16}现在用json包来处理这条Jason数据:import json data = {'username':'李华','sex':'male','age':16}in_json = json.dumps(data)>>>import json >>>data = {'username':
2017-06-10 15:44:27
24146
原创 常见的码表
计算机并不区分二进制文件与文本文件。所有的文件都是以二进制形式来存储的,因此,从本质上说,所有的文件都是二进制文件。所以字符流是建立在字节流之上的,它能够提供字符层次的编码和解码。例如,在写入一个字符时,Java虚拟机会将字符转为文件指定的编码(默认是系统默认编码),在读取字符时,再将文件指定的编码转化为字符。常见的码表如下:ASCII:a 97 美国标准信息交换码。用一个字节的7位可以表示。
2017-05-28 16:31:14
2804
原创 安然电子邮件数据MySql格式
安然电子邮件数据MySql格式https://www.cs.purdue.edu/homes/jpfeiff/enron.html
2017-05-25 19:56:02
2037
3
原创 Apriori算法,MATLAB代码实现
Apriori算法简介:想必大家都知道apriori算法的原理吧,最著名的关联规则发现方法R.Agrawal提出的Apriori算法。1 Apriori 算法的基本思想2 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持度,发现的频繁项集从而生成关联规则。Apriori算法对数据集进行多次扫描。第一次扫描得到频繁1-项集的集合,第k(k>1)次扫描的结果来产生候选k-项集的集
2017-05-24 18:43:49
25536
24
原创 Notepad++怎样显示所有的字符
Notepad++怎样显示所有的字符 打开notepad++ 视图->显示符号->显示所有字符 显示换行符号CRLF(Windows下)
2017-05-23 16:27:46
6343
原创 快速入门Python
1.Python 的基本操作符1.1.除了给变量分配一个初始值,我们也可以使用变量进行一般的数学运算操作。在Python中,基础操作符+、—、* 、/、//、%和**分别表示加法,减法,乘法,除法,整除,取余和指数运算。1.2.在Python(以及大部分的编程语言)中除了=号,还有一些其他的分配符操作,其中包括像+=、-=、和*=这样的操作符。2.Python中的数据类型整型,浮点型,字符串首先我
2017-03-14 18:06:39
822
原创 总结:修改Anaconda中的Jupyter Notebook默认工作路径的三种方式
总结:修改Anaconda中的Jupyter Notebook默认工作路径一共有三种方式:方式1.打开Windows的cmd,在cmd中输入jupyter notebook --generate-config如下图: 可以看到路径为D:\Users……找到此路径修改jupyter_notebook_config.py文件 打开此文件找到## The directory to use
2017-03-14 17:44:34
145922
61
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人