MENG哥-优快云博客

原创 spark word2vec 源码详细解析

spark word2vec 源码详细解析简单介绍spark word2vec源码解析word2vec 的原理只需要看层次哈弗曼树skip-gram那部分简单介绍spark word2vecWord2Vec creates vector representation of words in a text corpus.The algorithm first constructs a voc...

2020-01-16 11:26:14 4247

原创安装Spark+hadoop，spark、hadoop分布式集群搭建...(亲自搭建过！！)

首先说一下我所用的版本：spark-2.1.1-bin-hadoop2.7.tgz,hadoop-2.7.3.tar.gz,jdk-8u131-linux-x64.rpm，我们实验室有4台服务器：每个节点硬盘：300GB，内存：64GB。 1. 先装java1.8环境：给各个节点上传jdk-8u131-linux-x64.rpm到/home里面。用rpm安装。[root@localhost h

2017-11-20 17:58:38 15253 3

原创 spark 报java.lang.StackOverflowError

spark 广播类报java.lang.StackOverflowError 背景：需要广播一个167M的tree类，所以报栈内存不够解决办法：在spark-submit里加上：（目前由于数据量级小，所以采用local模式运行）spark-submit \$--class bp_beauty_op.beauty_op \$--master local[*] \$--driver-java-options "-Xss256m" \$test-1.0-SNAPSHOT.jar或者在spark-

2020-12-14 17:39:09 676

原创 spark HashingTF TFIDF怎样提取出词对应的TFIDF值

1.这个是spark官网的实例代码：import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}val sentenceData = spark.createDataFrame(Seq( (0.0, "Hi I heard about Spark"), (0.0, "I wish Java could use case c...

2020-04-03 10:51:19 2380 4

原创 Anaconda Navigator 闪退解决办法

点击Anaconda Prompt 在里面输入：conda install -c anaconda anaconda-navigator=1.6.2 可能有时因为网络不稳定，导致报错，这样的话多多试几次就可以。这样就可以解决问题，亲自试过！

2017-11-21 14:36:48 2158

原创 openTSDB安装，部署

1. 安装JDK。可以直接用yum进行安装，如果你已经随便装了Java，openTSDB和Hbase对JDK版本有要求。 a.Hbase对JDK的要求: b.openTSDB对环境的要求: java环境可以使用Oracle的jdk或者openjdk，我选择的是openJDK1.7。现在开始安装opeJDK1.7： c.检查自己安装的java版本： java -version如果不是

2017-06-28 23:34:02 5299

原创 centOS7 网络配置，IP设置，连网配置

首先设置虚拟机的网络设置点击编辑—>虚拟网络编辑器后进入一个编辑页面：注意：在VMnet8下编辑内容，选中将主机虚拟适配器连接到此网络取消选择使用本地DHCP服务将IP地址分配给虚拟机。然后，点击 NAT设置(S) 可以看到此页面：要记住第一个红色框框的子网掩码和网关的内容！点击第二个红色框框下面的添加(A)… 可以看到：（这里相当于一个映射：将本地主机的一个端口映射到虚拟机中

2017-06-24 17:18:24 3064

原创 CentOS7 安装迷你版后，没有ifconfig命令的解决办法

配置yum源（本地）挂载系统安装光盘mount /dev/cdrom /mnt/cdrom/在linux 输入如下命令：cd /etc/yum.repos.d/，然后ls显示yum.repos.d文件里面的文件有：CentOS-Base.repo CentOS-CR.repo CentOS-Debuginfo.repo CentOS-fasttrack.repo CentOS-Medi

2017-06-22 16:43:38 3790

原创正则表达式给查找到的内容加引号

首先介绍一下正则表达式的基本语法，不使用任何一门语言，就使用notepad++进行正则表达式的操作。正则表达式：正则表达式表达就是操作字符串的一个规则，正则表达式使用了特殊的符号表示。正则表达式对字符串的操作主要有一下集中应用：匹配切割替换查找预定义字符(注意：任何预定义字符没有加上数量词之前都只能匹配一个字符，比如"12"就不能被”\\d“匹配)：. 表示任何字符（与行结束符可能匹配也

2017-06-19 13:17:27 10445 3

原创如何利用Python里面的json中的dump()/dumps()函数处理中文

比如说有这样的一个 data={'username':'李华','sex':'male','age':16}现在用json包来处理这条Jason数据：import json data = {'username':'李华','sex':'male','age':16}in_json = json.dumps(data)>>>import json >>>data = {'username':

2017-06-10 15:44:27 24255

原创常见的码表

计算机并不区分二进制文件与文本文件。所有的文件都是以二进制形式来存储的，因此，从本质上说，所有的文件都是二进制文件。所以字符流是建立在字节流之上的，它能够提供字符层次的编码和解码。例如，在写入一个字符时，Java虚拟机会将字符转为文件指定的编码（默认是系统默认编码），在读取字符时，再将文件指定的编码转化为字符。常见的码表如下：ASCII：a 97 美国标准信息交换码。用一个字节的7位可以表示。

2017-05-28 16:31:14 2950

原创安然电子邮件数据MySql格式

安然电子邮件数据MySql格式https://www.cs.purdue.edu/homes/jpfeiff/enron.html

2017-05-25 19:56:02 2074 3

原创 Apriori算法，MATLAB代码实现

Apriori算法简介：想必大家都知道apriori算法的原理吧，最著名的关联规则发现方法R.Agrawal提出的Apriori算法。1 Apriori 算法的基本思想2 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持度，发现的频繁项集从而生成关联规则。Apriori算法对数据集进行多次扫描。第一次扫描得到频繁1-项集的集合,第k（k>1）次扫描的结果来产生候选k-项集的集

2017-05-24 18:43:49 25728 24

原创 Notepad++怎样显示所有的字符

Notepad++怎样显示所有的字符打开notepad++ 视图->显示符号->显示所有字符显示换行符号CRLF（Windows下）

2017-05-23 16:27:46 6563

原创快速入门Python

1.Python 的基本操作符1.1.除了给变量分配一个初始值，我们也可以使用变量进行一般的数学运算操作。在Python中，基础操作符+、—、* 、/、//、%和**分别表示加法，减法，乘法，除法，整除，取余和指数运算。1.2.在Python（以及大部分的编程语言）中除了=号，还有一些其他的分配符操作，其中包括像+=、-=、和*=这样的操作符。2.Python中的数据类型整型，浮点型，字符串首先我

2017-03-14 18:06:39 855

原创总结：修改Anaconda中的Jupyter Notebook默认工作路径的三种方式

总结：修改Anaconda中的Jupyter Notebook默认工作路径一共有三种方式：方式1.打开Windows的cmd，在cmd中输入jupyter notebook --generate-config如下图：可以看到路径为D:\Users……找到此路径修改jupyter_notebook_config.py文件打开此文件找到## The directory to use

2017-03-14 17:44:34 146504 61

u014552678的博客