ppsppy-优快云博客

原创 spark数据处理-RDD

这篇文章主要用来记录工作学习中遇到的常见RDD算子和操作。官方文档目录join算子join算子主要用于两个拥有相同或者不同key的RDD相互joinjoin(otherDataset,[numPartition]) 当算子作用在(K,V)和(K,W)类型的数据集上时，会将相同K的元素合并，返回(K,(V,W))；对应的还有leftOuterJoin, rightOuterJoin, fullOuterJoinjoin：仅返回双方共有的元素leftOuterJ...

2021-11-05 00:59:31 309

原创 hadoop学习——配置hadoop单节点集群，启动HDFS

hadoop配置其实在官网上写的非常清楚了，这里演示一遍。版本采用的是hadoop-2.6.0-cdh5.15.1，网址为：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1/hadoop-project-dist/hadoop-common/SingleCluster.html首先修改配置文件etc/hadoop/c...

2020-04-16 18:30:39 824

原创 hadoop学习——配置ssh免密登录

首先在/etc/hosts文件中加入服务器ip地址，并命名为hadoop001，这样，下次要登录该ip时，可以直接用hadoop001替代：前面是IP地址，后面是别名。然后这个时候可以使用ssh登录hadoop001，但是需要输入密码：设置免密登录：执行以下代码，生成公钥私钥文件,ssh-keygen -t rsa将公钥写入authorized_keys中...

2020-04-05 22:55:55 309

原创 hadoop学习——安装JDK

解压缩将压缩包解压，建议将所有的软件存在一个目录下。因为我是用root用户直接操作的，所以直接创建一个app文件夹，然后将JDK解压到该文件夹中。cd /rootmkdir apptar -zxvf jdk的路径 -C /root/app(需要安装的路径)配置JDK此时JDK的路径为：/root/app/jdk1.8.0_91将JDK的路径保存到系统的环境变量...

2020-04-05 22:37:21 340

原创 hadoop学习——准备安装hadoop2.x单机版

首先是服务器信息：年前在腾讯云上买的centos7，最基础的单核心2GB，不知道够不够用，先凑合着用吧。打开服务器后去官网下载hadoop，然后发现linux没有wget，通过以下命令下载wget：yum -y install wget然后下载CHD，选择版本5.15.1wget /root/software http://archive.cloudera.com/cdh...

2020-04-05 22:02:16 203

原创 Python数据结构总结

链表：单向链表、双向链表、循环链表https://blog.youkuaiyun.com/LiQingBB/article/details/88386264堆栈：堆栈的实现（列表、链表）加入、删除、遍历https://blog.youkuaiyun.com/LiQingBB/article/details/88603961队列：队列的实现（列表、链表）加入、删除、遍历https://blog.csdn...

2019-03-22 11:38:57 356

原创 Python数据结构：查找

常见查找方法：顺序查找二分查找插值查找斐波那契查找哈希查找法顺序查找法：一项一项依此查找时间复杂度：最好情况O(1)O(1)O(1)，平均情况O(n)O(n)O(n)，最坏情况O(n)O(n)O(n)。二分查找法：将数据分为分成两等份，比较键值与中间值的大小，根据结果查找前半段或者后半段。时间复杂度：O(log(n))O(log(n))O(log(n))插值查找法：根...

2019-03-22 10:34:23 358

原创 Python数据结构：排序

简单排序：冒泡（交换）排序、选择排序、插入排序、希尔排序复杂排序：快速排序、堆积排序、基数排序合并排序：合并两个或多个排好序的线性表稳定排序与不稳定排序：稳定排序是指一串数字，进过排列以后，同样大小的元素保持原有的顺序。不稳定排序就是说，排序后，同样大小的元素的顺序可能发生改变。例如：排序前有两个数大小为5，分别叫它们515_151和525_252，排序前515_151...

2019-03-22 09:59:20 282

原创 Python数据结构：图形结构

本章主要内容：图的四种表示方法：邻接矩阵法，邻接链表法，邻接复合链表法，索引表格法图的遍历：DFS（堆栈+递归），BFS（队列+递归）生成树：DFS生成树，BFS生成树，最小生成树（求整个图的最短加权路径）（Kruskal算法：森林->树，Prim算法：树+节点）图的最短路径：点到点的最短路径（Dijkstra、Prim、Floyd）AOV网络与拓扑排序AOE网络欧拉环...

2019-03-21 15:38:10 937

原创 Keras基础指南

KerasKerasKeras主要有2中模型，SequentialSequentialSequential模型和ModelModelModel模型。SequentialSequentialSequential模型：模型from keras.models import Sequentialfrom keras.layers import Flatten,Dense,Embeddingmo...

2019-03-19 19:28:27 232

原创 Python数据结构：树形结构

树由一个根节点和子节点组成的结构。子节点个数可以为0。若每个根节点z最多有可以有nnn个子节点，那么它就叫做nnn叉树。二叉树为什么使用二叉树一般树形结构在计算机中的存储方式是以链表为主。假设一个nnn叉树，共有mmm个节点（根节点加上子节点）。那么它们一共会有mnmnmn个链接。但是实际上只会用到m−1m-1m−1个链接。空置的链接数为m(n−1)+1m(n-1)+1m(n−1...

2019-03-18 21:04:44 2100

原创 Python数据结构：堆栈与队列

堆栈在堆栈这种数据结构中，数据的存取会服“先进后出”原则。生活中最常见的例子就是打开抽屉，假如有一排抽屉我们需要一一打开检查，我们会从下往上打开抽屉，再从上往下关闭——“先进后出”，先打开的抽屉最后再关闭。再比如和人下棋，发现自己下错了，需要悔棋，执行的也是堆栈操作。堆栈有两种常见的实现方式：列表和链表。用列表实现堆栈top指定堆栈最上层元素。每当压入数据时，top+=1每当弹出数...

2019-03-16 19:30:50 346

原创自然语言处理：中文分词

中文分词一般有3中方法：基于规则基于统计混合算法基于规则基于规则是说，我们按照一定的规则去将中文文本分类，最常见的方法就是正向最大匹配算法、逆向最大匹配算法和双向最大匹配算法。正向最大匹配法什么是正向最大匹配算法呢？很简单，首先我们有一个预先定义好的词典，词典里面存放者目前已知的所有词语，假设词典中最大长度的词语长度是6，然后我们会从左往右，匹配词典中长度为6的词语，若是匹配到...

2019-03-13 04:30:46 643

原创 Python数据结构之链表

链表链表是一种物理存储单元上非连续、非顺序的存储结构，数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点（链表中每一个元素称为结点）组成，结点可以在运行时动态生成。每个结点包括两个部分：一个是存储数据元素的数据域，另一个是存储下一个结点地址的指针域。相比于线性表顺序结构，操作复杂。由于不必须按顺序存储，链表在插入的时候可以达到O(1)的复杂度，比另一种线性表顺序表快得多，但...

2019-03-10 23:35:40 302

原创自然语言处理：Word2Vec

自然语言处理中，用one-hot编码只能表示单词的索引，但是单词和单词之间的关系却没有办法表现出来，将单词处理为密集词向量，就可以用余弦距离表示两个单词的相似程度。one-hot编码假如全世界只有5个单词，a cat watch the TV。那么我们可以把每个单词用一个五维向量表示：a=[1,0,0,0,0]|cat=[0,1,0,0,0]watch=[0,0,1,0,0]the...

2019-03-08 20:46:17 846

原创 Python数据结构：堆栈——老鼠走迷宫

问题：有一只老鼠被困在迷宫之中了，我们需要实现一个算法，帮助老鼠走出迷宫。已知迷宫矩阵为：MAZE=[[1,1,1,1,1,1,1,1,1,1,1,1],\ [1,0,0,0,1,1,1,1,1,1,1,1],\ [1,1,1,0,1,1,0,0,0,0,1,1],\ [1,1,1,0,1,1,0,1,1,0,1,1],\ [1,1,1,0,0,...

2019-01-13 00:12:11 1992 1

原创 keras.layers.add()和keras.layer.conatenate()

keras.layers.add()和keras.layer.conatenate()add对张量执行求和运算concatenate对张量进行串联运算在深度神经网络中，经常会遇到需要把张量结合在一起的情况，比如Inception网络。add（）和conetenate（）经常出现，用来将两个张量结合在一起。那么这两个函数有什么区别呢？add（）：直接对张量求和例如：import k...

2018-12-10 10:03:24 27339 6

原创深度学习：词嵌入（Word Embedding）以及Keras实现

深度学习：词嵌入（Word Embedding）以及Keras实现神经网络无法对原始的文本数据训练，我们需要先将文本数据处理成数值张量，这一过程又叫文本向量化（vectorize）文本向量化有多种策略：1.将文本分割为单词，每个单词转换为一个向量2.将文本分割为字符，每个字符转化为一个向量3.提取单词或者字符的n-gram，将n-gram转换为一个向量将文本分解成的单元叫做标记（tok...

2018-12-09 21:36:37 7134

翻译全连接函数 tf.contrib.layers.fully_connected

tf.contrib.layers.fully_connected( inputs, num_outputs, activation_fn=tf.nn.relu, normalizer_fn=None, normalizer_params=None, weights_initializer=initializers.xavier_initialize...

2018-10-27 21:14:22 16530 1

翻译平坦化 tf.contrib.layers.flatten

tf.contrib.layers.flatten( inputs, outputs_collections=None, scope=None)保留batch_size，其他维度平坦化input：张量，[batch_size,’’’]参考：https://tensorflow.google.cn/api_docs/python/tf/contrib/layers...

2018-10-27 21:05:45 1773

翻译最大池化函数 tf.nn.max_pool

tf.nn.max_pool( value, ksize, strides, padding, data_format='NHWC', name=None)实现最大池化value： 4维张量，维度顺序参考data_formatksize: value中，对应维度的池化框的大小，一般为[1,f,f,1]strides: 步长，对应维度的步...

2018-10-27 20:45:59 1589

翻译 tf.nn.softmax_cross_entropy_with_logits_v2

tf.nn.softmax_cross_entropy_with_logits_v2( _sentinel=None, labels=None, logits=None, dim=-1, name=None)计算label和logits之间的softmax交叉熵一般logits和label都是[batch，num_classes]维的，但是更高维的也...

2018-10-27 10:09:30 886

翻译 tf.nn.conv2d函数

tf.nn.conv2d( input, filter, strides, padding, use_cudnn_on_gpu=True, data_format='NHWC', dilations=[1, 1, 1, 1], name=None)给出一个4维张量的输入和filter，计算它们的二维卷积input：一个张量...

2018-10-27 09:45:09 216

原创如何用matlab播放一段函数

用到sound函数即可。 sound(y) sound(y,Fs) sound(y,Fs,nBits)参数 Fs表示播放频率， Fs为采样率，即单位时间的样本个数，nBits表示每个样本点用几个比特表示，即分辨率。想要终止播放，可用>> clear sound读取文件[y,Fs] = audioread(filename) 读取[y,Fs...

2018-04-29 14:42:26 1337

LiQingBB的博客