- 博客(75)
- 收藏
- 关注
原创 虚拟机中MySQL启动和退出
1、启动mysql服务器$ service mysql start会弹出来一个窗口,输入密码“hadoop”2、确认是否启动成功,mysql节点处于LISTEN状态表示启动成功$ sudo netstat -tap | grep mysql3、进入mysql shell界面:$ mysql -u root -p输入密码:hadoop4、退出MySQL Shell交互式环境或者5、关闭mysql服务器$ service mysql st...
2020-05-22 11:05:34
12914
2
原创 Linux中解除带锁的文件夹
处理方法:①.打开终端,进入该目录下$ cd /usr/local/spark/mycode/remdup②.输入命令$ sudo chmod 777 target
2020-05-02 13:06:28
4878
原创 Oracle VM VirtualBox与WinSCP链接
先查看Oracle VM VirtualBox的IP地址:ifconfig查看IP地址点开WinSCP,输入主机名、用户名、密码(hadoop),最后点击“登录”。
2020-04-14 17:10:42
748
原创 SVG——路径<path>
在SVG中<path>标签的功能最丰富,单独拉出来写。其余常用标签在:https://blog.youkuaiyun.com/TSY_1222/article/details/104536572与折线类似,也是通过给出一系列点坐标来绘制。用法是:给出一个坐标点,在坐标点前面添加一个英文字母,表示是如何运动到此坐标的。英文字母按照功能可分为五类:移动类M=moveto:将画笔移动...
2020-03-02 17:00:41
705
原创 大数据可视化——SVG
一、SVG概述1、图形分为位图和矢量图。位图是基于颜色的描述,是由像素点组成的图像;矢量图是基于数学矢量的描述,是由几何图组成的图像,与分辨率无关。可缩放矢量图形,即SVG,是W3C XML的分支语言之一,用于标记可缩放的矢量图形。2、SVG中定义了几种形状元素,分别为:矩形 圆形 椭圆 线条 折线 多边形 路径 文本 <...
2020-02-27 18:59:57
1073
原创 IDEA—Scala基本语法
VirtualBox Scala语法基础:https://blog.youkuaiyun.com/TSY_1222/article/details/966222931、变量声明字符串的格式化输出val 不可变 声明时, 必须初始化 往后不能再赋值 val 变量名:数据类型 = 初始值 var 可变的 声明时, 需要初始化 往后可以再赋值 var...
2020-02-25 10:01:11
572
原创 HDFS概论
目录一、HDFS产生背景及定义二、HDFS优缺点三、HDFS组成架构HDFS(Hadoop分布式文件系统)一、HDFS产生背景及定义1、HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只...
2020-02-24 11:20:44
339
原创 数据结构——赫夫曼(Huffman)树
赫夫曼(Huffman)树,是一类带权路径长度最小的树。也译为:哈夫曼树、霍夫曼树······若干术语路径 由一个结点到另一个节点之间的分支所构成 路径长度 路径上的分支数目 树的路径长度 树根到每一结点的路径长度之和 带权路径长度 结点到树根之间的路径长度与结点上权的乘积 树的带权路径长度 树中所有叶子结点的带权路径长度之和 树的带权路径...
2019-11-17 17:00:54
486
原创 数据结构——二叉树
目录1、二叉树定义2、二叉树特点3、二叉树形态4、二叉树性质5、二叉树存储6、二叉树遍历(递归)7、二叉树遍历(非递归)树的相关知识前面有介绍:https://blog.youkuaiyun.com/TSY_1222/article/details/1030375221、二叉树定义二叉树:n(n≥0)个结点的有限集T(1)n=0则称它为空树;...
2019-11-13 21:16:19
526
原创 数据结构——树的定义、基本术语
目录1、定义2、树与非树的识别3、基本术语4、线性结构与树型结构的对比1、定义树是由根结点和若干子树构成的。树型结构是非线性数据结构。树:n(n≥0)个结点的有限集T(1)n=0则称为空树,空树中没有结点;(2)当n>0时,有且仅有一个特定的结点,称为树的根;(3)当n>1时,其余结点被分为m(m>0)个互不相交的集合T1,...
2019-11-12 20:30:26
567
原创 《计算机组成原理》——计算题
1、设总线的时钟频率为8MHZ,一个总线周期等于一个时钟周期。如果一个总线周期中并行传送16位数据,试问总线的带宽是多少? 答:总线周期:(1/8)MHZ = 0.125us 总线带宽:16/0.125 = 128Mbps 2、在一个32位的总线系统中,总线的时钟频率为66MHZ,假设总线最短传输周期为4个时钟周期,试计算总线的最大数据传输率。若想提高数...
2019-10-24 13:46:46
17618
原创 Python语言引用NumPy库求解方程组
NumPy(Numeric Python)是一个由多维数组对象和用于处理数组的例程集合组成的Python语言扩充程序库,支持大量高级维度数组与矩阵运算(如数学运算,掩膜运算,逻辑运算,选择,排序,离散傅里叶变换,线性代数等),也提供大量的数学函数库,是机器学习框架的基础库。在Python语言中使用Numpy库前应进行引用,即import numpy as np线性代数引入linalg包...
2019-10-11 21:57:27
1286
原创 Matplotlib库进行绘图:折线图、函数图、散点图、饼图、柱状图等
1、画出正弦曲线与余弦曲线,并进行相关绘图设置。效果如下图所示:import matplotlib.pyplot as pltimport numpy as npx = np.linspace(0,6,50)y1 = [np.sin(i) for i in x]y2 = [np.cos(i) for i in x]plt.figure(num='Sin and Cos')...
2019-10-11 21:48:02
979
原创 数据结构——链队列的初始化、入队、出队、销毁队列
目录:1、构造空队列2、链队列基本操作——入队3、链队列的基本操作——出队4、销毁队列队列是先进先出的线性表。它只允许在表的一端进行插入,而在另一端删除元素。在队列中,允许插入的一端叫做队尾,允许删除的一端叫做对头。 队列的示意图: 栈和队列都是限制存取点的线性结构。用链表表示...
2019-10-08 20:49:16
9465
原创 数据结构——顺序栈的初始化、入栈、出栈、返回栈顶元素、十进制转换为n进制
目录1、栈的初始化2、入栈3、出栈4、返回栈顶元素5、十进制转换为n进制进栈次序:a1,a2,a3,······,an; 出栈次序:an,an-1,······,a3,a2,a1 后进先出栈(Stack)是一种特殊的线性表,它所有的插入和删除都限制在同一端进行。栈中允许进行插入、删除操作的一端叫栈顶,另一端则叫做栈底。当栈中没有元素时...
2019-09-28 14:07:06
12338
1
原创 数据结构——单链表的初始化、建立、插入、删除
目录1、单链表初始化2、建立单链表3、单链表的插入运算4、单链表的删除运算线性表的链式存储结构的特点是用一组任意的存储单元存储线性表的数据元素(这组存储单元可连续、也可不连续)。链表优点 链表缺点 1、不要求占用连续的存储空间,可动态进行分配。 2、插入和删除操作效率高,不需要移动元素。 1、不能随意访问任一元素。...
2019-09-25 16:05:10
17627
8
原创 数据结构——顺序表的初始化、插入、删除、查找、合并
目录1、顺序表初始化2、顺序表插入元素3、顺序表删除元素4、顺序表查找元素5、顺序表合并线性表的顺序表示指的是用一组地址连续的存储单元依次存储线性表的数据元素。顺序存储方式不仅只用于存储线性结构。特点 优点 缺点 逻辑上相邻的数据元素物理存储位置也相邻, 并且顺序表的存储空间需要预先分配 1、方法简单,...
2019-09-24 21:51:23
37378
4
原创 HTML文档基本格式详细介绍
HTML基本格式主要包括:<!DOCTYPE>文档类型声明、<html>跟标记、<head>头部标记、<body>主体标记<!DOCTYPE html><html lang="en"><head> <title>Title</title></head><...
2019-09-04 13:40:14
10180
原创 网页设计中文乱码问题
代码模块:<!DOCTYPE html><html lang="en"><head> <title>Title</title></head><body></body></html>解决中文乱码问题:加入<meta charset="UTF-8"&g...
2019-09-03 14:42:23
957
原创 JetBrains PhpStorm 2018.2 x64软件设置字体大小
目录第一种:手动调节字体大小第二种:Ctrl+鼠标滚轮设置鼠标大小第一种:手动调节字体大小1、依次点击“file”——>“Settings...”2、Font:字体样式 Size:字体大小第二种:Ctrl+鼠标滚轮设置鼠标大小1、依次点击“file”——>“Settings...”...
2019-09-03 14:30:06
724
原创 Ubuntu中MySQL创建、删除数据库操作
1、先进入MySQL Shell交互式环境2、创建数据库(每条语句后面比加";")3、使用数据库4、创建表格5、查看表格6、删除数据库7、退出MySQL Shell交互式环境...
2019-09-01 12:40:26
5764
原创 Ubuntu中pyecharts导入Bar、Page时出错
1、Why出错?运用Linux命令安装pyecharts的时候,默认的是安装最新版的版本。但是Ubuntu中Python版本更新的速度较慢,pyecharts版本更新的速度较快,安装的pyecharts无法和Python相配合,所以会报错。解决方法:①、查看已安装的模块,看pyecharts的版本,若不是pyecharts0.1.9.4版本,就卸载。②、卸载最新版本...
2019-08-30 22:06:29
1243
原创 在IntelliJ IDEA软件中用Python语言进行词频统计
1、首先在IntelliJ IDEA软件中插入Python插件,步骤如下:①、右击“File”,然后点击设置②、先点击左侧的插件“Plugins”,然后输入“python”,点击右侧的“Install”,下载完后会出现一个重新启动的窗口,直接点击重启,之后点击“OK”。2、插件完成后,创建Project①、先点击左侧的“Python”,默认Project SDK,之后点...
2019-08-17 17:14:00
507
原创 通过JDBC连接数据库
JDBC(Java DataBase Connectivity, java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。1、准备工作•在Linux中启动MySQL数据库•在MySQL Shell环境中,输入下面SQL语句完成数据库和表的创建:(MySQL每条语句后面都要加分号“ ; ”)•...
2019-07-23 18:04:39
479
原创 Ubuntu中安装MySQL
1、使用以下命令即可进行mysql安装,注意安装前先更新一下软件源以获得最新版本:$ sudo apt-get updata //更新软件源$ sudo apt-get install mysql-server //安装MySQL上述命令会安装以下包:apparmormysql-client-5.7mysql-commonmysql-servermysql-serv...
2019-07-22 12:39:11
183
原创 Spark之RDD转换为DataFrame
一、利用反射机制推断RDD模式利用反射机制来推断包含特定类型对象的RDD模式,适合用于对已知数据结构的RDD转换。在“/usr/local/spark/examples/src/main/resources/”目录下,有个Spark安装时自带的样例数据people.txt,其内容为:。现在要把people.txt加载到内存中生成一个DataFrame,并查询其中的数据。完整执行过程...
2019-07-22 10:41:29
1303
原创 DataFrame
目录:一、概述二、创建三、保存四、常用操作 1、printSchema() 2、select() 3、filter() 4、groupBy() 5、sort()一、概述Spark Core所使用的的数据抽象是RDD(弹性分布...
2019-07-21 17:09:34
1064
原创 Spark函数式编程基础
目录:一、函数定义与使用 1、函数式编程简介 2、匿名函数 3、占位符语法 4、高阶函数 5、闭包二、针对容器的操作 1、遍历操作 2、映射操作 3、过...
2019-07-21 09:58:30
725
原创 scala语法基础
目录:一、使用Scala解释器二、基本数据类型和变量 1、Scala的基本数据类型 2、字面量(literal) 3、 操作符定义成方法 4、变量(var、val) 5、插值字符串:(s插值字符串/f插值字符串)三、输入输出+读写文件...
2019-07-20 19:44:35
891
原创 Spark面向对象编程基础
目录:一、类 1、类的定义 2、类成员的可见性 3、方法的定义 4、构造器二、对象 1、单例对象 2、单例对象——伴生对象和孤立对象 3、apply方法和updata方法三、继承 1、抽象类 ...
2019-07-20 19:32:18
994
原创 Spark编程时无法显示输入的数据
用scala命令读取数据的时候,看不到写入的数据。解决办法:用-Xnojline选项禁用控制台读写库Jline,但这时又不能用箭头调用命令历史,所以还需要一个小工具rlwrap。完整命令为“rlwrap scala -Xnojline”,如果提示rlwrap 没有安装,请按提示进行安装。如下图:如果用“/usr/local/spark/bin/spark-shell”命令进入sc...
2019-07-18 20:55:11
875
2
原创 RDD编程:文件数据读取
一、文件数据读写1、本地文件系统的数据读写(1)、从文件中读取数据创建RDD(采用textFile()方法)textFile()方法提供一个本地文件地址或者本地目录地址。如果是本地文件地址,则加载该文件;如果是本地目录地址,则加载该目录下的所有文件的数据。(2)、把RDD写入到文本文件中 (采用saveAsTextFile()方法)saveAsTextFile()中的参数是...
2019-07-16 21:26:28
3453
原创 键值对RDD
一、键值对RDD的创建1、从文件中加载生成RDD2、通过并行集合(数组)创建RDD二、常用的键值对转换操作reduceByKey(func) groupByKey() keys values sortByKey()、sortBy() mapValues(func) join combineByKey (1)、reduceByK...
2019-07-16 15:02:18
1150
原创 RDD分区
一、分区的作用RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存到不同的节点上。①、对RDD分区,第一个功能是增加并行度。例如,1个RDD有n个分区,分布在n个不同工作节点(WorkerNode)上面,这n个工作节点分别启动n个线程对这n个分区的数据进行并行处理,从而增加了任务的并行度。(1个工作节点上面有几个分区,启动几个线程)②、对RDD分区,第二个功能是减...
2019-07-15 10:01:28
5684
原创 RDD持久化
1、惰性机制所谓的“惰性机制”是指,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会触发“从头到尾”的真正的计算。2、在Spark中,RDD采用惰性求值的机制,每次调用行动操作,都会触发一次从头开始的计算(就会生成一个Job),这对于迭代计算而言,代价很大,因为迭代计算经常需要多次重复使用同一组数据。下面就是多次计算同一个RDD的例子:(2次行动操作,触...
2019-07-14 11:03:53
1598
原创 RDD行动(Action)操作
直接看例题:执行sc.parallelize()操作,生成一个RDD(即rdd),rdd中包含5个元素,即1,2,3,4,5。注意:输出每个元素的值,rdd.foreach(elem=>println(elem))等价于rdd.foreach(println)...
2019-07-13 16:01:31
449
原创 RDD创建
1、从文件系统中加载数据创建RDD(1)、从本地文件系统中加载数据首先进入spark-shell交互式环境中,写入第一行代码:执行如下的命令:执行sc.textFile()方法后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,lines是org.apache.spark.rdd.RDD这个类的一个实例,RDD中的每个元素都是St...
2019-07-12 21:22:01
969
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人