- 博客(16)
- 收藏
- 关注
原创 Python学习-序列
列表一、列表通用操作in 和 not inin用来检查指定元素是否存在于列表中如果存在,返回True,否则返回Falsenot in用来检查指定元素是否不在列表中如果不在,返回True,否则返回Falseprint('牛魔王' not in stus)print('牛魔王' in stus)**len()**获取列表中的元素的个数min() 获取列表中的最小值max() 获取列表中的最大值arr = [10,1,2,5,100,77] print(min(arr) , max(a
2021-05-20 15:40:19
282
原创 决策树笔记
决策树一、两个阶段做决策树的时候,会经历两个阶段:构造和剪枝。1.构造**构造就是生成一棵完整的决策树。**简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点:根节点:就是树的最顶端,最开始的那个节点。内部节点:就是树中间的那些节点。叶节点:就是树最底部的节点,也就是决策结果。那么在构造过程中,你要解决三个重要的问题:选择哪个属性作为根节点;选择哪些属性作为子节点;什么时候停止并得到目标状态,即叶节点。2.剪枝剪枝就是给决策树瘦身,这一步想实现的目
2021-05-19 19:09:10
385
原创 Giraph错误合集
20/09/04 00:40:40 INFO mapreduce.Job: Job job_1599150745535_0002 running in uber mode : false20/09/04 00:40:40 INFO mapreduce.Job: map 0% reduce 0%20/09/04 00:40:40 INFO mapreduce.Job: Job job_1599150745535_0002 failed with state FAILED due to: Applicat
2020-09-13 10:51:43
290
原创 Giraph的三个接口
Giraph中的图仅使用Edge接口和Vertex接口构造。Edge包含目标顶点的值/权重和 id。在 Giraph 的图模型中,一个顶点包含一个 ID、一个值和它所有外出的边的列表。Giraph 提供了这些接口的默认实现:DefaultVertex 和 DefaultEdge。这些接口还有其他实现一、Edge接口Edge 界面的类型变量如图 3.1 所示。边包含一个目标顶点 ID,它是类型变量 I ,边数据是类型变量 E 。类型 I 和 E 取决于图形类型。为加载图数据而选择/实现的 InputFor
2020-09-12 15:24:50
246
原创 Giraph工作基本构成
苦逼研究生生活开始了,做Giraph平台的优化。记录一下垃圾小白从0开始学Giraph。Giraph工作基本构成Giraph 作业是通过传递一个 Giraph Configuration 对象来创建的,该对象包含 Giraph 用于执行作业的不同属性。主要属性是包含 compute()方法的计算类。该计算方法应用于每一个超步中的所有活顶点。Giraph 还需要知道输入数据的位置,以及如何读取数据和创建图表。Giraph 使用在Giraph Configuration 对象中指定的 InputFormat
2020-09-11 20:34:15
240
原创 Hadoop平台上实现PageRank算法
学习Hadoop已经有段时间了,自己尝试写了一下PageRank算法。1.mapperpackage myPageRank;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;import java.util.StringTokenizer;/** * @
2020-09-09 10:01:16
505
转载 Giraph的一些背景介绍
开源项目Giraph的支持者或许都知道,Facebook在开发图谱搜索(Graph Search)服务时,选择采用了Giraph,并开始了对此项开源技术的研究。Facebook将Giraph规模化并作为其Open Graph工具的核心,用来处理数万亿次用户及其行为之间的连接。Giraph的起源据维基百科介绍,Giraph是一个迭代的图计算系统。Giraph计算的输入是由点和直连的边组成的图。例如,点可以表示人,边可以表示朋友请求。每个顶点保存一个值,每个边也保存一个值。输入不仅取决于图的拓扑逻辑,也包括
2020-09-04 15:49:20
499
原创 Hadoop运行模式(二)
完全分布式运行模式一、准备3台虚拟机1.从先前配置好的虚拟机(hadoop100)上克隆三台虚拟机(hadoop101,hadoop102,hadoop103);2.设置三台主机:关闭防火墙,设置静态IP,修改主机名称。二、安装JDK和Hadoop,配置环境变量先在hadoop101安装配置,再分发到hadoop102,hadoop103;1.安装JDK(1).用Xftp工具将JDK导入到opt目录下面的software文件夹下面(2).在Linux系统下的opt目录中查看软件包是否导入成功
2020-07-13 11:57:45
193
原创 Hadoop运行模式(一)
Hadoop的三种运行模式Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。1.本地(独立)模式无需任何守护进程,所有程序都在同一个JVM上执行。在本地模式下测试和调试MapReduce程序很方便。本地运行模式不需要额外的设置. 只需要执行响应的jar包就可以了。不需要任何的集群配置, 本地运行模式其实也是一种单节点模式。官方Grep案例创建在hadoop-2.7.2文件下面创建一个input文件夹mkdir input将Hadoop的xml配置文件复制到input
2020-07-01 13:07:07
401
原创 Hadoop学习之安装Hadoop
安装HadoopHadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/1.用Xftp工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹2.进入到Hadoop安装包路径下cd /opt/software/3.解压安装文件到/opt/module下面tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/4.查看是否解压成功ls /opt
2020-06-25 15:33:12
261
原创 Hadoop学习之安装JDK
安装JDK1.用Xftp工具将JDK导入到opt目录下面的software文件夹下面2.在Linux系统下的opt目录中查看软件包是否导入成功cd software/lshadoop-2.7.2.tar.gz jdk-8u144-linux-x64.tar.gz3.卸载现有JDK(1)查询是否安装Java软件:rpm -qa | grep java(2)如果有,卸载rpm -qa | grep java | xargs sudo rpm -e --nodeps4.解压JDK到/opt
2020-06-25 15:22:37
341
原创 Hadoop虚拟机配置
Hadoop虚拟机配置使用centos71. 关闭防火墙Hadoop集群内部防火墙内部时默认关闭的。服务关闭systemctl stop firewalld.service禁止开机firewall自启动systemctl disable firewalld.service查看状态,确认关闭(not running)firewall-cmd --state2. 创建hadoop100用户useradd hadoop100 passwd hadoop1003.在/opt目录下创建soft
2020-06-25 10:23:26
514
原创 Linux Vi和Vim编辑器
Linux Vi和Vim编辑器1.基本介绍所有的Linux系统都会内建vi文本编辑器。Vim具有程序编辑的能力,可以看做是Vi的增强版本,可以主动的以字体颜色辨别语法的正确性,方便程序设计。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。2.vi和vim常用的三种模式正常模式以vim打开一个档案,直接进入一般模式,在正常模式下,可以使用快捷键。插入模式(编辑模式)按下 i,o,a,r等任何一个字母才会进入编辑模式。命令行模式在这个模式当中,可以提供你相关指令, 完
2020-06-21 20:05:57
253
原创 Linux虚拟机设置
网络适配器的三种方式1.桥接模式使用本网段内IP。1.好处是可与本网段内其他主机通信。2.缺点是消耗本网段IP地址,可能会造成地址短缺,或与其他主机冲突。2.NAT [网络地址转换模式]借助虚拟NAT设备和虚拟DHCP服务器,使得虚拟机可以联网1.好处是虚拟机不占用其他的ip,所以不会ip冲突2.内网的其他人不能和虚拟机通讯3.主机模式主机模式是虚拟机和物理机之间的私有网络,不能连接公网...
2020-06-18 09:17:09
248
原创 Java_day01总结
第一个Java程序总结1.Java的编写、编译、运行过程编写:以.Java文件保存编译:运行Javac.exe 文件名运行:运行Java.exe 类名2.注释单行注释://多行注释:/* /文本注释:/* */3.一个文件可以有多个类,但只能有一个类声明public。且声明public的类名必须与源文件名一致4.main方法程序入口,写法基本不变:public static void main(String [] args)5,system.out.println(“hello
2020-06-05 09:32:35
212
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅