
数据挖掘
静默安然
这个作者很懒,什么都没留下…
展开
-
RESTful与RPC对比
RESTfulRESTFUL是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义。RESTFUL适用于移动互联网厂商作为业务使能接口的场景,实现第三方OTT调用移动网络资源的功能,动作类型为新增、变更、删除所调用资源。 [1] REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。Web 应用程序最重要的 REST 原则是,客户端和服务器之间的交互在请求之间是无状态的。RPC远程调用对比HT.转载 2020-11-10 20:11:22 · 1120 阅读 · 1 评论 -
通过IO输入流实现读写+HDFS机架感知+HDFS系统读写流程
原创 2020-11-07 10:20:56 · 141 阅读 · 0 评论 -
HDFS面试点
这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。1)Client:就是客户端。(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的Block,然后进行存储。(2)与NameNode交互,获取文件的位置信息。(3)与DataNode交互,读取或者写入数据。(4)Client提供...原创 2020-11-06 20:51:11 · 123 阅读 · 0 评论 -
HDFS客户端操作(通过API操作HDFS)
package com.zhangxy.hdfs;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class HDFSCli.原创 2020-11-03 19:42:12 · 477 阅读 · 0 评论 -
DEPRECATED: Use of this script to execute hdfs command is deprecated。
DEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.不推荐:不推荐使用此脚本执行hdfs命令。而是使用hdfs命令。本人安装的hadoop版本是2.4.0的,但每次执行命令时都会显示下面的信息hadoop@VM_160_34_centos:/usr/local/hadoop-2.4.0> hadoop dfs -ls ..转载 2020-10-29 19:17:15 · 8322 阅读 · 0 评论 -
HDFS之五:Hadoop 拒绝远程 9000 端口访问
(PS)访问9000端口的前提是hadoop集群已启动。报错原因防火墙没有关闭 主节点9000端口没有打开 主节点9000端口打开了,但是不允许远程访问(一般是这个)第一:查看防火墙状态第二:查看主节点9000端口是否打开netstat -tlpn 检查主节点9000端口是否打开没有打开的打开的第三、查看主节点9000端口是否允许远程访问,可使用telnet ip port 检验一般而言,只要启动了hadoop集群,9000端口就已经开放。如果9..原创 2020-10-29 19:11:24 · 10725 阅读 · 3 评论 -
hadoop之HDFS重难点
原创 2020-10-29 11:05:22 · 305 阅读 · 0 评论 -
hadoop编译源码遇到的问题之plugin not found in any plugin repository或者解决http://repo.maven.apache.org/maven2出错问题
plugin not found in any plugin repository maven setting.xml换库(换为国内aliyun镜像)<mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mir原创 2020-10-29 10:55:54 · 917 阅读 · 0 评论 -
hadoop编译源码之Maven报错 Return code is: 501 , ReasonPhrase:HTTPS Required. -> [Help 1] 解决
背景:出错如下出错原因是2020年1月起maven只支持https请求。解决方法:在maven的settings.xml的mirrors标签中添加如下内容<mirror> <id>repo1</id> <mirrorOf>central</mirrorOf> <name>Human Readable Name for this Mirror.</name> <转载 2020-10-29 10:52:50 · 452 阅读 · 0 评论 -
xcall编写集群操作脚本:在所有主机上同时执行相同的命令
xcall+命令(在所有主机上执行此命令)效果展示原创 2020-10-22 14:57:22 · 183 阅读 · 0 评论 -
完全分布式之集群规划
HDFS大数据量开发时NameNode和SecondaryNameNode要单独一个,DataNode不能和他们抢占资源。但由于内存只有8G,先这样设置。yarn有几个DataNode就有几个NodeManager,且ResourceManager很耗费资源,故只能基于下图安排。1、创建分发脚本#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2原创 2020-10-22 15:00:41 · 352 阅读 · 0 评论 -
hadoop之编写集群分发脚本
原始语句rsync -rvl /opt/module root@hadoop103:/opt/但是我们要部署的集群可能多达10000个,所以需要编写脚本来实现所有集群的部署首先要知道basename是获取文件名称;dirname是获取文件路径;whoami是获取用户名账号。操作如下:...原创 2020-10-22 13:14:05 · 283 阅读 · 0 评论 -
hadoop之rsync同步
查看rsync使用说明man rsync | more把本机的tmp文件夹同步到hadoop102服务器的root用户下的opt原创 2020-10-21 18:40:15 · 393 阅读 · 0 评论 -
hadoop学习之ssh(另一台电脑的IP地址)实现远程登录
1.ssh远程登陆2.ssh实现免密登录2.1原理2.2操作原创 2020-10-21 17:03:19 · 479 阅读 · 0 评论 -
Hadoop学习之scp命令(跨服务器传输数据)
scp可以实现服务器之间的数据拷贝将hadoop101的module文件夹推到hadoop102上的opt下(确保hadoop102虚拟机开着,且要知道102的root账号密码)scp -r /opt/module/ root@hadoop102:/opt -r是递归传输 /opt/module是源数据 root是用户名账号,hadooop是主机名,opt表示目的文件夹在hadoop104上实现将101上的数据传到102上scp -r root@hadoop...原创 2020-10-21 13:35:05 · 5166 阅读 · 0 评论 -
python可视化绘图第二课pandas
两种绘图方法#数据可视化第二课#pandas中的绘图函数import pandas as pddf=pd.read_csv('data.csv',index_col='年份') #设置索引列为“年份”print(df.head())x=df.index.valuesy=df['人均GDP'].valuesfrom pylab import mplmpl.rcParams['font.sans-serif']=['FangSong']import matplotlib.pyp原创 2020-10-20 10:54:48 · 259 阅读 · 0 评论 -
python可视化之绘图+词云
import matplotlib.pyplot as pltimport mathimport numpy as npx=np.arange(0,1,0.05)print(x)y=np.sin(2*math.pi*x)print(y)plt.plot(x,y,'b--*',label='sin') #蓝色虚线*点 --o 图例项的名称 与legend相配套,一起出现plt.title("hello")plt.xlabel('x label')plt.ylabel('y label..原创 2020-10-17 14:40:56 · 361 阅读 · 1 评论 -
EXCEL报表:另存为CSV格式,转换成UTF-8编码
操作流程:1. 将Excel文件保存为CSV格式2.将CSV格式文档,鼠标右键选择打开方式:记事本中打开3.选择“另存为”,编码(E)选择: UTF-84.保存(S)即可作者:王权雨果链接:https://www.jianshu.com/p/afa481fe6e1e来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。...转载 2020-10-17 11:41:14 · 7109 阅读 · 1 评论 -
Python 更换数据源;Python安装numpy,pandas慢,超时报错,下载不了的解决方法(更新,亲测可行)
Python 更换数据源;Python安装numpy,pandas慢,超时报错,下载不了的解决方法(更新,亲测可行) 1.Win+R打开cmd输入%HOMEPATH%打开自己的HOMEPATH路径文件夹2.在此路径下建立一个文件夹pip,里边放一个文件pip.ini内容如下:打开后,复制进去↓[global]timeout = 6000index-url = https://pypi.tuna.tsinghua.edu.cn/simple...转载 2020-10-17 10:02:33 · 1326 阅读 · 0 评论 -
数据挖掘理论(一)
目录为什么进行数据挖掘?什么是数据挖掘?数据挖掘的流程可以挖掘什么类型的数据?数据来源为什么进行数据挖掘?我们拥有丰富的数据,但缺乏有用的信息。解决方法是:数据仓库技术和数据挖掘技术。数据仓库(Data Warehouse)和在想分析处理(OLAP)-----为数据的存储和管理提供了基础。数据挖掘(Data Mining):在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)什么是数据挖掘?数据挖掘就是从数据中发现知识,具体的说,就是从大量的数据...原创 2020-05-26 21:18:40 · 2268 阅读 · 0 评论 -
数据挖掘学习路线和资源
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。一、目前国内的数据挖掘人员工作领域大致可分为三类。1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨转载 2020-05-26 14:59:34 · 1120 阅读 · 0 评论