
大数据
文章平均质量分 75
zhangfengBX
大数据架构师成长之路
展开
-
语音识别,标注数据
切割音频文件from pydub import AudioSegmentfrom pydub.silence import split_on_silenceimport ossound = AudioSegment.from_mp3("E:/data/AcsData/zfBX/hw202003301111246_23401.wav")loudness = sound.dBFSoutputPath = "E:/data/AcsData/zfBX/output/"chunks = split_o原创 2020-05-19 20:22:23 · 1904 阅读 · 0 评论 -
云服务器搭建Kafaka集群环境
从京东云上面购买了三台服务器,作为kafka集群搭建环境。下面的不是本人真实ip地址服务器简介:服务器名称 服务器ip地址 服务器角色 备注Jd1 190.168.161.26 节点 Jd2 190.168.161.25 节点 Jd3 190.168.161.24 节点云服务器开通端口:一、安装java环境选择java1.8+ 及以上版本,我使用的是jdk...原创 2020-04-16 12:12:11 · 597 阅读 · 0 评论 -
简单使用matplotlib绘图
创建空白画板创建空白画板,暂时没有数据:import matplotlib.pyplot as pltimport numpy as np# 绘制子图fig = plt.figure(figsize=(10,6.18))plt.plot()plt.show()图示:绘制一条线的图创建画板,然后生成1到10之间的10个数字,然后取3的余数。import matplotlib...原创 2020-04-07 22:09:12 · 408 阅读 · 0 评论 -
使用statsmodels实现线性回归
使用statsmodels实现线性回归statsmodels简介关于统计模型主要特点线性回归模型:离散模型:RLM: 鲁棒的线性模型,支持多个 M 估计器。马尔可夫切换模型(MSAR),也称为隐马尔可夫模型(HMM)生存分析:多变量:非参数统计:单变量和多变量核密度估计其他模型什么是线性回归?简单线性回归案例数据集说明导入需要的工具包使用pandas生成数据数据整理回归模型建模关于自变量的线性回归...原创 2020-04-04 22:47:02 · 9735 阅读 · 0 评论 -
seaborn结合pandas的数据展示
五分钟快速掌握pandas,请看这篇博客:https://blog.youkuaiyun.com/zhangfengBX/article/details/104978323seaborn快速了解案例散点图:散点图是统计可视化的重要组成部分。它使用点云来描述两个变量的联合分布,其中每个点代表数据集中的一个观察。这种描绘可以推断出大量关于它们之间是否有任何有意义的关系的信息。更多散点图介绍,请访...原创 2020-03-26 00:11:39 · 694 阅读 · 0 评论 -
快速了解Pandas
可以直接按照官网的中文文档学习:https://www.pypandas.cn/docs/getting_started/basics.html下面只写出其中我觉得以后可能会用到的几点。目前给我的感觉就像在代码中操作关系型数据库一样。1、显示数据pd.data_range:periods参数为,取这个日期后的六天pd.DataFrame:rand参数,前面一个为行数,后面一个参数为...原创 2020-03-19 23:10:36 · 231 阅读 · 0 评论 -
Python数据可视化之绘制词云图
需要使用到的两个Python类库jieba:中文分词分词工具wordcloud:Python下的词云生成工具jieba 类库使用介绍支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。可以在...原创 2020-03-17 10:39:44 · 1701 阅读 · 0 评论 -
hive语句实现列转行
hive语句实现列转行建表语句Oracle中列转行语法,使用 unpivot函数hive中列转行语法,使用explode函数最近将解释字段添加上的语句建表语句CREATE TABLE XXXX表( evel_id string DEFAULT NULL COMMENT 'xxxxid', object_id string DEFAULT NULL COMMENT '所属对象', ...原创 2018-10-22 21:51:16 · 4453 阅读 · 0 评论 -
zookeeper 之It is probably not running
今天在启动zookeeper集群的单个zookeeper节点时总是报如下错误[html] view plain copy[root@zookeeper1 zookeeper-3.4.5]# bin/zkServer.sh status JMX enabled by default Using config: /usr/local/zookeeper-3.4.5/bin/../conf/zoo...原创 2018-06-11 23:54:34 · 1851 阅读 · 0 评论 -
spark窗口函数简单实现
Window函数,可以统计最近一段时间的数据,使用Window函数加载成DStream:DStream.window("窗口长度","滑动间隔")reduceByKeyAndWindow窗口长度:必须是BathInterval的整数倍滑动间隔:必须是BatchInterval的整数倍/** * 1、local的模拟线程数必须大于等于2 因为一条线程被receiver(接受数据的线程)占用,另外一个...原创 2018-06-11 23:59:57 · 3708 阅读 · 0 评论 -
SparkStreaming算子
SparkStreaming算子分为两类:transformation算子和outputOperator算子transformation算子:flatMap、count、mapToPair、map、countByValue、repartition、filter、join、union、Reduce、reduceByKey、updataStateByKey、Window、transformoutput...原创 2018-06-11 23:53:59 · 3681 阅读 · 2 评论 -
为什么分布式一定要有redis
分析:博主觉得在项目中使用redis,主要是从两个角度去考虑:性能和并发。当然,redis还具备可以做分布式锁等其他功能,但是如果只是为了分布式锁这些其他功能,完全还有其他中间件(如zookpeer等)代替,并不是非要使用redis。因此,这个问题主要从性能和并发两个角度去答。回答:如下所示,分为两点(一)性能如下图所示,我们在碰到需要执行耗时特别久,且结果不频繁变动的SQL,就特别适合将运行结果...转载 2018-06-04 11:17:55 · 430 阅读 · 0 评论 -
Hadoop之HDFS
搭建hdfs集群配置文件首先拷贝文件到家目录下面解压zookeeper-3.4.6文件,然后进入到里面的conf目录下,把zooXXXX.cfg文件改名为zoo.cfgvi zoo.cfg编辑文件,dataDir为文件目录,dataDir=/tmp/zookeeper # the port at which the clients will connectclientPort=2181 # th原创 2017-11-12 15:11:41 · 2220 阅读 · 0 评论 -
MapReduce使用Java代码实现
MR执行环境有两种:本地测试环境,服务器环境第一种执行方式:服务器端运行直接在服务器上,使用命令的方式调用,执行过程也在服务器上 a、把MR程序打包(jar),传送到服务器上 b、通过: hadoop jar jar路径 类的全限定名MapperWordCountMapper .javapackage com.mr;import java.io.IOException;import o原创 2017-11-12 15:18:25 · 10828 阅读 · 0 评论 -
配置yarn集群
yarn源配置:单台yarn源配置,使用资源较少,速度快core.site.xml文件:<configuration><!-- 指定hadoop的hdfs的namenode的访问路径. --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </pro原创 2017-11-19 17:49:54 · 1031 阅读 · 0 评论 -
scala基本语法
/** * 1.object 相当于java中单例,相当于java中工具类。object中定义的全部是静态的。 * 2.scala中一行语句后面可以省略分号,scala中会有分号推断机制。如果scala中一行中有多个语句,那么分号不能省略。 * 3.scala中定义变量和常量时,可以省略返回类型。val定义的是常量,var定义的是变量。 * 4.scala中定义类、方法、变量建议要原创 2017-11-19 17:53:10 · 565 阅读 · 0 评论 -
把Hive操作的spark代码丢到yarn上面运行找不到数据库
SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/opt/hadoop/nm-local-dir/usercache/root/filecache/19/spark-assembly-1.6.0-hadoop2.6.0.jar!/org/slf4j/impl/StaticLo原创 2017-12-03 17:00:36 · 1772 阅读 · 0 评论 -
kafka的安装
1、解压kafka软件,到config目录下vi server.properties2、配置机器序号,比如CentOS16节点borker.id=0 CentOS17节点上面borker.id=1 CentOS18节点上面borker.id=23、然后启动每台节点上面的zookeeper。zkServer.sh start4、每个节点上面执行bin/kafka-server-start.sh原创 2017-12-23 15:12:05 · 238 阅读 · 0 评论 -
搭建HA storm集群
各节点分配: Nimbus Supervisor Zookeeper CentOS15 1 1 CentOS19 1 1 CentOS20原创 2017-12-23 15:14:41 · 364 阅读 · 0 评论 -
Flume安装及简单使用
FLume原创 2017-12-23 15:26:13 · 621 阅读 · 0 评论 -
HBase安装及操作
单机版: (hbase内嵌有zookeeper) 解压hbase软件,到达conf目录下 配置hbase-site.xml文件<configuration> <property> <name>hbase.rootdir</name> 配置hbase存在位置 <value>file:///home/testuser/hbase</value> </property原创 2017-11-12 14:35:17 · 12098 阅读 · 0 评论