Tinsonz-优快云博客

原创机器学习笔记03

波士顿房价预测（在sklearn1.2中已删除，http://lib.stat.cmu.edu/datasets/boston）K-means原理：一种基于划分的无监督聚类算法，其核心思想是将数据集划分为k个簇，使得每个数据点都属于最近的簇，是利用回归方程（函数）对一个或者多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方法。总共有100人，如果99个样本是癌症，1个样本非癌症 --样本不均衡。是否患病/是否为金融诈骗/ 是否为虚假账号。损失函数/cost/成本函数/目标函数。

2024-05-08 18:32:43 654

原创机器学习笔记-02

2.estimator.fit(x_train,y_train) 计算每一列的平均值、标准差。transform() (x - mean) / std 进行最终的转换。2.对数据进行分割处理（训练集特征值、测试集特征值、训练集目标值、测试集目标值）优点：对缺失数据不太敏感，算法也比较简单，常用与文本分类，分类准确定高，速度快。：为了解决零概率的问题，用加1的方法估计没有出现过的现象的概率。2)对比测试集特征值和测试集目标值，算出准确率。fit() 计算每一列的平均值、标准差。

2024-05-06 16:36:27 420

原创机器学习笔记-01

基础书籍：机器学习 -”西瓜书”- 周志华统计学习方法 - 李航深度学习 - “花书”* 获取小规模的数据集 sklearn.datasets.load_iris()关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章当中出现很少。应用场景：在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。测试集：在模型检验时使用，用于评估模型是否有效，20%~30%- 类别–》one-hot 编码。矩阵 matrix 二维数组。TF-IDF - 重要程度。

2024-04-26 13:54:52 558 1

原创【无标题】当天数据为空，则取最近一天有值的数据为当天的值

这样就能补充好为空值的数据了，喜提星巴克一杯。

2023-10-18 16:27:10 443

原创 pyspark使用随笔

最近在使用python中pyspark来处理RDD的问题，顺便记录相关基础知识与心得。class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, s...

2020-03-27 11:47:22 247

原创 linux服务器使用df和du命令，磁盘占用情况不一样的解决方法

linux服务器一直报警，使用df -h查看磁盘占用情况的时候挂载目录/opt 占用100%，但是使用du -h --max-depth=1 时发现磁盘的占用空间和df -h的不一样。原因分析：du - estimate file space usage du命令会对统计文件逐个调用fstat这个系统调用，获取文件大小。它的数据是基于文件获取，可以跨多个分区操作。df - repor...

2019-11-18 10:57:48 933

原创 crontab执行不成功，但是手动执行成功的问题

我写好的一个python脚本，通过crontab定时执行，但是却不成功10 2 * * * python /home/ztx/growingio_funnels/readfunnels.py最后通过在网上查看发现可能是路径问题。路径分为绝对路径和相对路径，如果在profile文件中没有配置，直接写python会默认到/usr/bin/python，初装的python版本为2.X。但是我...

2019-11-13 11:32:26 911

原创 centos7.4安装MySQL5.7及后续遇到的问题与解决方法

可以直接使用yum源安装，详见：https://blog.youkuaiyun.com/pzl_pzl/article/details/82015144安装过程中报错：[root@localhost bin]# mysql -u root -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (...

2019-09-16 17:38:25 182

原创 Maxcompute分区表插入数据

1.创建分区表create table aaa(id bigint,name string) partitioned by (adress string);2.创建分区字段alter table aaa add if not exists partition (adress = ‘shanghai’);3.向分区表里插入数据insert into aaa partition(adress...

2019-07-04 14:18:39 2060

原创 flume监控mysql数据推送到kafka

前提：1.需要安装flume服务2.mysql-connector-java-5.1.35-bin.jar需要有这个连接的jar包，且版本要一致。3.status.file.path 路径需要给予flume相应的权限（chmod）a1.channels = c1a1.sources = r1a1.sinks = k1a1.sources.r1.type = org.keedio.f...

2019-07-03 18:39:12 2059

原创 kafka监控工具KafkaOffsetMonitorji的安装与问题

黑窗口的kafka集群没有监控，可以使用三方开源的监控工具，查询了些资料，网上流传最多的有三个监控工具：Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor。在此，笔者选用的是KafkaOffsetMonitorKafkaOffsetMonitor的软件包下载地址在GitHub，可以直接在linux中使用wget即可下载。wget http...

2019-06-26 15:29:08 223

原创 kafka的broker的参数配置

2019-05-27 10:41:04 318

原创 CDH添加Hue服务时遇到的坑

一、Hue验证数据库连接时不能正常连接Unexpected error. Unable to verify database connection CDH 5.10.0解决方法：在相同系统中/usr/lib64/mysql找到libmysqlclient_r.so.18.0.0然后复制到需要的服务器上ln -s libmysqlclient_r.so.18.0.0 libmysqlcl...

2019-04-26 15:53:05 2919

原创 HIVE创建外部表

基础建表语句：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]...

2019-04-26 10:48:11 14540

原创 Hive On Spark报错：Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException

Hive On Spark报错：Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException我的问题是因为版本不兼容。HIVE | SPARK3.0.x | 2.3.02.3.x | 2.0.02.2.x | 1.6.02.1.x | 1.6.02.0.x | 1.5...

2019-04-24 16:59:23 1362

原创 spark-shell客户端连接hive

1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下2.开启hive元数据服务：hive --service metastore3.开启hadoop服务：sh $HADOOP_HOME/sbin/start-all.sh4.开启spark服务：sh $SPARK_HOME/sbin/start...

2019-04-23 17:04:01 1959

原创 CDH安装SPARK2.3

在我的CDH5.14集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。这里做一下安装spark2.3版本的步骤记录。一. 安装准备1.csd包：http://archive.cloudera.com/spa...

2019-04-15 10:55:16 973

原创开发随笔

2019.4.15shell脚本修改后，(1)./test.sh(2)sh test.sh运用其中一种方式进行申明更新。.sh文件才会生效

2019-04-15 10:42:52 167

原创 CM5.14.4离线安装及卸载（详细版本，含MYSQL卸载）

uname -a 查看服务器版本Linux datanode1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux选择对应的CDH 安装包http://archive.cloudera.com/cm5/cm/5/http://archive.clouder...

2019-04-11 15:15:12 3044

原创 mysql随笔

delete from 表名;truncate table 表名;不带where参数的delete语句可以删除mysql表中所有内容，使用truncate table也可以清空mysql表中所有内容。效率上truncate比delete快，但truncate删除后不记录mysql日志，不可以恢复数据。delete的效果有点像将mysql表中所有记录一条一条删除到删完，而truncate相...

2019-03-07 17:58:15 178

原创 CDH起datanode服务时遇到的异常及解决方法

报错内容WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /opt/dfs/dn:ExitCodeException exitCode=1: chmod: changing permissions of `/opt/dfs/dn’: Operation not permitte...

2019-02-15 16:48:41 1627

原创在linux下杀死nohup提交到后台运行的程序

在重启flume的一个服务时，首先用netstat -ntlp查看占用端口，查看到自己服务使用端口号，kill -9 PID杀死，然后重启服务，报错如下Exception in thread “main” org.apache.flume.FlumeException:NettyAvroRpcClient{host:xxxx,port:xxxx}:RPC connection error最...

2019-02-14 19:46:26 1907

原创 CDH 5.15.0 cloudera manager后期扩容

公司搭的CDH刚开始的磁盘大小只有1T。后期已经不能满足使用情况，运维给我们的每一个节点加了1T的容量大小。1.在cm管理页面找到这个配置，后面有一个+;2.添加你挂载的路径;3.给予你新路径文件夹权限chmod 777 /pathname;4.保存更改。保存后重启HDFS服务，可能会报错，datanode最好一个一个的更改。报错的话多试几次就好。ps：最好不要改动原先的dfs路径，...

2019-01-24 14:14:16 862

原创 Hadoop balancer优化HDFS存储问题

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB，到CM上查看集群状态时发现一个DataNode节点存储已经满了，我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。介绍下balancer：balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时，用于均衡hdfs集群磁...

2019-01-23 15:05:00 751

原创 MR，Spark提交任务的方式

1.本地运行模式（1）mapreduce 程序是被提交给 LocalJobRunner 在本地以单进程的形式运行（2）而处理的数据及输出结果可以在本地文件系统，也可以在 hdfs 上（3）怎样实现本地运行？写一个程序，不要带集群的配置文件本质是程序的 conf 中是否有 mapreduce.framework.name=local 以及yarn.resourcemanager.hostn...

2019-01-21 19:31:23 571 1

原创随手记

Hadoop副本数量配置：1、服务端hdfs-site.xml中配置dfs.replication2、在客户端指定dfs.replication的值3、通过命令修改已经上传到hdfs的文件副本数hadoop dfs -setrep -w 2 -R /user其中客户端所指定的优先级更高...

2019-01-10 15:38:20 244

原创 sparkstreaming中的foreachRDD与foreachPartition详解

dstream.foreachRDD是一个功能强大的原语，允许将数据发送到外部系统。但是，了解如何正确有效地使用此原语非常重要。通常将数据写入外部系统需要创建连接对象（例如，与远程服务器的TCP连接）并使用它将数据发送到远程系统。为此，开发人员可能无意中尝试在Spark驱动程序中创建连接对象，然后尝试在Spark工作程序中使用它来保存RDD中的记录。详情请见官方文档：https://sp...

2019-01-10 14:28:42 1744

转载什么是大数据

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能带给我们的三个关键的观念转变：是全部数据，而不是随机采样；是大体方向，而不是精确制导；是相关关系，而不是因果关系。（1）全体数据——在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖...

2019-01-09 09:58:20 506

原创 Excel转CSV分隔符问题

1.找到本机的控制面板2.更改日期、时间或数字格式3.其他设置4.列表分隔符“,”改为“$”5.进入Excel另存为CSV格式ps：根据实际情况修改分隔符

2019-01-04 17:10:35 3891

原创使用云服务器搭建集群

区分公网和私网1.在集群内部设置hosts文件时设置的是私网，设置本地的hosts文件时设置的是公网。2.外部服务器则对应公网，内部集群设置时写私网IP

2018-12-27 20:39:48 1423

原创使用linux时用到的命令

要从HDFS中删除文件/文件夹，可以使用以下命令：hadoop fs -rm -r -skipTrash /path_to_file/file_name上传文件到HDFShadoop fs -put cdh_version.properties /user查看HDFS文件系统里test.txt的内容hadoop fs –cat /user/sunlightcs/test.txt查...

2018-12-27 20:35:52 195

原创 flume+kafka+sparkstreaming+hdfs

跨服务器布置flume时需要注意公司的安全策略，可能不是配置有问题，有问题需要问运维。现在业务需求是：不是集群内部服务器布置flume，跨服务器采集数据。代码如下：服务器A的flume配置：flume_kafka_source.confa1.sources = r1a1.channels = c1a1.sinks =s1#sources端配置a1.sources.r1.type...

2018-12-27 18:38:11 790 1

原创 cm下安装kafka集群服务

1.前提条件CDH环境已经搭建成功。2.搭建要求在CDH上集成Kafka，要求用CDH上的Zookeeper管理Kafka而不是Kafka自带的Zookeeper。3.搭建流程(1)首先选取适合自己CDH版本的Kafka的Parcel文件进行下载，CDH与Kafka版本对应关系链接为：https://www.cloudera.com/documentation/kafka/1-4-x/...

2018-12-25 18:01:01 1279

原创搜索日志+HDFS+Maxcompute(离线采集数据)

这次业务的需求：将存储在服务器的搜索日志文件采集到HDFS当中，然后进行清洗导入到maxcompute表格中。1.布置flume服务进行实时的采集多台服务器布置flume，指向一台载有flume服务的集群服务器。多个flume的sink指向一个flume的source。a.此次采用的是监控指定文件进行采集，新增一条内容采集一条内容。 b.文件滚动生成方式有三种：按照时间；按照文件大小；按...

2018-12-03 11:24:20 345

Tinson写字的地方