- 博客(34)
- 收藏
- 关注
原创 机器学习笔记03
波士顿房价预测(在sklearn1.2中已删除,http://lib.stat.cmu.edu/datasets/boston)K-means原理:一种基于划分的无监督聚类算法,其核心思想是将数据集划分为k个簇,使得每个数据点都属于最近的簇,是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方法。总共有100人,如果99个样本是癌症,1个样本非癌症 --样本不均衡。是否患病/是否为金融诈骗/ 是否为虚假账号。损失函数/cost/成本函数/目标函数。
2024-05-08 18:32:43
610
原创 机器学习笔记-02
2.estimator.fit(x_train,y_train) 计算每一列的平均值、标准差。transform() (x - mean) / std 进行最终的转换。2.对数据进行分割处理(训练集特征值、测试集特征值、训练集目标值、测试集目标值)优点:对缺失数据不太敏感,算法也比较简单,常用与文本分类,分类准确定高,速度快。:为了解决零概率的问题,用加1的方法估计没有出现过的现象的概率。2)对比测试集特征值和测试集目标值,算出准确率。fit() 计算每一列的平均值、标准差。
2024-05-06 16:36:27
371
原创 机器学习笔记-01
基础书籍:机器学习 -”西瓜书”- 周志华 统计学习方法 - 李航 深度学习 - “花书”* 获取小规模的数据集 sklearn.datasets.load_iris()关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少。应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。测试集:在模型检验时使用,用于评估模型是否有效,20%~30%- 类别–》one-hot 编码。矩阵 matrix 二维数组。TF-IDF - 重要程度。
2024-04-26 13:54:52
508
1
原创 pyspark使用随笔
最近在使用python中pyspark来处理RDD的问题,顺便记录相关基础知识与心得。class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, s...
2020-03-27 11:47:22
219
原创 linux服务器使用df和du命令,磁盘占用情况不一样的解决方法
linux服务器一直报警,使用df -h查看磁盘占用情况的时候挂载目录/opt 占用100%,但是使用du -h --max-depth=1 时发现磁盘的占用空间和df -h的不一样。原因分析:du - estimate file space usage du命令会对统计文件逐个调用fstat这个系统调用,获取文件大小。它的数据是基于文件获取,可以跨多个分区操作。df - repor...
2019-11-18 10:57:48
841
原创 crontab执行不成功,但是手动执行成功的问题
我写好的一个python脚本,通过crontab定时执行,但是却不成功10 2 * * * python /home/ztx/growingio_funnels/readfunnels.py最后通过在网上查看发现可能是路径问题。路径分为绝对路径和相对路径,如果在profile文件中没有配置,直接写python会默认到/usr/bin/python,初装的python版本为2.X。但是我...
2019-11-13 11:32:26
874
原创 centos7.4安装MySQL5.7及后续遇到的问题与解决方法
可以直接使用yum源安装,详见:https://blog.youkuaiyun.com/pzl_pzl/article/details/82015144安装过程中报错:[root@localhost bin]# mysql -u root -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (...
2019-09-16 17:38:25
150
原创 Maxcompute分区表插入数据
1.创建分区表create table aaa(id bigint,name string) partitioned by (adress string);2.创建分区字段alter table aaa add if not exists partition (adress = ‘shanghai’);3.向分区表里插入数据insert into aaa partition(adress...
2019-07-04 14:18:39
1882
原创 flume监控mysql数据推送到kafka
前提:1.需要安装flume服务2.mysql-connector-java-5.1.35-bin.jar需要有这个连接的jar包,且版本要一致。3.status.file.path 路径需要给予flume相应的权限(chmod)a1.channels = c1a1.sources = r1a1.sinks = k1a1.sources.r1.type = org.keedio.f...
2019-07-03 18:39:12
2008
原创 kafka监控工具KafkaOffsetMonitorji的安装与问题
黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor。在此,笔者选用的是KafkaOffsetMonitorKafkaOffsetMonitor的软件包下载地址在GitHub,可以直接在linux中使用wget即可下载。wget http...
2019-06-26 15:29:08
192
原创 CDH添加Hue服务时遇到的坑
一、Hue验证数据库连接时不能正常连接Unexpected error. Unable to verify database connection CDH 5.10.0解决方法:在相同系统中/usr/lib64/mysql找到libmysqlclient_r.so.18.0.0然后复制到需要的服务器上ln -s libmysqlclient_r.so.18.0.0 libmysqlcl...
2019-04-26 15:53:05
2858
原创 HIVE创建外部表
基础建表语句:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]...
2019-04-26 10:48:11
14444
原创 Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException
Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException我的问题是因为版本不兼容。HIVE | SPARK3.0.x | 2.3.02.3.x | 2.0.02.2.x | 1.6.02.1.x | 1.6.02.0.x | 1.5...
2019-04-24 16:59:23
1291
原创 spark-shell客户端连接hive
1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下2.开启hive元数据服务:hive --service metastore3.开启hadoop服务:sh $HADOOP_HOME/sbin/start-all.sh4.开启spark服务:sh $SPARK_HOME/sbin/start...
2019-04-23 17:04:01
1918
原创 CDH安装SPARK2.3
在我的CDH5.14集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.3版本的步骤记录。一. 安装准备1.csd包:http://archive.cloudera.com/spa...
2019-04-15 10:55:16
900
原创 开发随笔
2019.4.15shell脚本修改后,(1)./test.sh(2)sh test.sh运用其中一种方式进行申明更新。.sh文件才会生效
2019-04-15 10:42:52
146
原创 CM5.14.4离线安装及卸载(详细版本,含MYSQL卸载)
uname -a 查看服务器版本Linux datanode1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux选择对应的CDH 安装包http://archive.cloudera.com/cm5/cm/5/http://archive.clouder...
2019-04-11 15:15:12
3001
原创 mysql随笔
delete from 表名;truncate table 表名;不带where参数的delete语句可以删除mysql表中所有内容,使用truncate table也可以清空mysql表中所有内容。效率上truncate比delete快,但truncate删除后不记录mysql日志,不可以恢复数据。delete的效果有点像将mysql表中所有记录一条一条删除到删完,而truncate相...
2019-03-07 17:58:15
157
原创 CDH起datanode服务时遇到的异常及解决方法
报错内容WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /opt/dfs/dn:ExitCodeException exitCode=1: chmod: changing permissions of `/opt/dfs/dn’: Operation not permitte...
2019-02-15 16:48:41
1567
原创 在linux下杀死nohup提交到后台运行的程序
在重启flume的一个服务时,首先用netstat -ntlp查看占用端口,查看到自己服务使用端口号,kill -9 PID杀死,然后重启服务,报错如下Exception in thread “main” org.apache.flume.FlumeException:NettyAvroRpcClient{host:xxxx,port:xxxx}:RPC connection error最...
2019-02-14 19:46:26
1827
原创 CDH 5.15.0 cloudera manager后期扩容
公司搭的CDH刚开始的磁盘大小只有1T。后期已经不能满足使用情况,运维给我们的每一个节点加了1T的容量大小。1.在cm管理页面找到这个配置,后面有一个+;2.添加你挂载的路径;3.给予你新路径文件夹权限chmod 777 /pathname;4.保存更改。保存后重启HDFS服务,可能会报错,datanode最好一个一个的更改。报错的话多试几次就好。ps:最好不要改动原先的dfs路径,...
2019-01-24 14:14:16
829
原创 Hadoop balancer优化HDFS存储问题
今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB,到CM上查看集群状态时发现一个DataNode节点存储已经满了,我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。介绍下balancer:balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁...
2019-01-23 15:05:00
681
原创 MR,Spark提交任务的方式
1.本地运行模式(1)mapreduce 程序是被提交给 LocalJobRunner 在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在 hdfs 上(3)怎样实现本地运行?写一个程序,不要带集群的配置文件本质是程序的 conf 中是否有 mapreduce.framework.name=local 以及yarn.resourcemanager.hostn...
2019-01-21 19:31:23
508
1
原创 随手记
Hadoop副本数量配置:1、服务端hdfs-site.xml中配置dfs.replication2、在客户端指定dfs.replication的值3、通过命令修改已经上传到hdfs的文件副本数hadoop dfs -setrep -w 2 -R /user其中客户端所指定的优先级更高...
2019-01-10 15:38:20
218
原创 sparkstreaming中的foreachRDD与foreachPartition详解
dstream.foreachRDD是一个功能强大的原语,允许将数据发送到外部系统。但是,了解如何正确有效地使用此原语非常重要。通常将数据写入外部系统需要创建连接对象(例如,与远程服务器的TCP连接)并使用它将数据发送到远程系统。为此,开发人员可能无意中尝试在Spark驱动程序中创建连接对象,然后尝试在Spark工作程序中使用它来保存RDD中的记录。详情请见官方文档:https://sp...
2019-01-10 14:28:42
1691
转载 什么是大数据
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能带给我们的三个关键的观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。(1)全体数据——在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖...
2019-01-09 09:58:20
477
原创 Excel转CSV分隔符问题
1.找到本机的控制面板2.更改日期、时间或数字格式3.其他设置4.列表分隔符“,”改为“$”5.进入Excel另存为CSV格式ps:根据实际情况修改分隔符
2019-01-04 17:10:35
3806
原创 使用云服务器搭建集群
区分公网和私网1.在集群内部设置hosts文件时设置的是私网,设置本地的hosts文件时设置的是公网。2.外部服务器则对应公网,内部集群设置时写私网IP
2018-12-27 20:39:48
1376
原创 使用linux时用到的命令
要从HDFS中删除文件/文件夹,可以使用以下命令:hadoop fs -rm -r -skipTrash /path_to_file/file_name上传文件到HDFShadoop fs -put cdh_version.properties /user查看HDFS文件系统里test.txt的内容hadoop fs –cat /user/sunlightcs/test.txt查...
2018-12-27 20:35:52
164
原创 flume+kafka+sparkstreaming+hdfs
跨服务器布置flume时需要注意公司的安全策略,可能不是配置有问题,有问题需要问运维。现在业务需求是:不是集群内部服务器布置flume,跨服务器采集数据。代码如下:服务器A的flume配置:flume_kafka_source.confa1.sources = r1a1.channels = c1a1.sinks =s1#sources端配置a1.sources.r1.type...
2018-12-27 18:38:11
759
1
原创 cm下安装kafka集群服务
1.前提条件CDH环境已经搭建成功。2.搭建要求在CDH上集成Kafka,要求用CDH上的Zookeeper管理Kafka而不是Kafka自带的Zookeeper。3.搭建流程(1)首先选取适合自己CDH版本的Kafka的Parcel文件进行下载,CDH与Kafka版本对应关系链接为:https://www.cloudera.com/documentation/kafka/1-4-x/...
2018-12-25 18:01:01
1218
原创 搜索日志+HDFS+Maxcompute(离线采集数据)
这次业务的需求:将存储在服务器的搜索日志文件采集到HDFS当中,然后进行清洗导入到maxcompute表格中。1.布置flume服务进行实时的采集多台服务器布置flume,指向一台载有flume服务的集群服务器。多个flume的sink指向一个flume的source。a.此次采用的是监控指定文件进行采集,新增一条内容采集一条内容。 b.文件滚动生成方式有三种:按照时间;按照文件大小;按...
2018-12-03 11:24:20
310
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人