- 博客(357)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注

转载 Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中
2021-06-20 18:14:21
2100

转载 spark提交任务的三种的方法
spark提交任务的三种的方法在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种:1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-
2021-04-25 14:46:13
9379

转载 彻底搞懂-扔鸡蛋问题-方程-动态规划
题目:2个鸡蛋,从100层楼上往下扔,以此来测试鸡蛋的硬度,比如鸡蛋在第9层没有摔碎而在第10层摔碎了,那么鸡蛋不会摔碎的零界点就是9层,如何用最少的尝试次数,测试出鸡蛋不会摔碎的临界点?最笨法:把其中一个鸡蛋从第1层开始往下扔,如果第1层没碎换到第2层扔,如果第2层没碎换到第3层扔,,,如果第59层没碎换到第60层扔,如果第60层碎了,说明不会摔碎的临界点是59层,最坏情况下需要扔100次二分法:把鸡蛋从50层往下扔,如果第一枚在50层碎了,就从第1层开始(一共只有两个鸡蛋,第一个鸡蛋
2020-06-24 17:53:15
3113
1

转载 布隆过滤器+缓存穿透问题+Counting Bloom Filter,原理+案例+代码实现
概述什么是布隆过滤器布隆过滤器(Bloom Filter)是1970年由布隆提出的,它实际上是由一个很长的二进制向量和一系列随意映射函数组成。它是一种基于概率的数据结构,主要用来判断某个元素是否在集合内,它具有运行速度快(时间效率),占用内存小的优点(空间效率),但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。在计算机科学中,我们常常会碰到时间换空间或者空间换时间的情况,通常两者不可兼得,我们要在两者之间取舍...
2020-06-20 15:35:40
2025

原创 python使用xlwt形成合并单元格的excel并且读取合并单元格的excel
python使用xlwt形成合并单元格的excel并且读取合并单元格的excel 在日常数据报表数据处理中,经常会遇到看某个大类下面每个小类的各自的情况,此时形成的合并一些单元格作为表头的excel。在excel中,手动合并单元格比较容易,但是怎么利用python构造某些列或者行合并作为标题行或列的excel呢?废话不多说,直接上代码。1、安装python处理excel需要的包...
2019-11-12 13:25:26
9076

转载 inotifywait+rsync 实时同步脚本
相同服务器我们时常需要相同的部署,这时就需要我们能够实时的同步文件。今天我就和大家分享一个能够实现自动远程实时同步文件的方法:一、利用inotifywait对文件系统事件实时监控, 触发事件调用rsync远程同步文件至一台或多台服务器 接下来说说我们需要使用到的工具:1、rsync一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。rsync使用所谓...
2019-07-23 22:03:11
1795

转载 【超级有用】大数据的压缩格式
为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】$ hadoop version$ hadoop checknative一、在解答上述问题以前,我们先...
2019-07-18 10:30:59
1065
1

转载 【python可视化系列】python数据可视化利器--pyecharts
前言echarts是什么?下面是来自官方的介绍: ECharts,缩写来自Enterprise Charts,商业级数据图表,Echarts 是百度开源的一个数据可视化纯Javascript(JS) 库。主要用于数据可视化,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRe...
2018-06-17 17:18:33
16404

原创 Hbase表两种数据备份方法-导入和导出示例
Hbase表数据导入和导出示例场合:由于线上和测试环境是分离的,无法在测试环境访问线上库,所以需要将线上的hbase表导出一部分到测试环境中的hbase表,这就是本文的由来。本文借助hdfs作为中介将线上的hbase数据导出部分到测试hbase表中。闲话少叙,例子就来:1)、创建hbase表emplocalhost:bin a6$ pwd/Users/a6/Applications/hbase-...
2018-05-15 17:39:46
22594
6

转载 前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍
前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation),sigmoid函数...
2018-04-09 11:42:14
3485

转载 hive 动态分区(Dynamic Partition)异常处理
hive 动态分区(Dynamic Partition)异常处理Changing Hive Dynamic Partition LimitsSymptoms:Hive enforces limits on the number of dynamic partitions that it creates. The default is 100 dynamic partitions per nod...
2018-03-27 11:43:30
5532

原创 mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案
mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案这种情况可以通过修改max_allowed_packed的配置参数来避免,也可以在程序中将数据分批插入(使用mysql limit进行分页,循环分批处理数据)
2017-09-27 20:28:45
91874
3

原创 python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql
python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql出于安全考虑,数据库服务器只允许堡垒机通过ssh访问,这对日常的使用带来了麻烦。昨天的工作中,就遇到了这样的问题,MySQL数据库放在了服务器A上,只允许服务器B来访问,而我在机器C上,可以通过ssh连接服务器B。为了解决在机器C上连接mysql这个问题sshtunnel官方使用例子,请参照例子:
2017-09-05 13:21:34
11693

原创 【python Excel】如何使用python将大量数据导出到Excel中的小技巧之一
如何使用python将大量数据导出到Excel中的小技巧python Excel相关的操作的module lib有两组,一组是xlrd、xlwt、xlutils,另一组是openpyxl,但是前一组(xlrd,xlwt)比较老,只能处理由Excel 97-2003 或者Excel 97 以前版本生成的xls格式的excel文件, xlwt甚至不支持07版以后的excel ,这个格式excel文件一般来说,最大只能支持256列或者65536行的excel文件。因此面对需要导出大量数据到excel的情况,
2017-09-05 12:24:25
60439
原创 Hive collect_set()、collect_list()列转行,并对转换后的行值排序
Hive collect_set()、collect_list()列转行,和concat_ws()使用,并对转换后的行值排序
2024-01-30 18:17:21
2752
原创 Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据类型不兼容报错解决
Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据,但部分doris类型spark doris connector不兼容报错解决方案 .spark.exception.ConnectedFailedException: Connect to Doris BE{host='172.xxx.yyyy.10', port=9060}failed.
2024-01-12 20:34:46
1965
原创 hive建表指定列分隔符为多字符分隔符实战(默认只支持单字符)
Hive多字符的列分隔符支持示例,清洗入hive表的过程中,发现字段之间的单一字符的分割符号已经不能满足列分割需求,因为字段值本身可能包含分隔符。
2023-10-10 16:27:12
4247
原创 和subline快捷键冲突:win10按快捷键ctrl+shift+L会显示“性能录制已开始”,怎么把这个快捷键关掉?
和subline快捷键冲突:win10按快捷键ctrl+shift+L会显示“性能录制已开始”,怎么把这个快捷键关掉?
2023-09-24 20:03:26
6242
转载 Hive中SQL通配符like与正则匹配rlike(regexp)的区别
Hive 中可以用 like 和 rlike 进行模糊匹配,like 采用的是 SQL 通配符,而 rlike (regexp)采用的是正则匹配。
2023-04-15 16:51:13
4114
转载 shell脚本中用hive -e执行sql出现「cannot recognize input near ‘<EOF>‘ in select clause」问题
1、shell脚本中用hive -e执行sql出现「cannot recognize input near ‘<EOF>‘ in select clause」问题2、解决方案修改hive -e ${sql}为hive -e "${sql}"3、原因分析若没有使用双引号进行包括,则"hive -e"会认为后面的sql内容解析为多个参数造成错误。而使用双引号后,整个sql将作为一个单独的参数传给hive。
2022-11-09 10:22:36
3132
原创 python中list 转set和tuple遇到的坑和 python占位符使用
python中list 转set和tuple遇到的坑和 python占位符使用
2022-11-08 17:19:30
905
转载 hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例
hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例
2022-11-08 14:23:42
3591
1
转载 hive分箱函数ntile()使用案例
ntile()函数的作用是等频分箱,把观测值进行有序排列(默认升序),根据观测值的总个数等分为k部分,每部分当作一个分箱,即百分位数的概念,可以根据箱号选取前或后n分之几的数据。
2022-11-07 20:39:40
2679
转载 linux expect远程自动登录以及执行命令
1、什么是expect?在做系统管理时,我们很多时候需要输入密码,例如:连接 ssh,连接ftp,那么如何能做到不输入密码吗?ssh远程登录一台主机后,会在know_hosts中新增1条记录,下次再登录时就不用输入用户名密码。但是有一个问题,如果我需要在100台新机器上登录,那就需要输入100次用户名密码,这之后才不用输入,这太麻烦了,因此就用到了expect来解决。我们需要有一个工具,能代替我们实现与终端的交互,那么,就是它:expect,管理员的最好的朋友之一,通过expect将代码分发至
2021-12-03 15:42:38
4662
转载 hive 和 spark-sql 如何写SQL求出中位数平均数和众数(count 之外的方法)
1、概念介绍 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供信息。平均数特点:计算用到所有的数据,它能够充分利用数据提供的信息,它具有优秀的数学性质,因此在实际应用中较为广泛。但它受极端值的影响较大。应用场合:没有极端值的情况下数据集中趋势的刻画。如:小明五次测试的成绩为87、88、89、93、94你认为小明这五次测试成绩怎样?...
2021-11-24 10:27:15
8217
1
转载 Spark DataFrame 的窗口函数使用的两种形式介绍
1、概述上文介绍了sparkdataframe常用操作算子。除此外,spark还有一类操作比较特别——窗口函数。窗口函数常多用于sql,spark sql也集成了,同样,spark dataframe也有这种函数,spark sql的窗口函数与spark dataframe的写法不太一样。1.1、spark sql 写法select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.
2021-07-27 13:34:24
3957
转载 shell 数组及其遍历的3种方法
1、shell数组1.1、数组概述数组中可以存放多个值。Bash Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小(与 PHP 类似)。与大部分编程语言类似,数组元素的下标由0开始。Shell 数组用括号来表示,元素用”空格”符号分割开,语法格式如下:array_name=(value1 value2 … valuen)例如:my_array=(A B “C” D)我们也可以使用下标来定义数组:array_name[0]=value0array_na
2021-07-15 11:41:07
53447
3
转载 Spark机器学习API之特征处理
关键字:spark、机器学习、特征处理、特征选择Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理API中的特征选择(Feature Selectors)
2021-06-20 20:31:42
480
转载 获取本季度上季度的时间_hive时间函数应用小例
1. 获取当前时间:yyyy-mm-ddSELECT CURRENT_DATE;current_date()2021-06-17Time taken: 0.077 seconds, Fetched 1 row(s)2. 获取当月第一天时间:yyyy-mm-ddselect date_sub(current_date,dayofmonth(current_date)-1);date_sub(current_date(), (dayofmonth(current_date()) - 1
2021-06-17 21:25:14
3547
转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法
HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本:spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...
2021-04-30 20:11:29
7971
1
转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题
Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段:用户、新增日期、活跃日期 原数据表:user_active表1.1、测试数据:比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.
2021-04-26 13:23:31
2380
转载 linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU
2021-04-17 15:28:49
2536
HelloUDF.zip
2019-10-11
MacDown使用小例子
2018-05-23
使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能
2012-08-08
运算符重载和函数重载
2012-08-08
停车场管理系统
2012-08-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人