
大数据
文章平均质量分 60
weifengLD
嵌入式爱好者
展开
-
VirtualBox网络之仅主机(Host-Only)网络连接互联网络
第一步:所有的虚拟机关机。先删除第二步:共享当前笔记本上网的网络第三步:更改笔记本Adapter对应的IP地址第四步:重新修改虚拟机地址第五步:启动虚拟机ping www.baidu.com...原创 2020-02-26 17:34:05 · 1539 阅读 · 0 评论 -
Flink 1.10编译实战(CDH版本)
Flink1.10增加了一些新的特性Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化。Flink 1....原创 2020-02-26 16:29:47 · 4182 阅读 · 0 评论 -
python3的map问题
在Python2中map函数会返回一个list列表,如代码:123>>> def f(x, y): return (x, y) >>> l1 = [ 0, 1, 2, 3, 4, 5, 6 ] >>> l2 = [ 'Sun', 'Mon', 'Tue', 'Wed', 'Thu', 'Fri',转载 2017-12-14 17:25:47 · 392 阅读 · 0 评论 -
HIVE的transform函数的使用
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚转载 2017-12-12 12:12:17 · 5930 阅读 · 1 评论 -
hive 的map数和reduce如何确定
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2017-10-15 22:35:17 · 1880 阅读 · 0 评论 -
linux常用命令
Linux:免费开源,多用户多任务,衍生出很多附属版本,例如常用的RedHat。。。 常用指令ls 显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录,包括隐藏的a(all)mkdir 创建目录 -p转载 2017-11-07 22:26:14 · 155 阅读 · 0 评论 -
大数据常见问题数据倾斜
什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做转载 2017-10-12 17:17:23 · 1051 阅读 · 0 评论 -
数据倾斜
1数据倾斜的原因1.1操作:关键词情形后果Join其中一个表较小,但是key集中分发到某一个或几个Reduce上的数据远高于平均值大表与大表,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,灰常慢转载 2017-10-12 17:16:44 · 7833 阅读 · 0 评论 -
在perl中使用linux date
my $todaydate = `date +'%Y%m%d'`;#当前日期 my $tuesday=`date -d '$txdate + 1 day' +'%Y%m%d'`;#txdate=20170909 则值为20170910 my $week_day=`date -d '$todaydate' +%w` #显示所在的星期原创 2017-09-20 15:44:49 · 529 阅读 · 0 评论 -
select 1和select 0进行优化
当我们只关心数据表有多少记录行而不需要知道具体的字段值时,类似“select 1 from tblName”是一个很不错的SQL语句写法,它通常用于子查询。这样可以减少系统开销,提高运行效率,因为这样子写的SQL语句,数据库引擎就不会去检索数据表里一条条具体的记录和每条记录里一个个具体的字段值并将它们放到内存里,而是根据查询到有多少行存在就输出多少个“1”,每个“1”代表有1行记录,同时选用数字1原创 2017-09-20 14:16:51 · 18607 阅读 · 0 评论 -
数据挖掘十大算法【转载】
数据挖掘十大经典算法一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。二、The k-means algorith转载 2017-09-12 11:59:24 · 220 阅读 · 0 评论 -
thrift初识
一. 与 Thrift 的初识也许大多数人接触 Thrift 是从序列化开始的。每次搜索 “java序列化” + “方式”、“对比” 或 “性能” 等关键字时,搜索引擎总是会返回一大堆有关各种序列化方式的使用方法或者性能对比的结果给你,而其中必定少不了 Thrift,并且其性能还不错嘞,至少比那战斗力只有1的渣渣 java 原生序列化要强很多(好吧原谅我的小情绪……)。然而,我最初转载 2017-09-15 16:39:20 · 423 阅读 · 0 评论 -
序列化和反序列化
简单来说序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化,流的概念这里不用多说(就是I/O),我们可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间(注:要想将对象传输于网络必须进行流化)!在对对象流进行读写操作时会引发一些问题,而序列化机制正是用来解决这些问题的!问题的引出:如上所述,读写对象会有什么问题呢?比如:我要将对象写入一个磁盘文件而后再将其转载 2017-09-15 16:35:48 · 196 阅读 · 0 评论 -
Perl 字符串转换成UNIX时间戳
最近遇到一个需求,调用perl脚本,由于自己不会perl硬着头皮上实现的功能是,下一周任一时间发送上一周一周报#!/usr/bin/perl -w #检测是否是闰年#输入参数年:数值类型#如:2017sub is_leap_year{ my ($year) = @_; my $flag = 0; if((($year) %4 == 0 && ($y原创 2017-09-15 15:06:17 · 1650 阅读 · 0 评论 -
python2和python3的差别
概述#原稿地址:使用 2to3 将代码移植到 Python 3几乎所有的Python 2程序都需要一些修改才能正常地运行在Python 3的环境下。为了简化这个转换过程,Python 3自带了一个叫做2to3的实用脚本(Utility Script),这个脚本会将你的Python 2程序源文件作为输入,然后自动将其转换到Python 3的形式。案例研究:将chardet移植到Python 3(po...转载 2018-03-19 18:36:56 · 668 阅读 · 0 评论 -
fm原理与FM实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。前言在计算广告领域,点击率CTR(click-th...转载 2018-04-09 10:15:51 · 8666 阅读 · 1 评论 -
微信文章测试
一:安装Hadoop环境 1安装virtual box,设置虚拟网卡的IP地址,和虚拟机同一个网段 2在虚拟机中选用host-only网络 vi /etc/sysconfig/network NETWORKING=yes GATEWAY=192.168.56.1 vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 TYP...原创 2019-01-21 22:08:27 · 308 阅读 · 0 评论 -
test
/bin/kafka-topics.sh --zookeeper 192.168.56.100:2181/kafka --create --topic user_events --replication-factor 2 --partitions 2/bin/kafka-topics.sh --zookeeper 192.168.56.100:2181/kafka --list/bin/ka...原创 2018-09-01 16:46:28 · 185 阅读 · 0 评论 -
windows系统手动编译spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz
Spark 2.2.0源码的下载地址: https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz编译Spark源码的文档(参考官方文档): http://spark.apache.org/docs/latest/building-spark.html编译Spark源码的前置要求: Maven...原创 2018-07-30 19:43:42 · 1150 阅读 · 0 评论 -
推荐系统老司机的十条经验
本文来源微信公众号:ResysChina,版权归原作者所有,未经作者同意,请勿转载。 原文:推荐系统老司机的十条经验 作者:陈开江@刑无刀,金融科技公司天农科技CTO,曾任新浪微博资深推荐算法工程师,考拉FM算法主管,先后负责微博反垃圾、基础数据挖掘、智能客服平台、个性化推荐等产品的后端算法研发,为考拉FM从零构建了个性化音频推荐系统。 欢迎技术投稿、约稿、给文章纠错,请发送邮件至heyc@csd...转载 2018-05-08 16:22:56 · 407 阅读 · 0 评论 -
AUC,ROC我看到的最透彻的讲解
面试的时候,一句话说明AUC的本质和计算规则:AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。所以根据定义:我们最直观的有两种计算AUC的方法1:绘制ROC曲线,ROC曲线下面的面积就是AUC的值2:假设总共有(m+n)个样本,其中正样本m个,负样本n个,总共有m*n个样本对,计数,正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m...原创 2018-05-20 21:42:32 · 187236 阅读 · 17 评论 -
Labelhot和OneHot的使用
对于一些特征工程方面,有时会用到LabelEncoder和OneHotEncoder。比如kaggle中对于性别,sex,一般的属性值是male和female。两个值。那么不靠谱的方法直接用0表示male,用1表示female 了。上面说了这是不靠谱的。所以要用one-hot编码。首先我们需要用LabelEncoder把sex这个属性列里面的离散属性用数字来表示,就是上面的过程,把male,fem...转载 2018-05-17 17:11:25 · 3304 阅读 · 0 评论 -
pandas 如何缩小内存使用(catagories)
参与:Pandapandas 是一个 Python 软件库,可用于数据操作和分析。数据科学博客 Dataquest.io 发布了一篇关于如何优化 pandas 内存占用的教程:仅需进行简单的数据类型转换,就能够将一个棒球比赛数据集的内存占用减少了近 90%,机器之心对本教程进行了编译介绍。当使用 pandas 操作小规模数据(低于 100 MB)时,性能一般不是问题。而当面对更大规模的数据(100...转载 2018-05-09 10:45:22 · 2287 阅读 · 0 评论 -
KD_Tree 简介
本文介绍一种用于高维空间中的快速最近邻和近似最近邻查找技术——Kd-Tree(Kd树)。Kd-Tree,即K-dimensional tree,是一种高维索引树形数据结构,常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nearest Neighbor),例如图像检索和识别中的高维图像特征向量的K近邻查找与匹配。本文首先介绍K...转载 2018-04-06 23:27:30 · 1821 阅读 · 0 评论 -
hadoop 面试题
1、简要描述如何安装配置一个开源的hadoop,只描述即可,列出完整步骤。a、创建一个用户和用户组,用来管理hadoop项目b、修改确定ip地址:vim /etc/sysconfig/network-scripts/ifcfg-eth0c、修改主机名:vim /etc/sysconfig/networkd、修改host主机名和ip地址映射:vim /etc/hostse、查看防火墙状态并关闭防火墙...转载 2018-03-28 17:06:59 · 1329 阅读 · 0 评论 -
hadoop的二次排序
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框架的处理流程的分析还是有非常大的出入,而且部分分析是没有经过验证的。本文将通过一个实际的MapRedu...转载 2018-03-28 16:33:13 · 1033 阅读 · 0 评论 -
rdd,dataframe,dataset之间的区别
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才转载 2017-09-23 16:55:45 · 691 阅读 · 0 评论 -
推荐使用maven shade进行打包,assembly打包会出现若干问题
现在基本上都是采用maven来进行开发管理,我有一个需求是需要把通过maven管理的java工程打成可执行的jar包,这样也就是说必需把工程依赖的jar包也一起打包。而使用maven默认的package命令构建的jar包中只包括了工程自身的class文件,并没有包括依赖的jar包。我们可以通过配置插件来对工程进行打包,pom具体配置如下:maven-assembly-plugin (使用此转载 2017-08-29 15:11:18 · 8024 阅读 · 3 评论 -
Spring如何加载XSD文件(org.xml.sax.SAXParseException: Failed to read schema document错误的解决方法)
本文原文连接: http://blog.youkuaiyun.com/bluishglc/article/details/7596118 ,转载请注明出处!有时候你会发现过去一直启动正常的系统,某天启动时会报出形如下面的错误:org.xml.sax.SAXParseException: schema_reference.4: Failed to read schema document 'ht转载 2017-08-29 15:04:11 · 252 阅读 · 0 评论 -
yarn resourceManager 找不到nodeManager
尤其注意:master和slave都要配置1首先是配置core-site.xml(注意:主机配置下hapoop缓存目录hadoop.tmp.dir/hadoop_tmp) fs.defaultFS hdfs://master:9000 2配置mapred-site.xml mapreduce.f原创 2017-05-21 16:20:09 · 4301 阅读 · 0 评论 -
hadoop架构详解(hdfs,yarn,mpreduce)
一:HDFS架构模型 HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。Client:就是客户端。 1、文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个原创 2017-07-01 12:06:05 · 1037 阅读 · 0 评论 -
日期时间解析的问题
今天在做一个日期解析的时间工具的时候出现了问题问题描述:第一版本:new SimpleDateFormat("dd/mmm/yyyy:HH:mm:ss Z",Locale.ENGLISH)此处mmm 和 mm字符重复了,直接就unparaseable了下面是正确的版本/** * Created by Administrator on 2017/7/4. * 日期时间解析工具原创 2017-07-07 22:06:04 · 748 阅读 · 0 评论 -
IDEA社区版使用Maven + Tomcat开发Web项目
由于IDEA的社区版没有集成Web application的原因,加之学生党消费不起专业版,所以通过Google加上自己的使用技巧,成功的使用IDEA社区办进行Web项目的开发和调试步骤: 1、创建一个Project:在Welcome to IntelliIDEA 中选择: Create new Project2、在New Project窗体中:选择Ma转载 2017-07-08 21:58:35 · 2255 阅读 · 0 评论 -
mysql授予远程连接的权限
在我们使用mysql数据库时,有时我们的程序与数据库不在同一机器上,这时我们需要远程访问数据库。缺省状态下,mysql的用户没有远程访问的权限。下面介绍两种方法,解决这一问题。1、改表法可能是你的帐号不允许从远程登陆,只能在localhost。这个时候只要在localhost的那台电脑,登入mysql后,更改 "mysql" 数据库里的 "user" 表里的 "host原创 2017-07-10 09:53:19 · 2887 阅读 · 0 评论 -
redis和mysql的区别
我们知道,mysql是持久化存储,存放在磁盘里面,检索的话,会涉及到一定的IO,为了解决这个瓶颈,于是出现了缓存,比如现在用的最多的 memcached(简称mc)。首先,用户访问mc,如果未命中,就去访问mysql,之后像内存和硬盘一样,把数据复制到mc一部分。 redis和mc都是缓存,并且都是驻留在内存中运行的,这大大提升了高数据量web访问的访问速度。然而mc只是提供了简单的数据结构转载 2017-07-18 11:08:16 · 358 阅读 · 0 评论 -
mysql的触发器使用
MySQL包含对触发器的支持。触发器是一种与表操作有关的数据库对象,当触发器所在表上出现指定事件时,将调用该对象,即表的操作事件触发表上的触发器的执行。创建触发器在MySQL中,创建触发器语法如下:代码如下:CREATE TRIGGER trigger_nametrigger_timetrigger_event ON tbl_nameFOR EACH R转载 2017-07-20 16:45:03 · 371 阅读 · 0 评论 -
mysql中游标的使用
1.游标是啥玩意?简单的说:游标(cursor)就是游动的标识,啥意思呢,通俗的这么说,一条sql取出对应n条结果资源的接口/句柄,就是游标,沿着游标可以一次取出一行。我给大家准备一张图:2.怎么使用游标?//1.声明/定义一个游标declare 声明;declare 游标名 cursor for select_statement;//2.打开一个游标open 打开转载 2017-07-20 16:30:27 · 793 阅读 · 0 评论 -
大数据问题TOP
这些问题都面临着一个内存不够用的问题。 1.给一个超过100G大小的 log file,log中存着IP地址,设计算法找出出现次数最多的IP地址? 由于超过100G,那必须对文件进行切分。 (1)切分,可以切成100份,每份有1G,那哈希表的大小就是100,利用字符串哈希算法将字符串IP转换成整型 (2)过哈希切分,同一个ip就会分割到同一个文件。 (3)是依次将这100个文件转载 2017-07-20 15:29:46 · 483 阅读 · 0 评论 -
Scala的join算子
1:使用Scala的算子join进行练习val spark = SparkSession.builder().master("local[2]").appName("simple").getOrCreate() val visit = spark.sparkContext.parallelize(List(("index.html","1.2.3.4"),("about.html","原创 2017-07-16 21:36:09 · 11153 阅读 · 0 评论 -
linux中mysql如何创建存储过程
创建存储过程的完整命令:CREATE PROCEDURE pro1()begin declare b int default 0;end;MySQL中运行存储过程创建语句错误结果:root@db1>CREATE PROCEDUREpro1() -> begin -> declare b int default转载 2017-07-20 11:16:29 · 5155 阅读 · 0 评论