
大数据
LatinoCaribo
菜是原罪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark大数据分析入门笔记
目录一、术语解释二、Spark特征三、Spark整体工作流程四、Spark运行方式一、术语解释RDD(Resilient Distributed Dataset):弹性分布式数据集,是记录的只读分区集合,是Spark的基本数据结构。RDD代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的依赖关系分为两种:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies)。Spark会根据宽依赖窄依赖来划分具体的Stage,依赖可以高效地解决数据容原创 2020-07-01 17:40:48 · 1544 阅读 · 0 评论 -
大数据方向笔试面试题
1.使用大数据训练深度神经网络(Deep Neural Networks , 简称DNN)的方法:SGD: 随机梯度下降。它能够收敛于最小值点,因此当训练数据过大时,用GD可能造成内存不够用,则可用SGD。FTRL: 近似在线学习算法,具有非常好的稀疏性和收敛特性,在ctr预估中大量的使用。RMSProp: 深度学习的最优方法之一。RMSProp算法对梯度计算了微分平方加权平均数。这种做法...原创 2018-11-15 01:16:36 · 2409 阅读 · 0 评论 -
Kafka集成
1.安装1.1 在cm主节点服务器上下载包wget http://archive.cloudera.com/kafka/parcels/2.1.2/KAFKA-2.1.2-1.2.1.2.p0.6-el7.parcelwget http://archive.cloudera.com/kafka/parcels/2.1.2/KAFKA-2.1.2-1.2.1.2.p0.6-el7.parcel...原创 2019-04-28 16:25:56 · 470 阅读 · 0 评论 -
CDH安装、部署、维护所遇问题与解决
1. jdk安装后javac没反应修改java路径:vi /home/cmccdata/.bash_profileexit,重新登陆2. 打通ssh失败yum install perl检查authorized_keys3. kafka broker安装报错修改磁盘目录权限df -hchmod 775 /srv/0修改brokerIDvi /opt/cloudera/parce...原创 2019-07-04 10:35:39 · 893 阅读 · 0 评论 -
Redis常用指令
推荐插件:Redis Desktop Manager连接到redis服务器:221.1xx.1xx.1xx:6379PING #若返回PONG则连接正常info #版本info memory #看内存(内存碎片率稍大于1是合理的,这个值表示内存碎片率比较低,也说明redis没有发生内存交换。但如果内存碎片率超过1.5,那就说明Redis消耗了实际需要物理内存的1...原创 2019-08-22 17:50:36 · 184 阅读 · 0 评论 -
用户画像参数建模
1.概念用户画像(persona)是建立在一系列属性数据之上的目标用户模型,即真实用户的虚拟代表。通常是根据用户属性类(如用户人口学特征)、用户行为标签类(网络社交活动)、用户消费能力类(消费行为)、用户偏好类(如网络浏览内容、时间)等信息而抽象出的一个标签化的用户模型。2.用途精准营销:精准直邮、短信、App消息推送、个性化广告等。用户研究:指导产品优化,甚至做到产品功能的私人定制等。...原创 2019-08-27 11:00:34 · 566 阅读 · 0 评论