
数据分析、数据挖掘
文章平均质量分 90
-早起的码农
这个作者很懒,什么都没留下…
展开
-
隐私保护广告行业新生态
不管我们用IOS手机,还是ANDROID类型的手机,又或者是浏览器,只有拥有一个用户设备的唯一标识才能对使用该设备的用户进行精准的广告投放,个性化推荐以及广告等浏览的频次控制。下面让我们一起回顾一下各种终端下唯一的设备标识的变迁历史。一IOS的变迁和对行业影响 下面是IOS端可获取的标识,随着人们对数据隐私的重视和《一般数据保护法案》(General Data Protection Regulation (GDPR)实施,各种标识也在不断被被禁用,直到去年上市发布的ios1...原创 2021-02-09 16:21:37 · 1312 阅读 · 2 评论 -
Presto Functions
1 求数组长度cardinality(x) → bigintReturns the cardinality (size) of the array xeg: select cardinality(array[1,24,3]) result: 32 获取数组第一个元素(下标从1开始)The [] operator is used to access an element o...原创 2019-07-03 11:47:41 · 2257 阅读 · 0 评论 -
Aerospike API操作Map
Aerospike是一个高性能、可扩展、可靠性强的NoSQL解决方案,支持RAM和SSD作为存储介质,并专门针对SSD特殊优化,广泛应用于实时竞价等实时计算领域。官方保证99%的操作在1ms内完成,并提供集群数据自动Rebalance、集群感知客户端等功能,且支持超大规模数据集(100T级别)的存储。作为KV存储,Aerospike提供多种数据类型,其操作方式和Redis比较类似。除基...原创 2019-03-01 15:01:31 · 1263 阅读 · 0 评论 -
机器学习入门-过拟合欠拟合
机器学习最重要的就是模型训练训练结果怎么反馈,一般有三种叫法,欠拟合,拟合,过拟合。下面介绍下白话介绍下具体含义下面三个图分别展示的是欠拟合,合适拟合,过拟合针对线性回归模型:针对逻辑回归模型:解释:1,形象例子欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。过拟合: 课后题全能做对但是理解的不好,好多题答案都是强背下来的,上考场变一点儿人就懵逼差不多的拟合: 做了题,背了老师给画了重点,考试...原创 2018-04-08 16:34:09 · 1408 阅读 · 0 评论 -
基于Hive的数据仓库架构
用hadoop和hive有一段时间了,是我设计的基于hive的数据仓库架构,对于处理互联网日志比较合适原创 2011-08-28 22:08:14 · 5265 阅读 · 5 评论 -
Hadoop分布式环境下的数据抽样
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了转载 2011-11-13 11:18:19 · 2256 阅读 · 0 评论 -
大数据技术大会参会小结
2011年11月26有幸受邀参加了csdn组织的TUP 大数据大会,小小的总结一下。 这次会议是在三元桥附近举行,参会人员很多,大会主要议题是大数据处理方面的技术,主要技术涉及hadoop,nosql等海量数据处理技术。上午涉及议题主要内容: HCE,批量计算mapreduce,MPI Redis应用 R语言原创 2011-11-30 21:57:06 · 3192 阅读 · 4 评论 -
用户数据跟踪之Flash Cookies
一、什么是Flash Cookies?Cookies是一种保存在电脑上的文本文件,它可以用来记录访客的登录ID、使用偏好、习惯,以便更好地为访客提供个性化服务、方便访客的使用。但是在客户端Cookie里保存数据是不稳定的,因为用户可能随时会清除掉浏览器的Cookie,在这种情况下就需要新的技术来替代Cookies以实现继续追踪用户。Adobe公司的Local Shared Ob转载 2011-10-07 22:08:32 · 6979 阅读 · 0 评论 -
NoJS的网站数据统计
目前主流的网站分析工具都是通过JavaScript来实现数据的获取的,如Google Analytics就是通过在网页中嵌入一段JS代码,当该网页被浏览时,JS代码被加载,就会向Google Analytics的数据收集服务器发送用户浏览该网页的相应数据,包括时间、IP、页面URL、Session、Cookie等信息,Google Analytics后台通过处理和计算这些收集到的数据,将每天的网站转载 2011-10-07 22:01:35 · 2574 阅读 · 0 评论 -
数据分析中常用的数据模型
一、抽样分析模型建模方法首先确定统计的时间段,暂定为15天;从数据库中随机抽取若干名用户作为分析样本建立分析模型,模型图中假定抽样人数为100人,15天内最高使用量为200最少为15,在横坐标轴依次画出每人的使用量立柱图;然后向右侧画出最高点和最低点的水平引线;然后垂直划线连接水平线,得到上下交点之间的线段,分别在线段的中点和三分点处水平画出“中分线”“上分线”“下分线”。分析方法转载 2011-10-07 22:05:22 · 12677 阅读 · 0 评论 -
百度技术沙龙:如何设计优良的日志分析系统
每次参加完技术交流的会议,都有不少的收获和感触,在这里show一下,等有空的时候再后头看看。 今天下午的技术交流是关于数据分析这块的,正好和我目前方向比较吻合,所以收获不小,使我明晰了接下来公司数据分析技术的方向,在技术方面需要优化和开发的工作。多维度的大数据实时数据计算现在对我们算是一个挑战;还有应对各业务线,产品人员,领导的即时性的数据需求能不能有个对外接口,为原创 2011-11-19 20:28:35 · 2597 阅读 · 1 评论 -
大数据排序或取重或去重相关问题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为3转载 2011-11-15 11:27:28 · 4311 阅读 · 1 评论 -
WEB数据挖掘相关术语整理
WEB数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。WEB数据挖掘涉及多个领域,转载 2011-09-28 23:39:26 · 2424 阅读 · 0 评论