
互联网
文章平均质量分 80
mousever
这个作者很懒,什么都没留下…
展开
-
凡客和CPS模式
1. 现象 09年在互联网上泡,估计很少有没见过凡客诚品的广告的。调研机构12月13日公布的服装行业网络广告投入报告显示,凡客诚品09年的广告刊例总价为18.96亿元。以此估算,凡客的广告投放甚至超过了三大电讯运营商。 调研机构的估算方法很简单:用各网站刊登凡客广告的展示时长乘以刊列单价再求和。通常网络广告的刊例价和实际价格之间有3到5折的折扣,因此19亿的刊例真正支出应在1转载 2012-04-15 21:12:03 · 2468 阅读 · 0 评论 -
siva理论在网络营销中的案例分析
有几个案例先分享一下:(1)在国外的超市中,超市的经理无意中发现,尿不湿和啤酒放在一起,啤酒的销量会非常好,大家都很不理解,印象中啤酒和尿不湿好像没什么关系;通过超市采访购物者的数据,发现去超市买尿不湿的大多是男性,因为妇女在怀孕后地位尊贵,所以去超市采购的重任就落在男性的身上。啤酒的销量好也就不难理解了。(2)网民在买奶粉中最不关心的因素是什么?网民在购买奶粉中最关心的是什么哪?转载 2015-08-02 22:01:01 · 1778 阅读 · 0 评论 -
余弦距离、欧氏距离和杰卡德相似性度量的对比分析
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的转载 2015-05-25 15:00:06 · 1326 阅读 · 0 评论 -
各种距离算法汇总
1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧转载 2015-05-25 11:26:37 · 54696 阅读 · 1 评论 -
商圈研究的基本内容与方法
一、商圈划分在商圈研究中,首先要做的是商圈的划分。一般来讲,按企业对消费者吸引力的空间层次划分,商圈可分为三个层次,即核心商圈、次级商圈和边缘商圈。核心商圈:在该商业圈的顾客占顾客总数的比率最高,一般为55%-70%,每个顾客的平均购货额也最高,顾客的集中度也较高;次要商圈:在该商业圈的顾客占顾客总数的比率较少,一般为15%-25%,顾客也较为分散;转载 2015-02-12 11:17:47 · 1993 阅读 · 0 评论 -
百度腾讯阿里,其大数据优劣势与策略分析
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数转载 2014-11-20 09:33:42 · 3841 阅读 · 0 评论 -
大数据架构及行业大数据应用
今天要和大家分享一 些南大通用CTO武新所总结的底层数据处理技术的发展趋势和正在经历的巨大变革。 这个领域过去5年发展很快、热度很高,目前还在起步阶段。1.数据价值的发现与使用先不说什么是大数据,这个争议很多,我也说不清楚。不过我个人认为在大数据的4个V中,最显著的特征应该是Value(价值),其他几个V都很模糊。也就是说,不管数据多大,是什么结构,来源如何,能给使用者带来价值转载 2014-11-18 16:53:38 · 2829 阅读 · 1 评论 -
Hadoop 2.0 NameNode HA和Federation实践
2013年,InfoQ将会密切关注大数据领域的最新进展,并在“大数据专栏“中向读者展示优秀的开发实践,欢迎大家向InfoQ投稿和广大的开发者分享在大数据的开发经验和心得,投稿地址:editors@cn.infoq.com。一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而转载 2013-09-04 09:50:03 · 931 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和设转载 2013-09-04 10:00:15 · 569 阅读 · 0 评论 -
电子商务:说说转化率
今天我们科普一些概念吧,总发现有人弄错。这就是“转化率”。 一些事 电商都是有公式的 yixieshi 在淘宝干了这么多年,这是我在骨子里的想法。我在《玩法变了》书中就一直提到很多公式,电商领域,只要追求利润,那么都可以用一些公式去进行分解。 一些事 最简单的例子就是下面这个。(抱歉我是理工科背景,就喜欢推导公式,不过这样清晰一些) yixieshi转载 2012-04-21 11:01:44 · 971 阅读 · 0 评论 -
从上百幅架构图中学得半点大型网站建设经验(上)
引言 近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型网站的架构设计图,一为了一饱眼福,领略各类大型网站架构设计的精彩之外,二来也可供闲时反复琢磨体会,何乐而不为呢?特此,总结整理了诸如国外wikipedia,Facebook,Yahoo转载 2012-05-07 21:29:20 · 1290 阅读 · 0 评论 -
2012年商业智能的6大预测
1.内存中的分析内存分析技术在2011年以其对日益增长的大量数据的快速思考分析能力继续占领着舞台中心。SAP的内存设备,HANA,于六月广泛面市。Oracle随后在10月的Oracle开放世界大会上发布了它自己的内存设备, Exalytics。该设备将内存数据库TimesTen与新的可视化发现能力相结合。本来预计在去年晚些时候公布, 但它仍然未能实现,而Oracle尚未提供最新的发布计划。IB转载 2012-04-22 15:40:23 · 968 阅读 · 0 评论 -
HBase在数据统计应用中的使用心得
1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。 2)IP来源信息统计:记录各个来源IP下的转载 2012-05-02 22:10:20 · 451 阅读 · 0 评论 -
对互联网海量数据实时计算的理解
1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1) 数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时间转载 2012-05-02 22:02:29 · 557 阅读 · 0 评论 -
MySQL高可用性大杀器之MHA
提到MySQL高可用性,很多人会想到MySQL Cluster,亦或者Heartbeat+DRBD,不过这些方案的复杂性常常让人望而却步,与之相对,利用MySQL复制实现高可用性则显得容易很多,目前大致有MMM,PRM,MHA等方案可供选择:MMM是最常见的方案,可惜它带来的问题往往比解决的问题还多(What’s wrong with MMM?);至于PRM,它还是个新项目,暂时不推荐用于产品转载 2012-04-17 20:37:33 · 477 阅读 · 0 评论 -
MHA自动Failover过程解析
MHA是一位日本MySQL大牛用Perl写的一套MySQL故障切换方案,来保证数据库系统的高可用。近期,在田老师的推动下,开始一步步深入了解这个HA方案,并也计划在公司线上尝试部署。下面的东西是这段时间的学习笔记和个人理解,没有具体的实战经验,只是人为测试模拟故障的发生,通过日志来分析MHA背后的自动切换过程。首先,介绍下它的一些特点,以及为什么用它,在哪种场合更适合用它。1. 10-30转载 2012-04-17 20:36:08 · 1064 阅读 · 0 评论 -
PFP, CPA, CPS, CPM, CPC, CPL, CPP, CPR概念及其特点
一个网络媒体(网站)会包含有数十个甚至成千上万个页面,网络广告所投放的位置和价格就牵涉到特定的页面以及浏览人数的多寡。这好比平面媒体(如报纸)的“版位”、“发行量”,或者电波媒体(如电视)的“时段”、“收视率”的概念。 1.CPM(Cost Per Mille,或者Cost Per Thousand;Cost Per Impressions)每千人成本 网上广告收费最科转载 2012-04-15 21:17:55 · 4315 阅读 · 0 评论 -
模块度与Louvain社区发现算法
Louvain 算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。模块度( Modularity ) 模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数只差,它的取值范围是 [−1/2,1),其定义如下:$$Q = \frac{1}{2m}\su转载 2015-12-05 21:44:08 · 12626 阅读 · 3 评论