
數據挖掘算法
czp11210
长期专注在车载物联网领域,智慧交通行业;精通C/C++、Java、JavaScript等高级语言;钟情于各种开源技术框架,先后参与过各大航空公司的会员、交易、结算等业务体系开发,主持过移动快速开发平台的建设。
展开
-
线性判别分析(LDA)模型
线性判别分析(Linear Discriminant Analysis)简称LDA,是分类算法中的一种。LDA通过对历史数据进行投影,以保证投影后同一类别的数据尽量靠近,不同类别的数据尽量分开。并生成线性判别模型对新生成的数据进行分离和预测。LDA投影矩阵在维基百科中对投影的定义是:“投影是从向量空间映射到自身的一种线性变换,是日常生活中“平行投影”概念的形式化和一般化”。例如,在转载 2016-04-15 14:28:39 · 6949 阅读 · 0 评论 -
世纪佳缘财务及运营数据分析
世纪佳缘成立于2003年10月8日,是中国在线婚恋交友平台,通过互联网、无线平台和线下活动为单身人士提供严肃婚恋交友服务。2011年5月11日,世纪佳缘登陆美国纳斯达克进行首次公开募股,成为首家上市的中国在线婚恋交友平台,股票交易代码为“DATE”。截至2014年1月13日,世纪佳缘已拥有逾1亿注册用户。2015年12月7日,世纪佳缘和百合网宣布达成合并协议。世纪佳缘将成为一家私有公司,从纳斯达克转载 2016-04-15 14:45:56 · 7916 阅读 · 0 评论 -
粗糙的SEM点击率分析模型
2016年的第一篇文章我们关注SEM的点击率。什么样的点击率对于一个SEM来说是合格的?或者说怎样判断你的SEM广告优于同页面中其他的广告或搜索结果?先来看一个场景。我们在搜索引擎中投放关键词广告,一天下来这个关键词对应的广告获得了1200次曝光和72次点击,点击率6%。我们该如何评价这个指标的表现呢?6%算是一个合格的点击率吗?随后我们对广告的创意进行了优化,再次投放时点击率变成转载 2016-04-15 14:46:28 · 1823 阅读 · 0 评论 -
竞争情报分析工具Alexa
竞争情报分析工具Alexa2015年10月4日 BY 蓝鲸 2 COMMENTSInformation is power – if you have the right tools.Alexa是一个对全球网站流量进行排名的网站。通过对过去三个月分布在全球的超过25,000个浏览器扩展程序获取网站每天的访问量和页面浏览量的采样数据,并通过估算提供每个网站在全球转载 2016-04-15 14:47:11 · 3592 阅读 · 0 评论 -
SEM语义分析及跳出率优化
当我们在写广告创意时,我们想向用户传达哪些信息?不同的SEM广告创意之间有哪些差别?最近我对几个真实的理财网站SEM创意进行了语义分析,把创意分割为最基本的单元,通过名词,动词和形容词的使用来对比不同广告创意对用户表达的概念以及数量(名词数量),和召唤用户采取的行动(动词),以及对不同概念的描述(形容词)。先来看下名词,动词和形容词的具体含义:名词(Noun,简称),是词类的一种,转载 2016-04-15 14:48:21 · 802 阅读 · 0 评论 -
网站调研及分析工具4Q
网站调研及分析工具4Q Survey2015年9月17日 BY 蓝鲸 LEAVE A COMMENT4Q Survey是一个网站调研及分析工具。我的博客从2010年开始使用这个免费的用户调研工具。访问过我博客的朋友中20%的人应该都被这个工具“骚扰”过,4Q会在你开始阅读页面之前跳出来询问你本次到访的目的,以及是否满意等问题。2015年初因为博客访问速度等更原因没有继续使用转载 2016-04-15 14:49:26 · 2184 阅读 · 0 评论 -
Mouseflow-网站分析和实时用户研究工具
Mouse flow顾名思义,这是一个对用户鼠标行为进行追踪和分析工具。鼠标是用户与网站之间进行交互的主要工具,在网站分析中,我们经常需要对用户的鼠标行为进行追踪和分析,这其中使用最频繁的就是onclick事件。在使用Google Analytics的事件追踪时大部分的事件需要通过onclick触发,例如按钮点击和资料下载等等。除此以外,鼠标还会有很多不同的行为,如鼠标的双击,移动,悬停等等。下面转载 2016-04-15 14:52:18 · 2052 阅读 · 0 评论 -
复制粘贴——社交分享监测工具Tynt
Tynt是一个免费的社交分享监测工具。这个工具非常简单甚至有些无聊,他的主要功能就是追踪访问者在网站中的复制和粘贴行为。但是基于这些复制和粘贴数据Tynt在2012年10月的时候发布报告称美国82%的分享行为来自复制和粘贴,2%的页面浏览量与复制和粘贴行为有关。我的博客也一直在使用Tynt对文章内容进行监测。如果你从文章中复制一段内容(超过15个汉字)并分享给朋友时会发现,这段文字转载 2016-04-15 14:55:27 · 1144 阅读 · 0 评论 -
Google Analytics内容分组功能与网站页面分类
2015年4月29日 BY 蓝鲸 2 COMMENTS你的网站有多少个页面?大部分人可能都无法准确的回答这个问题。就像我虽然准确的知道自己写过多少篇文章,但不知道Wordpress程序通过分类,标签,日期和搜索功能自动的生成了多少个页面一样。为了满足不同访问者的访问目的和需求会产生大量各种各样的页面。有些页面承载了有价值的信息,有些页面仅仅是帮助访问者查找信息的一个步骤。有些页面是转载 2016-04-15 14:56:27 · 1657 阅读 · 0 评论 -
浅析网站流量趋势预测
春节长假后的第一篇文章讨论如何对网站流量进行分析及预测。我们采取自下而上的方法,通过对不同类别的流量进行单独的分析及预测,再进行汇总的方法来预测整个网站的流量变化趋势。在开始之前首先需要了解网站流量的构成。在前面的文章中我曾详细介绍网站中不同的流量来源的分类及特征。了解这些分类及特征的目的是因为不同的流量背后的驱动因素是不一样的。这些背后的因素是造成了流量变化及趋势的主要原因。此外他们也分转载 2016-04-15 14:43:35 · 4301 阅读 · 0 评论 -
流量描述统计及频率分布(R版)
本篇文章通过常用的统计分析方法和图表发现流量数据中的规律和特征。主要使用的分析工具是R。(说明:本篇文章还有另一个使用Python版本)下面将分别解释每一种统计方法的结果以及这些统计方法在R中的实现方式。开始前的准备工作我们准备了一组原始的CSV数据,其中包含直接访问,引荐访问和SEM广告三个渠道近一个月的访问量数据。在开始分析之前先将原始数据导入到R中。并将数据保存在名为traf转载 2016-04-15 14:41:37 · 2965 阅读 · 0 评论 -
K邻近(KNN)分类和预测算法的原理及实现
2016年4月13日 BY 蓝鲸 LEAVE A COMMENTK邻近算法(k-NearestNeighbor)简称KNN,是分类算法中的一种。KNN通过计算新数据与历史样本数据中不同类别数据点间的距离对新数据进行分类。简单来说就是通过与新数据点最邻近的K个数据点来对新数据进行分类和预测。我们以一个实例来说明KNN算法的原理及实现过程。下图是一组贷款用户还款情况的样本数据,转载 2016-04-15 14:33:35 · 24499 阅读 · 3 评论 -
朴素贝叶斯分类和预测算法的原理及实现
决策树和朴素贝叶斯是最常用的两种分类算法,本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名,用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯(Naive Bayes)假设特征P(A)在特定结果P(B)下是独立的。 1. 概率基础:在开始介绍贝叶斯之前,先简单介绍下概率的基础知识。概率是某一结转载 2016-04-15 14:35:17 · 16315 阅读 · 3 评论 -
决策树分类和预测算法的原理及实现
决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树由3个主要部分组成,分别为决策节点,分支,和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的数据类别或属性,每个叶转载 2016-04-15 14:36:06 · 44612 阅读 · 2 评论 -
协同过滤推荐算法的原理及实现
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering转载 2016-04-15 14:37:00 · 21812 阅读 · 2 评论 -
网站指标差异显著性检验——卡方检验
三个网站分析中常见的场景:A,B两版广告创意,A版本转化率4.94%,B版本转化率5.75%,是否说明B版本比A版本转化效果好?网站首页对于新访客跳出率65.26%,老访客跳出率64.92%,是否说明新老访客在首页跳出率存在显著差异?男性用户在注册流程中退出率为15.99%,女性用户退出率为14.83%,是否说明男女用户在网站的注册流程中的表现有显著差异?本篇文章通过卡方检验来对网转载 2016-04-15 14:37:39 · 12207 阅读 · 0 评论 -
广告访问量平均数差异的显著性检验
日常分析工作中经常会进行对比分析,其中比较常见的场景就是对两组广告带来的访问量效果进行对比。当两组访问量数据相差较大时,我们可以准确分辨出两者的差别。但有很多时候当两者的指标很接近时要判断广告的效果就比较复杂。本篇文章通过平均数差异显著性检验对访问量差异的显著性进行检验。平均数的显著性检验是指对两个样本平均数的差异进行的显著性检验。若检验的结果差异显著,表明两个样本间有差异。当总体分布非正转载 2016-04-15 14:40:06 · 1568 阅读 · 0 评论 -
流量描述统计及频率分布(Python版)
本篇文章通过常用的统计分析方法和图表发现流量数据中的规律和特征。主要使用的分析工具是Python。(说明:本篇文章还有另一个使用R的版本)下面将分别解释每一种统计方法的结果以及这些统计方法在Python中的实现方式。开始前的准备工作我们准备了一组原始的CSV数据,其中包含直接访问,引荐访问和SEM广告三个渠道近一个月的访问量数据。在开始分析之前先将原始数据导入到Python中。并将转载 2016-04-15 14:40:49 · 22459 阅读 · 0 评论 -
微博营销—新浪微博粉丝头条效果分析
2015年3月26日 BY 蓝鲸 10 COMMENTS粉丝头条是新浪微博的一个推广功能,使用粉丝头条的24小时内,你发布的信息将出现在所有粉丝信息流的第一位。这个功能无论是从形式还是价格来说都是屌丝刷存在感的利器。3月24日我的新书《人人都是网站分析师:从分析师的视角理解网站和解读数据》正式出版上架,我决定在微博里用粉丝头条功能“打扰”一下各位朋友和粉丝。同时也测试下这个转载 2016-04-15 14:57:06 · 7792 阅读 · 0 评论