网站用户的识别

用户分析是网站分析中一个重要的组成部分,在分析用户之前我们必须首先能够识别每个用户,分辨哪些是”New Customer”,哪些是”Repeat Customer”。这样不但能够更加清晰地了解到底有多少用户访问了你的网站,分辨他们是谁(用户ID、邮箱、性别年龄等);同时也能够帮助你更好地跟踪你的用户,发现它们的行为特征、兴趣爱好及个性化的设置等,以便于更好地把握用户需求,提升用户体验。

通常当你的网站提供了注册服务,而用户注册并登陆过你的网站,那么用户可以更容易地被识别,因为网站一般都会保存注册用户的详细信息;但是你的网站并不需要注册,而用户的行为以浏览为主,这是用户识别就会显得较为困难,下面提供了几种常用的用户识别的方法:

识别用户的几种方法

当用户并未注册登录的情况下,识别用户的唯一途径就只剩下用户浏览行为的点击流数据,通常情况下它们会保存在WEB日志里面。

1、基于IP的用户识别

IP地址是最容易获取的信息,任何的WEB日志中均会包含,但其局限性也较为明显:伪IP、代理、动态IP、局域网共享同一公网IP出口……这些情况都会影响基于IP来识别用户的准确性,所以IP识别用户的准确性比较低,目前一般不会直接采用IP来识别用户。

获取难度:★

准确度:★

2、基于IP+Agent的用户识别

同样基于最简单形式的WEB日志,我们可以增加一项——Agent,来提高单一IP方式识别用户的准确性。Agent也是WEB日志中一般都会包含的信息,通过IP+Agent的方式可以适当提高IP代理、公用IP这类情况下用户的分辨度,同时通过Agent还可以识别网络爬虫等特殊“用户”,但同样准确度也欠高。

获取难度:★

准确度:★★

3、基于cookie的用户识别

当你通过自定义Apache日志格式或者JavaScript的方法获得用户cookie的时候,其实你已经找到了一个更有效的用户识别的手段。cookie在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的(一个客户端有可能包含多个cookie),所以用cookie来标识用户其实指的是用户使用的客户端电脑,而并非用户本身。

用cookie识别用户的方法当然也存在缺陷:最常见的就是cookie被清除而导致用户无法与原先记录实现对应;同时由于客户端电脑会被共用,或者用户会在不同的电脑上访问你的网站,这个时候cookie就无法直接对应到该用户了。

获取难度:★☆

准确度:★★☆

4、基于用户ID的用户识别

基于用户ID的用户识别是最为准确,因为一般情况下用户不同共享他的用户ID,所以我们可以认为数据中的userid唯一地指向该用户,几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的:网站必须是提供用户注册登录服务的,并且可以通过一些手段在点击流数据中记录userid。

获取难度:★★

准确度:★★★

所以对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以userid为准,当用户在未登录状态浏览时以用户的cookie为准,当用户未登录且cookie无法获取的情况下以IP+Agent为准;这样就能从最大程度上识别唯一用户。

这里推荐一个网站日志中cookie项的自定义设置方法,以便更好地识别用户。cookie是从用户端存放的cookie文件记录中获取的,这个文件里面一般在包含一个cookieid的同时也会记下用户在该网站的userid(如果你的网站需要注册登陆并且该用户曾经登录过你的网站且cookie未被删除),所以在记录日志文件中cookie项的时候可以优先去查询cookie中是否含有用户ID类的信息,如果存在则将用户ID写到日志的cookie项,如果不存在则查找是否有cookieid,如果有则记录,没有则记为”-”,这样日志中的cookie就可以直接作为最有效的用户唯一标识符被用作统计。当然这里需要注意该方法只有网站本身才能够实现,因为用户ID作为用户隐私信息只有该网站才知道其在cookie的设置及存放位置,第三方统计工具一般很难获取。

获取用户信息的途径

通过以上的方法实现用户身份的唯一标识后,我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息,然后为每位用户建立起详细的Profile:

1) 用户注册时填写的用户注册信息及基本资料;

2) 从网站日志中得到的用户浏览行为数据;

3) 从数据库中获取的用户网站业务应用数据;

4) 基于用户历史数据的推导和预测;

5) 通过直接联系用户或者用户调研的途径获得的用户数据;

6) 有第三方服务机构提供的用户数据。

识别并获取用户信息的价值

通过用户身份识别及用户基本信息的采集,我们可以通过网站分析的各种方法在网站是实现一些有价值的应用:

基于用户特征信息的用户细分;

基于用户的个性化页面设置;

基于用户行为数据的关联推荐;

基于用户兴趣的定向营销;

……

文章来源:http://webdataanalysis.net/personal-view/web-user-identification/
传感器技术、无线通讯技术、嵌入式计算技术、分布式信息处理技术、微电子技术等领域的进步及相互结合,推动了无线传感器网络的快速发展。无线传感 器网络将逻辑上的信息世界与客观上的物理世界连接起来,改变了人类与环境的 交互方式,提供了利用逻辑信息来表述客观世界的一种有效的、便捷的方法。目 前,无线传感器网络已经广泛地应用于环境智能、环境监控、工业制造、交通运 输、军事工程等众多领域。 作为无线传感器网络的一个重要应用领域,环境智能泛指能感知到用户的存 在并为其提供智能化服务的电子环境和系统。环境智能的实现依赖于与用户行为 密切相关的环境信息的采集和处理,依赖于对用户行为的分析、判断和推理,如; 判断用户的位置、识别用户的行为、检测用户与环境的交互等,并在此基础上为 用户提供智能化的服务。 本文的研究主要针对环境智能中的两个研究重点:行为识别和目标定位。对 于行为识别,介绍了基于环境变量的行为识别、人物交互式行为识别和穿戴式行 为识别三种方法,并着重分析了穿戴式行为识别方法。穿戴式行为识别方法常采 用监督学习方法,但该方法不具有异常检测能力和扩展学习能力。本文引入一类 分类算法,利用组合高斯一类分类模型来判断行为是否是己知的。对于已知行为, 采用加权支持向量机分类算法来识别其行为类别:对于未知行为,在分段算法的 基础上,提取新行为的样本加入到识别系统中,扩展系统的识别能力。 为了实现识别算法在传感器网络内的分布式实施,本文提出了一种基于移动 代理的分布式分类方法,并将此方法运用到两种典型分类算法中。首先通过分解 分类模型,将模型参数存放到对应的各个传感器节点上,实现分类模型的离散化; 其次,在分类时,通过每个传感器节点计算自己的特征值和分类数据,实现分类 摘要 操作的离散化:最后,利用移动代理串行访问各个节点,累积计算结果。与集中 式分类算法相比较,基于移动代理的分布式分类算法可以减小带宽需求,平衡各 个节点之间的计算、存储和能量消耗。 对于目标定位,本文介绍人员定位和声音源定位。在人员定位中,常采用的 方法往往需要用户穿戴传感器节点或在传感器节点上安装附加设备,本文提出了 一种基于无线电波的非穿戴式定位方法,利用接收信号强度的变化来判断是否有 人出现在一对无线电收发机之间,进而判断其位置。 对于声音源定位,本文提出了一种源能量未知情况下的分布式声音源定位方 法。文章结合增量梯度算法和基于能量比的声音源定位方法,通过分解和重组能 量比定位方法的代价函数,得到适合分布式实施的迭代公式。采用合适的能量比 个数以及迭代起始点位置,该方法可以获得与穷尽搜索方法近似的准确率,但只 需要非常小的计算消耗。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值