- 博客(19)
- 收藏
- 关注
原创 python爬虫之手机模拟
一般情况下,网站是通过对http请求的header 进行识别来判断是访问的是pc还是手机,哪个版本的浏览器所以,可以通过修改header的方法来模拟手机。 例如下面就是模仿了安卓4.3b版本的手机,androidN1浏览器headers = { 'User-Agent':'Mozilla/5.0 (Linux; U; Android 4.3; en-us; SM-N900T Buil
2015-02-06 10:17:57
8773
原创 处理python爬虫的timeout报错
尽管添加了import socketsocket.setdefaulttimeout(timeout)但是在爬虫过程中依然会出现Traceback (most recent call last): File "C:\Users\wenxue5\Documents\Tencent Files\910872628\FileRecv\zongheng.py", line 93
2015-02-04 18:08:37
18647
原创 python 爬虫百度搜索结果
因为合作的关系,用户在百度上搜索一些检索词时,百度会把我们网站放到搜索结果的第一位,但是经过实践发现,好多关键字都不是这样的。所以写了一个小爬虫来检验2000-3000个关键字的移动和pc端百度搜索结果。利用put的方法提交url,然后对返回的数据进行正则匹配,找出第一位的搜索结果是不是含有我们网站的链接。python # coding=utf-8import urllibim
2015-02-04 14:37:06
2208
原创 工作纪要---解决统计差别问题
1、解决统计差别问题 zongheng统计的访问uv和百度统计相差较大 经过逐项对比数据,查找发现是因为直接访问的uv差距 有部分用户禁用的cookie,导致无id信息,没有列入统计 结果是 对该用户的ip地址进行记录,然后 通过对总量的 uv/ip 的出比值,再进行相乘 或者是总量pv/uv得出比值,再进行计算无cook
2015-02-01 20:00:50
432
原创 书籍下架情况分析
1、因为净网的原因,下架了几乎一半的书籍,包含签约和非签约书 和神马搜索有推广协议,分为阿拉丁(搜索结果放于首页首项)和自然搜索两种 近期无线端来自神马的uv和pv大幅下降时间pv总uv阿拉丁 pv阿拉丁uv非阿拉丁pv非阿拉丁uv201412154304852371
2015-02-01 19:59:14
2816
原创 hive case when 和osort by 和group by使用记录
1、当某个字段应用了case when 条件并且使用了or, 且where查询条件的里正好有该字段,查询结果会出错针对查询一出现问题,修改下SQL, 将case when then else end, 改成case when then when then else end即可2、Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。
2015-02-01 19:52:02
4302
原创 数据挖掘任务常用算法笔记
数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特征。预测性数据挖掘任务在当前的数据上进行推断,以进行预测。数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型,包括数据特征化和区分,关联分析,分类,聚类,孤立点分析,演变分析等。其中分类、聚类可以将数据库中的数据自动地分类,因此也有人把它们统称为数据库分段(Database Segmentation)
2014-08-21 21:36:00
1096
原创 python最小公倍数与最大公约
m=int(raw_input('please input a integer m'))n=int(raw_input('please input a integer n'))if m>n: m,n=n,mmax =1for i in range(2,n+1): if(n%i == 0 and m%i == 0): max=i else: print ipri
2014-08-20 20:25:13
6868
转载 python程序的调试方法
【转自:http://blog.youkuaiyun.com/luckeryin/article/details/4477233】本文讨论在没有方便的IDE工具可用的情况下,使用pdb调试python程序源码例子例如,有模拟税收计算的程序:#!/usr/bin/python def debug_demo(val): if val
2014-08-13 00:55:05
474
原创 大数据处理学习之 垃圾邮件判定1
假设目前一文件中存放有一千万封邮件,如何将其分类,按照垃圾邮件和正常邮件分别插入数据库中。处理这个问题,选择贝叶斯分类的方法。1、首先收集大量正常邮件和垃圾邮件作为样本2、建立一个过滤词表,包含有对邮件分类不产生作用、不代表邮件特征的字符串列入,如"的"、“得”、“我”、“们”、“it”、“”,然后当训练分类器时,将这些字符串移除。3、建立两个哈希表,Hashtable_Goo
2014-08-12 16:05:03
1521
原创 贝叶斯后验定理与预测(信号与噪声读书笔记)
正如统计学家乔治·E·P·博克斯所写:“所有的模型都是错误的,但是其中有些是有用的。”这句话的意思就是,所有模型都是这个世界的简化形式,因为这是必要的。正如另一位数学家所说:“一只猫最好的模型就是一只猫。”其他模型都会遗漏一些细节。这些细节是否关系重大,取决于我们试图解决的问题究竟是什么,还要看我们想要得到的答案有多精确。 在我们使用的工具中,统计模型并非唯一一个要求我们做出粗略估算的工具
2014-08-12 16:01:55
3815
转载 概率估计
最大似然估计最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。 最大似然估计中采样需满足一个很重要的假设
2014-08-12 16:01:45
862
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人