
数据挖掘
zcc_0015
业精于勤,荒于嬉
展开
-
hive sort_array实现字符串从大到小排序的方法
sort_array默认是从小到大排序的,为了实现能够从大到小排序,需要做两个变换:(1)将字符串映射成数字:ROW_NUMBER() OVER(PARTITION BY user_id, cate_level1ORDER BY date desc)(2)基于数字保持大小序映射到小数:1-1/rnk(采用sigmoid变换会存在一个问题:当数字大于36以后,几乎都等于1.0,无法区分大小,对于小于36以下的数字管用)(3)添加辅助列,置于串头排序后,借助于REGEXP_REPLACE做替换,..原创 2021-04-06 13:47:15 · 8304 阅读 · 0 评论 -
hive join on的条件
如果是left join 在on上写主表a的条件不会生效,全表扫描。如果是left join 在on上写副表b的条件会生效,但是语义与写到where 条件不同如果是inner join 在on上写主表a、副表b的条件都会生效建议这么写,大家写sql大部分的语义都是先过滤数据然后再join ,所以在不了解 join on + 条件的情况下,条件尽量别写道on 后,直接写到where厚就ok了...原创 2019-04-17 15:29:31 · 1485 阅读 · 0 评论 -
Scrapy入门学习
Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到转载 2015-12-09 19:46:18 · 559 阅读 · 0 评论 -
微博推荐算法简述
在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从。推荐系统迎来爆发的机会,变得离用户更近:转载 2017-01-05 16:17:34 · 1474 阅读 · 0 评论 -
scrapy 中解决 xpath 中的中文编码问题
1、问题描述: 实现定位品牌节点 brand_tag = sel.xpath("//h2[text()= '品牌']") 报错:ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters 2、解决方法:原创 2016-08-22 11:09:25 · 10850 阅读 · 2 评论 -
sklearn的svc参数总结及cross_validation
1、svc参数的说明SVC参数解释(1)C: 目标函数的惩罚系数C,用来平衡分类间隔margin和错分样本的,default C = 1.0;(2)kernel:参数选择有RBF, Linear, Poly, Sigmoid, 默认的是"RBF";(3)degree:if you choose 'Poly' in param 2, this is effective, degree决定了原创 2016-08-08 15:00:04 · 8814 阅读 · 1 评论 -
Light-lda部署安装过程
一、下载light-lda源码1、wget https://github.com/Microsoft/lightlda2、unzip lightlda-master.zip ,cd lightlda-master3、修改 build.sh中,将git clone -b multiverso-initial git@github.com:Microsoft/multivers原创 2016-05-26 14:21:26 · 6465 阅读 · 4 评论 -
Scrapy通过redis实现分布式抓取
scrapy-redis所实现的两种分布式:爬虫分布式以及item处理分布式。分别是由模块scheduler和模块pipelines实现。一、Scrapy-redis各个组件介绍(I) connection.py负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。(II) dupefil原创 2016-02-18 19:35:45 · 11643 阅读 · 0 评论 -
Scrapy如何借助于BloomFilter实现增量爬取
一、增量爬取的思路:即保存上一次状态,本次抓取时与上次比对,如果不在上次的状态中,便视为增量,保存下来。对于scrapy来说,上一次的状态是抓取的特征数据和上次爬取的 request队列(url列表),request队列可以通过request队列可以通过scrapy.core.scheduler的pending_requests成员得到,在爬虫启动时导入上次爬取的特征数据,并且用上次request原创 2016-01-29 16:23:26 · 13385 阅读 · 5 评论 -
hive数据表去重方法
1、hive 0.8.0数据表去重方法问题描述:hive的外部表test中,在若干字段上存在重复现象,现在需要将若干字段上值相同的多条记录,只保其中留一条, 舍弃其余的。 解决思路: (1)group by的方法 首先新建与test表完全相同的新表test_pure,然后利用group by在有相同值的若干字段上进原创 2015-12-02 19:08:32 · 29582 阅读 · 0 评论 -
hadoop在put数据时,出现org.apache.hadoop.hdfs.server.namenode.NotReplicatedYetException 分析
org.apache.hadoop.hdfs.server.namenode.NotReplicatedYetException: Not replicated yet:/nnThroughputBenchmark/addblock/AddblockBenchDir0/AddblockBench0 at org.apache.hadoop.hdfs.server.namenode.FSN转载 2015-09-24 19:14:17 · 5640 阅读 · 3 评论 -
浅析POI在广告投放中的作用
POI(Point of Interest)在广告中的作用主要是通过分析用户地理位置信息提供个性化的服务。1、POI位置信息的采集方式 a、通过多基站定位: 实现方式之一:首先通过信号传播时差计算出一个基站到一个终端的距离,然后以基站为核心,距离为半径画出一个圆形;然后,采用同样的方式选择另外两个基站原创 2015-05-28 22:51:06 · 5925 阅读 · 0 评论 -
决策树的创建过程
创建过程是先横向寻找维度,再在该维度上按特征值切割。具体过程如下: 数据集的特征dataset=[[1,1,yes], [1,1,yes], [1,0,no], [0,1,no], [0,1,no]], 数据集最后一列是分类标签。原创 2015-05-13 07:13:13 · 2280 阅读 · 0 评论