
大数据
建世伟业
这个作者很懒,什么都没留下…
展开
-
集群环境配置遇到的问题
集群环境配置遇到的问题公司给分配了3台新的虚拟机,打算从头配置一下zookeeper,kafka,storm,hadoop,hbase的环境。(以后配置mongodb,spark的时候,在陆续更新,目前(2016/4/21)只接触这么多)配置的过程中发生了一些问题。这里共享一下笔记。当然,我做配置的时候的原则是:只配置知道的,不知道的就不去配置。虽然会发生问题,但是在解决问题的过程...转载 2018-08-25 18:59:13 · 620 阅读 · 0 评论 -
大数据方向的实习招聘要求
时间过的很快,不知不觉就升研二了,根据对自己的规划,准备研二下学期去实习半年。从入学到现在,在大数据这个方向学习已经一年了,最近看了一下关于大数据方向的实习生招聘要求,对照一下自己的知识技能掌握情况,发现很多招聘里明确要求掌握的技能和知识还没掌握好,有一些甚至还没开始接触学习。可能之前自己没有一种紧迫感,学习松松散散,效率不高所导致。接下来还有半年的时间,希望自己能够抓紧时间,争取早点打牢基础,去...原创 2018-08-22 23:50:03 · 5660 阅读 · 2 评论 -
阿里移动推荐算法大赛——点击购买转化率
我们的目标是预测购买事件的发生,在这样的业务背景下,我们先关注一下CTR指数(操作购买转化率),即用户购买商品与需要操作的次数的平均比率。通过pandas统计value_counts()统计behavior_type数据列可得:CTR = 购买操作样本数 / 样本总数 = 232579 / 23291027 = 0.009986 ≈ 1%即用户平均下来大约要进行100次操作(各种商品的点...原创 2018-08-16 21:19:22 · 1463 阅读 · 0 评论 -
阿里移动推荐算法大赛——特征工程
原文出处:https://www.zhihu.com/question/29316149/answer/1101596471 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下...转载 2018-07-22 15:11:40 · 1757 阅读 · 0 评论 -
阿里移动推荐算法大赛——数据加载测试
阿里移动推荐算法大赛的数据集fresh_comp_offline下载,下面分别测试加载该文件夹下的两个CSV文件所用时间。加载tianchi_fresh_comp_train_user.csv,结果如下:# -*- coding: utf-8 -* '''@author: csw'''import osimport sysimport timeitimp...原创 2018-08-16 16:47:08 · 645 阅读 · 0 评论 -
阿里移动推荐算法大赛——基于用户-行为记录,即user_id - behaviour_type的数据集处理
关于题目回顾与数据初探,可参考:天池离线赛 - 移动推荐算法(一):题目与数据解析,本文目的是想找出数据集中用户加购物车的行为behavior_type = 3与最终的购买行为behavior_type = 4是否是强关联的,为了进行分析,我们基于原始数据集构建一个新的数据集:act_34={<'time', 'user_id', 'item_id', 'behavior_type...原创 2018-08-18 17:03:49 · 2435 阅读 · 0 评论 -
MySQL入门笔记
目录1、MySQL 简介 2、MySQL 安装3、MySQL 管理4、MySQL 创建数据库5、MySQL 删除数据库6、MySQL 选择数据库7、MySQL 创建数据表8、MySQL 删除数据表9、MySQL 插入数据10、MySQL 查询数据1、MySQL 简介Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS...原创 2018-08-12 15:46:47 · 1254 阅读 · 0 评论 -
Python学习笔记——测试加载数据所需时间
程序的执行时间测试天猫天池大赛——阿里移动推荐算法给出的D数据集包含2千多万条样本,文件大小约1G;P数据集包含60多万条记录,文件大小约10M。可以进一步测试数据全部加载所需时间,从而对数据量有个更直观的感受(这里采用python-pandas,测试代码如下)。结果显示,在我的计算机环境下,D数据集载入pandas-dataframe耗时约17s,P数据集载入耗时不到1s。(可以看到数据集的...原创 2018-07-21 14:53:48 · 1103 阅读 · 0 评论 -
阿里移动推荐算法大赛——推荐算法
推荐系统从框架的角度看,推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。数据层包括数据生成和数据存储,主要是利用各种数据处理工具对原始日志进行清洗,处理成格式化的数据,落地到不同类型的存储系统中,供下游的算法和模型使用。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度利用各种触发策略产生推荐的候选集。候选集融合和过滤层有两个功能,一是对出发层产生的不同候选集进行融合,提...转载 2018-07-23 13:18:05 · 6544 阅读 · 1 评论 -
阿里移动推荐算法大赛——开篇介绍
大赛简介本次赛题为《阿里移动推荐算法》,以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。题目解析在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程...转载 2018-07-23 13:19:19 · 787 阅读 · 0 评论 -
ubuntu虚拟机通过设置桥接模式上网——超级简单
步骤一:首先在桌面右键用管理员权限打开VMware Workstation,选择右上角‘编辑’—‘虚拟网络编辑器’,选择VMnet0,桥接你的网卡,如下图所示。 步骤二:打开你的ubuntu虚拟机,点击‘编辑虚拟机设置’,将‘网络适配器’改成桥接模式,如下图所示:步骤三:这时直接开启此虚拟机,即可上网。 ...原创 2018-08-29 22:24:28 · 12161 阅读 · 8 评论