
大数据
数据拾光者
热爱技术,更热爱生活的90后大叔。希望深耕于广告行业,和更多的小伙伴们一起分享大数据和人工智能技术。
展开
-
python 实现 hive中类似 lateral view explode 的功能
背景:加入现在有这样的数据,可能一条ocr代表两个label,并且label通过","分隔。我们想把数据转换成下面的。原始数据:label ocr 日常行车服务,汽车资讯 去加油站,加完油后直接离开?最开心的可能是加油站的工作人员 社会民生 已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光 目标数据:label ocr 日常行车服...原创 2019-11-26 16:29:10 · 581 阅读 · 0 评论 -
7个Python特殊技巧,助力你的数据分析工作之路
https://zhuanlan.zhihu.com/p/888091767个Python特殊技巧,助力你的数据分析工作之路1. Pandas Profilingdf.sample(5)df.describe()Pandas Profiling (the fancy way)pip install pandas_profilingimport pandas as pdimp...原创 2019-11-05 14:52:07 · 369 阅读 · 0 评论 -
深度学习网络调参技巧
https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social深度学习网络调参技巧一、好的实验环境是成功的一半由于深度学习实验超参众多,代码风格良好的实验环境,可以让你的人工或者自动调参更加省力,有以下几点可能需要注意:1.将各个参数的设置部分集中在一起。如果参数的设置分布在代码的各个地方,那么修...原创 2019-11-05 10:29:27 · 730 阅读 · 0 评论 -
2015-2018节假日表
节假日2015元旦2015-01-01 2015-01-03春节2015-02-18 2015-02-24清明2015-04-04 2015-04-06劳动节2015-05-01 2015-05-03端午节2015-06-20 2015-06-22抗战胜利2015-09-03 2015-09-05中秋2015-09-26 2015...原创 2019-01-28 18:15:33 · 911 阅读 · 0 评论 -
机器学习处理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21514Spark【python】开发者—Spark与Twitter数据的机器学习实践问题导读:1. Spark MLlib 在应用架构中是什么位置?2. Spark MLlib 中算法怎么分类的?3. 监督和非监督式学习的异同点?4. 机器学习的工作流和数据流是如何工作...原创 2019-02-27 10:45:11 · 268 阅读 · 0 评论 -
spark源码
https://www.jianshu.com/p/0bf807929d9b 简书上的spark streaming源码对于spark源码的目录结构 1、编译相关 : sbt 、assembly、project 2、spark核心 :core 3、Spark Lib : streaming 、 sql 、graphx 、mllib 4、运行脚本和配置 ...原创 2019-02-27 10:55:20 · 263 阅读 · 0 评论 -
学习积累网站集合
工具 linux命令大全 http://man.linuxde.net/ RegexPal:在线正则表达式验证工具 wpjam.qiniudn.com/tool/regexpal/http://regexr.com/ 开发类 - 在线工具 https://tool.lu/c/developer ide破解码 htt...原创 2019-04-03 10:27:20 · 352 阅读 · 0 评论 -
git实操
一、解决git冲突1.冲突出现的原因 step1 员工B先修改了文件,把A修改成了A,B; step2 员工B将修改的文件上传到了私有库; step3 员工B将私有库的文件PR到了公共库master分支; step4 员工A在修改本地库代码时文件还是A,然后把A修改成了A,C; step5 员工A将修改的文件上传到了私有库; step6 员工A将私有库的文件PR到公共库master...原创 2019-07-02 19:46:23 · 389 阅读 · 0 评论 -
python re 匹配案例
# -*- coding: utf-8 -*-import reif __name__=="__main__": url = "https://m.weibo.cn/u/1941025111?uid=1941025111&luicode=10000011&lfid=1005051941025111" matchobj=re.match(r"(.*)?uid...原创 2019-08-01 11:17:03 · 764 阅读 · 0 评论 -
工作中用到的hadoop命令集合
--创建hdfs目录hadoop fs -mkdir /tmp/liushumingsql("""select dayno,search_word,count(1) as serch_num from dw.f_evt_browser_search_detaily where dayno>=20190521 and dayno<=20190527 gro...原创 2019-08-01 15:58:06 · 229 阅读 · 0 评论 -
hive交互行中输入sql代码会出现 Display all 475 possibilities? (y or n)
解决在hive交互行中输入sql代码会出现 Display all 475 possibilities? (y or n)原因是因为粘贴的sql中含有tab,把tab换成空格就行了目标:将sql代码中的tab转换成空格...原创 2019-08-26 16:57:14 · 794 阅读 · 0 评论 -
hive操作总结手册
1.写udf函数UDF(User-Defined-Function),用户自定义函数对数据进行处理。STEP1:创建UDF函数 ①自定义UDF需要继承org.apache.hadoop.hive.ql.UDF ②需要实现evaluate函数STEP2:将udf打jar包,并上传到hive server上STEP3:进入hi...原创 2019-05-12 18:25:48 · 432 阅读 · 0 评论 -
python发送数据到kafka
# coding=utf-8from pykafka import KafkaClientimport jsonclass operateKafka: def __init__(self): myhosts = "xxxx:9096,xxxx:9096" client = KafkaClient(hosts=myhosts) ...原创 2019-01-31 15:13:42 · 7528 阅读 · 5 评论 -
使用xgboost4j-spark进行模型训练
代码说明xgboost作为数据挖掘类比赛的必备算法,之前参加jdata比赛时,也学着使用了下xgboost4j-spark,觉得很好用,既支持分布式,同时效果和速度都比spark自带的gbdt,rf算法效果要好。模型代码包含:-train:训练-train_cv:训练带交叉验证进行参数选择-predict_eval:预测并在验证集上验证准确率-predict:预测-train_le...转载 2018-11-01 17:55:56 · 4793 阅读 · 1 评论 -
京东JData算法大赛小结(公司内部赛)
总体解决方案本文将高潜用户购买意向预测,抽象为一个二分类问题。从用户,商品,品牌,用户-商品,用户-品牌五个维度进行特征提取。将观察天未来5天有购买行为的用户-商品对标记为正样本,观察天过去30天至未来5天有交互行为但未购买的用户-商品对标记为负样本。由于正负样本比例极不平衡,采用了对正样本进行重采样及负样本进行下采样的方式来平衡正负样本比例。利用xgboost进行模型训练,最后利用LR对预测...转载 2018-11-01 17:51:50 · 5234 阅读 · 1 评论 -
xgboost资料汇总
github xgboost 一篇好的二分类demohttps://github.com/dmlc/xgboost/tree/master/demo/binary_classificationxgboost稳定版本https://github.com/dmlc/xgboost/releasesXGBoost4J-Spark now requires Apache Spark 2.3...原创 2018-11-03 11:52:10 · 413 阅读 · 0 评论 -
分享一个spark xgboost可运行的实例
背景知识:这两天公司想把xgboost模型做的件量预测移植到spark xgboost上,然后就开始了漫漫长路。踩了很多坑,然后把自己的目前可运行的一个demo放上来跟大家分享。1.环境:idealinux系统这里有个坑:如果不想去编译xgboost,通过maven引入的xgboost4j包只支持linux系统,因为windows需要.dll文件,linux需要.so文件,而mav...原创 2018-09-19 19:40:41 · 9538 阅读 · 2 评论 -
hive 将一个分区表数据全部插入另外一个分区表
假如现在hive有个分区表A,分区字段为inc_day需求是:需要将A表中的数据全部插入到分区表B中具体步骤如下:1.create B like A;2.插入数据set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table ...原创 2018-07-26 18:02:22 · 11281 阅读 · 0 评论 -
大数据面试题汇总(不断更新中)
结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类:一、spark相关1.Spark的Shuffle原理及调优? 2.hadoop和spark使用场景? 3.spark如何保证宕机迅速恢复? 4.hadoop和spark的相同点和不同点? 5.RDD持久化原理? 6.checkpoint检查点机制? 7.checkpoint和持久化机制的区别? 8.Spa...原创 2018-04-27 15:12:14 · 3313 阅读 · 0 评论 -
解决Hadoop报错:Failed to locate the winutils binary in the hadoop binary path
出错的原因在于window本地无法获取hadoop的配置解决策略:1.http://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/ 下载到本地并解压D:\software\hadoop-2.6.02.下载https://github.com/srccodes/hadoop-common-2.2.0-bin到本地并解压比如D:\software\...原创 2018-05-11 18:00:02 · 56984 阅读 · 12 评论 -
spark海量数据去重策略
1.目标:尽可能在有限资源的情况下,利用尽量少的资源来达到更高效的效果。今天就给大家分享一个在DDT首页概览实时性能优化算法 – 海量数据高效去重算法。2.常规方法:采用spark sql方式去重3.创新方法:采用spark的分区排序去重算子去重算法。性能大幅度提升,从原来5min左右下降到30s以内(数据量10亿左右)采用spark sql方式和spark 算子分区排序去重算法对比:4.实验对比...转载 2018-05-17 17:16:31 · 9632 阅读 · 0 评论 -
Spark ML离线训练模型用于在线预测
最近公司有需求需要将离线训练好的算法模型应用到线上去实时预测,在线预测不考虑feature加工的情况下,经调研,发现jpmml-sparkml+jpmml-evaluator的方式可以满足条件。不过使用时需要注意该框架是AGPL-3.0协议。方案:spark ml + jpmml-sparkml + jpmml-evaluatorSpark离线训练Random Forest模型并保存为pm...转载 2018-11-01 17:58:24 · 5946 阅读 · 2 评论 -
SparkML GBDT&RF算法使用示例
GBDT与RF作为机器学习中最常用的两个集成学习算法,Spark中也有相应的实现。下面是基于Spark 2.1.0 GBDT与RF算法的训练与预测(train/predict)接口实现。功能:- train(训练)/train_cv(训练+网格搜索参数优化+交叉验证)/predict(预测)接口Random Forest算法train/train_cv/predict实现:im...转载 2018-11-01 18:01:01 · 2227 阅读 · 0 评论 -
Spark资料链接汇总
【SparkX】基于Spark Graphx的大规模用户图计算和应用 快刀初试:Spark GraphX在淘宝的实践 Spark中文手册9:Spark GraphX编程指南 Spark Graphx:构建graph和聚合消息 GraphX Programming Guide Spark的Graphx学习笔记–Pregel Apache Spark源码走读之14 – Graphx实现...转载 2018-11-01 18:04:08 · 752 阅读 · 0 评论 -
spark mllib问题汇总
1.java.lang.SecurityException: Invalid signature file digest for Manifest main attributes出现文件签名不合法的问题需要执行zip -d IDSP_TS_SPARK_PREDICTION.jar META-INF/*.RSA META-INF/*.DSA META-INF/*.SF2.Lorg/apa...原创 2018-11-23 16:32:00 · 827 阅读 · 0 评论 -
安装spark环境
一、安装spark包1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark4、设置spark环境变量vi .bashrc...原创 2018-11-12 20:41:51 · 674 阅读 · 0 评论 -
hive环境搭建
一.安装hive包1、将课程提供的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。2、解压缩hive安装包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。3、重命名hive目录:mv apache-hive-0.13.1-bin hive4、配置hive相关的环境变量 vi ...原创 2018-11-12 20:36:24 · 554 阅读 · 0 评论 -
关于xgboost4j遇到的坑
背景:前一段时间有任务,需要使用xgboost4j重构公司里面的预测模型代码。然后就是各种开工,搞了一段时间后把自己遇到的问题回顾下。结论:1.xgboost4j针对不同的环境差异很大。有linux,mac和windows。因为涉及到编译源码,所以困难重重。最简单的用法莫过于maven方式导入xgboost4j,但是这种方法只能在linux开发环境。如果用windows决定有问题;...原创 2018-11-08 20:02:28 · 7479 阅读 · 5 评论 -
基于spark mllib的gbt算法实例
背景:公司需要使用spark mllib进行预测,基于这个需求,使用spark mllib自带的gbm进行预测。代码1:博客学院下载图文课论坛APP问答商城VIP会员活动招聘ITeyeGitChat搜优快云写博客赚零钱传资源关注和收藏在这里Markdown编辑器富文本编辑器查看主页内容文章管理专栏管理评论管理个人分类管理Chat快问 ...原创 2018-11-08 19:34:31 · 717 阅读 · 0 评论 -
A Full Integration of XGBoost and Apache Spark
A Full Integration of XGBoost and Apache SparkOctober 26, 2016By DMLC inShare(This article was first published on DMLC, and kindly contributed to R-bloggers) ShareTweetIntroduction...转载 2018-11-01 21:22:34 · 342 阅读 · 0 评论 -
hive 2.3.0 函数大全
hive函数集合函数名含义及实例absabs(x) - returns the absolute value of xExample: > SELECT abs(0) FROM src LIMIT 1; 0 > SELECT abs(-5) FROM src LIMIT 1; 5acosacos(x) - returns the arc cosine of x if -1<...转载 2018-05-25 15:25:39 · 2658 阅读 · 0 评论