
大数据
文章平均质量分 95
NewBee.Mu
这个作者很懒,什么都没留下…
展开
-
Elasticsearch学习笔记
ElasticSearch是一个分布式,高性能、高可用、可伸缩、RESTful 风格的搜索和数据分析引擎。通常作为Elastic Stack的核心来使用,Elastic Stack大致是如下这样组成的:E:EalsticSearch 搜索和分析的功能L:Logstach 搜集数据的功能,类似于flume(使用方法几乎跟flume一模一样),是日志收集系统K:Kibana 数据可视化(分析),可以用图表的方式来去展示,文不如表,表不如图,是数据可视化平台。原创 2022-09-22 19:28:11 · 333 阅读 · 0 评论 -
给用户推荐电影,输出电影的名称和时间
# coding=utf-8# @Time : 2019/12/6 10:21# @Author : Z# @Email : S# @File : CosMoviesRecommend.py#给用户推荐电影import mathimport sysfrom texttable import Texttable #pip install texttable...原创 2019-12-12 20:50:09 · 719 阅读 · 0 评论 -
CTR点击率预估
# coding=utf-8# @Time : 2019/12/12 0:34# @Author : Z# @Email : S# @File : 10.1CTR.py# 读入数据import osdata_path = os.path.join(".", "train_small.csv")import pandas as pdctr_data1 = pd....原创 2019-12-12 20:44:37 · 280 阅读 · 0 评论 -
数据挖掘项目构建人才(用户)流失模型
# coding=utf-8# @Time : 2019/12/3 14:48# @Author : Z# @Email : S# @File : 2.6ML_SMOTO_talentFeatures.py#数据挖掘项目构建人才(用户)流失模型import pandas as pdtalent_data = pd.read_csv("./train.csv")...原创 2019-12-12 20:28:11 · 580 阅读 · 0 评论 -
预测泰坦尼克号获救人员的案例实战
步骤:1、加载数据2、查看数据的特征信息3、特征选择-pclass船舱仓位-sex-age4、对age列进行空值填充5、对pclass处理和sex的处理6、对数据集进行划分,划分为训练集和测试集7、加载算法构建模型8、预测9、校验# coding=utf-8# @Time : 2019/12/1 20:49# @Author : Z# @Email : S#...原创 2019-12-12 20:17:07 · 308 阅读 · 0 评论 -
MovieLens电影推荐系统
# coding=utf-8# @Time : 2019/12/4 20:21# @Author : Z# @Email : S# @File : UserBasedCF.py#MovieLens电影推荐系统import math#定义基于用户得协同过滤算法类class UserBasedCF: #初始化对象 def __init__(self...原创 2019-12-05 14:16:12 · 3876 阅读 · 0 评论 -
机器学习知识点三
原创 2019-11-30 20:18:41 · 174 阅读 · 0 评论 -
机器学习知识点二
原创 2019-11-30 20:17:20 · 120 阅读 · 0 评论 -
机器学习知识点一
原创 2019-11-24 18:35:26 · 161 阅读 · 0 评论 -
数据仓库的mapreduce
map段:LogClearMap.javapackage etl;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.LongWritable;imp...原创 2019-11-22 15:40:09 · 268 阅读 · 0 评论 -
利用sparksql进行报表分析
package reportimport config.ConfigHelperimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}import utils.MakeATPKpi//利用sparksql进行报表分析object TrainTimeSparkSQLAna...原创 2019-11-19 19:50:43 · 990 阅读 · 0 评论 -
利用mysql存储数据进行报表分析
package reportimport config.ConfigHelperimport org.apache.spark.sql.{Dataset, SparkSession}import scalikejdbc.{DB, SQL}import scalikejdbc.config.DBsimport utils.MakeATPKpi//利用mysql存储traintime进...原创 2019-11-19 15:29:55 · 376 阅读 · 0 评论 -
利用redis存储中间字典表进行统计分析
package reportimport config.ConfigHelperimport org.apache.commons.lang3.StringUtilsimport org.apache.spark.sql.SparkSessionimport utils.{GetJedisConn, MakeATPKpi}//利用redis存储中间字典表进行统计分析object T...原创 2019-11-19 15:22:00 · 402 阅读 · 0 评论 -
将数据灌入mysql中
package toolsimport java.util.Propertiesimport config.ConfigHelperimport org.apache.spark.sql.{SaveMode, SparkSession}//将列车出厂时间数据灌入mysqlobject TrainTime2Mysql { def main(args: Array[String])...原创 2019-11-19 09:52:32 · 513 阅读 · 0 评论 -
将数据灌入redis中
package toolsimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}import utils.GetJedisConn//将列车出厂时间灌入redis中object TrainTime2Redis { def main(args: Array[String...原创 2019-11-19 09:28:05 · 387 阅读 · 0 评论 -
利用广播变量来进行数据的传输
package reportimport config.ConfigHelperimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport scalikejdbc.{DB, SQL}import scal...原创 2019-11-19 09:12:55 · 414 阅读 · 0 评论 -
离线报表实现
我们在对报表进行处理的时候,怎么以一个属性为维度,统计其他属性的指标。以下的案例是我们对我们的报表以配属铁路局为维度统计他们的各个指标,而且要使用多种方法,并且要能输出到json和mysql中package reportimport java.util.Propertiesimport com.google.gson.Gsonimport config.ConfigHelperim...原创 2019-11-16 21:17:26 · 973 阅读 · 1 评论 -
数据清洗
在对数据进行处理的时候,很多时候需要我们进行数据清洗。下面的案例就是对大量的数据进行处理:每行代码完成的任务在备注中都有叙述package etlimport java.io.Fileimport java.text.SimpleDateFormatimport java.util.Dateimport bean.{Logs, logSchema}import config.C...原创 2019-11-15 01:10:00 · 452 阅读 · 0 评论