
大数据
文章平均质量分 85
莫待花无空折枝
这个作者很懒,什么都没留下…
展开
-
selenium爬虫
selenium浏览器爬虫原创 2022-08-19 19:40:06 · 227 阅读 · 0 评论 -
requests爬虫
request爬虫案例详解原创 2022-08-19 19:17:51 · 559 阅读 · 0 评论 -
flink DataStream API
一、DataStream方法:split 拆分stream,返回SplitStream,SplitStream定义了select方法,可以根据select方法查询拆分的datastream。connect合并流,只能连接两个流,两个流类型可以不一致,返回ConnectedStreams,重写了flatMap、keyBy等方法。union 可以连接多个流,流的类型必须一致 返回DataStream。join join(otherStream).where(<KeySelector&g...原创 2020-07-06 16:55:34 · 281 阅读 · 0 评论 -
es简单实用
新建索引PUT index_name修改索引PUT index_name/_mapping/elasticsearch{ "properties": { "articleNumber" : { "type" : "keyword" }}}给字段添加keyword类型PUT index_name/_mapping/elasticsearch{ "properties": { "bindTime": { ...原创 2020-05-27 18:35:43 · 620 阅读 · 1 评论 -
hive、spark函数大全
一、hive1、日期 (hive没有date类型)1)、获取时间current_date 2019-05-07current_timestamp/now() 2019-05-07 15:20:49.2472)、从日期时间中提取字段year(''),month(''),day/dayofmonth,hour(''),minute(''),second(''),dayofweek(),d...原创 2019-09-02 16:30:42 · 1864 阅读 · 1 评论 -
hadoop集群
一、hadoop动物管理员 Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目。hadoop集群包含两类节点(Master与Slave)Master节点:运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器(用于观看管理界面),等其它Hadoop工具。Master...原创 2019-02-14 17:53:09 · 2113 阅读 · 0 评论 -
hive笔记
原理hive将sql语句转换为MapReduce任务进行运行最佳使用场合是大数据集的批处理作业Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的● 支持索引,加快数据查询。● 不同的存储类型,例如,纯文本文件、HBase 中的文件。● 将元数据保存在关系数据...原创 2018-01-29 14:58:50 · 330 阅读 · 0 评论