
大数据
Leon0204
这个作者很懒,什么都没留下…
展开
-
flume+kafka nginx日志系统搭建完整流程
Apache Flume + Zookeeper + Fafka中间件 + 持久化存储 。用 Apache Flume 获取 nginx 日志,设置 sources 为 tail -f access-log,设置 sink 为 kafka 集群 ,从kafka 中取数据 结果存入 redis/mongo/es ,提供 API查询Nginx 日志 format 修改原创 2020-11-03 16:38:25 · 1648 阅读 · 2 评论 -
pika python rabbitmq 优先级队列、查看队列剩余数目
话不多说,直接上代码。python3.6 pika 实现rabbitmq 优先级队列Sendimport pikaimport sysimport time# 远程rabbitmq服务的配置信息username = '用户名' # 指定远程rabbitmq的用户名密码pwd = '密码'ip_addr = 'ip'port_num = 5672# 消息队列服务的连接和队列的创建credentials = pika.PlainCredentials(username, p原创 2020-05-21 16:17:22 · 2967 阅读 · 1 评论 -
倒排索引增量更新如何被实时检索?
正排索引与倒排索引索引的目的: 使根据 key 查询 value 的速度变快正排索引:Forward Index ,以一个对象的唯一ID 为Key 的哈希索引结构倒排索引:Inverted Index 根据具体内容,反过来查询文档 key ,根据内容(字典),查询对应的文档列表(记录列表)倒排索引的创建:1 文档唯一编号,排序,遍历文档2 解析文档,生成, <关键字,文档ID,关键字Index> (查询多个关键字时,可以比较多个关键字的位置)3 生成 关键字 对应的 (文原创 2020-05-14 11:26:45 · 1230 阅读 · 0 评论 -
Hive常用表操作语句
常用操作简单表# 创建create table erp_leon_stu_simple (name string, age int) # 查看表存储位置 desc formatted erp_leon_stu_simple2. 外部表# desc formatted erp_leon_stu_simplecreate external table erp_leon_stu...原创 2019-09-19 15:43:40 · 432 阅读 · 0 评论 -
PySpark Rdd操作
from pyspark import SparkContext, SparkConfconf = SparkConf().setAppName("rdd_trans")sc = SparkContext(conf=conf)print(sc.version)# 创建rdd = sc.parallelize([2, 3, 4, 5, 6, 6, 6, 6, 6])rdd1 = r...原创 2019-09-23 15:22:39 · 529 阅读 · 0 评论 -
PySpark DataFrame 操作
SQl 获取 DF 操作# coding:utf-8from pyspark.sql import SparkSessionfrom pyspark.sql.utils import AnalysisExceptionif __name__ == '__main__': spark = SparkSession.builder.enableHiveSupport().appNa...原创 2019-09-25 10:14:03 · 505 阅读 · 0 评论