
大数据
文章平均质量分 95
JQW_YNU
无
展开
-
pyspark的windows7环境搭建
安装步骤注意:如有需要,本篇的所有资源将通过百度网盘提供,减少寻找和下载时间链接:https://pan.baidu.com/s/1v53Vt5NZEPZigCXE6rjDGQ提取码:64pi1.安装java这里选择version 1.8.,配置环境变量JAVA_HOME,PATH,CLASSPATH参考链接:Java JDK8下载地址,Java安装及环境配置注意ja...原创 2020-02-16 00:24:06 · 521 阅读 · 1 评论 -
yum异常: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found"
http://people.centos.org/hughesjr/chromium/6/x86_64/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found"Trying other mirror.Error: Cannot retrieve repo...原创 2018-09-29 19:04:27 · 12564 阅读 · 2 评论 -
Python日志产生器
Python日志产生器写在前面 有的时候,可能就是我们做实时数据收集的时候,会有一个头疼的问题就是,你会发现,你可能一下子,没有日志的数据源。所以,我们可以简单使用python脚本来实现产生实时的数据,这样就很方便了在编写代码之前,我们得知道我们的webserver日志到底长什么样,下面我找了一段的nginx服务器上真实日志,作为样例:223.104.25.1 - - [21/Nov...转载 2018-10-18 16:51:25 · 194 阅读 · 0 评论 -
[项目实战]流量日志分析系统
============================================================================一、虚拟机环境部署:1、在虚拟机中安装CentOS启动一个virtual box虚拟机管理软件(vmware,我早些年,发现不太稳定,主要是当时搭建一个hadoop大数据的集群,发现每次休眠以后再重启,集群就挂掉了)virtual ...原创 2018-09-30 16:29:48 · 2833 阅读 · 0 评论 -
4基于Golang协程实现流量统计系统-用GO批量模拟生成log日志
上一节课我们已经架设好了一个网站。,但是因为我们的网站没有流量 。也生成不了大量的日志,靠我们自己点击生成那点日志也不够测试的。所以这次我们就用GO语言批量生成我们想要的日志。好了。我们开始写代码我用的IDE工具是GOLAND,没有为什么,只因为强大,好用。我承认我是小白。只会用GOLAND。用VIM开发的大神请忽略我。首先介绍一下,本次生成的日志是根据网站生成的日志格式来模拟生成的。...转载 2018-10-09 19:28:05 · 1091 阅读 · 0 评论 -
虚拟机上运行AntDesignPro
步骤:1. 保证linux虚拟机正常运行和访问网络2. 保证yum install git 正常 , 以及wget 命令正常3. 正确安装nodejs ,并能通过node -v 和npm -v检验正确安装 ,通过npm 安装yarn , 通过yarn 安装模块和启动(出错率小)4. 依据网址下载antDesignPro 并启动测试界面:异常:异常一: yum...原创 2018-10-10 21:36:06 · 832 阅读 · 0 评论 -
大数据组件服务的启动与关闭命令
本文主要整理了大数据组件服务的启动与关闭命令,主要包括Hadoop,Spark,HBase,Hive,Zookeeper,Storm,Kafka,Flume,Solr,ElasticSearch。 1、Hadoop集群(1)启动方式切换到主节点的hadoop安装目录下的sbin目录下a)/start-dfs.sh ./start-yarn.sh (建议使用)b)./start-all.sh(...转载 2018-11-14 16:41:22 · 441 阅读 · 0 评论 -
CDH系列大数据组件安装地址
http://archive-primary.cloudera.com/cdh5/cdh/5/原创 2018-11-14 21:17:17 · 796 阅读 · 0 评论 -
大数据学习——Sqoop入门使用
Sqoop概述Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 架构示意图:Sqoop整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。网址...转载 2018-11-14 21:50:20 · 490 阅读 · 0 评论 -
Docker- kylin + ambari 快速搭建
1.拉取docker镜像(注意:这个kylin是0.7.2版本的,集成了ambari1.7和hdp Hadoop2.2,镜像大约6G)docker pull sequenceiq/kylin:0.7.2拉取完成镜像,通过 docker iamges 查看sequenceiq/kylin:0.7.2镜像是否成功2.启动kylin镜像1) 首先执行以下命令wget https:/...原创 2018-11-20 22:57:21 · 2173 阅读 · 0 评论 -
离线安装 Cloudera Manager 5.12.0 和 CDH5.12.0 完全教程
离线安装Cloudera Manager 5.11.1和CDH5.11.1完全教程关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloude...原创 2018-11-19 19:36:49 · 1271 阅读 · 0 评论 -
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站https://github.com/mtianyan/ArticleSpider未来是什么时代?是数据时代!数据分析服务、互联网金融,数据建模、自然语言处理、医疗病例分析……越来越多的工作会基于数据来做,而爬虫正是快速获取数据最重要的方式,相比其它语言,Pyth...原创 2018-10-06 18:17:23 · 9343 阅读 · 1 评论 -
MaxCompute全套攻略
概况介绍大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。本文收录了大量的MaxCompute产品介绍、技术...转载 2018-10-05 14:20:02 · 10367 阅读 · 0 评论 -
大数据-Kafka(消息队列)
Kafka概述 和消息系统类似 消息中间件:生产者和消费者 妈妈:生产者 你:消费者 馒头:数据流、消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡主(机器故障), 馒头就丢失了 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了 拿个碗/篮子,馒头做好以后先放到篮子里,你要吃的时候去篮子里面取出来吃 篮子/框: Kafka 当篮子满了,...原创 2018-05-11 22:40:29 · 842 阅读 · 0 评论 -
大数据组件配置(Scala-Maven-Hadoop)
--------------------------------------------------------scala安装-----------------------------------------------------------scala安装: 下载---》解压---》配置系统变量----》检查是否安装成功百度scala --->点击down---->选择之前的版本--...原创 2018-05-12 15:02:47 · 452 阅读 · 0 评论 -
大数据组件起点案例
flume : 监听端口,实现数据收集 监听文件,实现数据收集 监听文件,转向其他机器,实现数据收集kafka : 单节点单broker 单节点多broker 多节点多brokersparkStreaming : word-count案例实现...原创 2018-06-03 21:51:38 · 318 阅读 · 0 评论 -
大数据-日志生成器-flume-kafka-sparkStreaming
日志作为flume输入源?借助log4j,并且配置如下:log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.stdout.layout=org.apache.l...原创 2018-06-04 15:15:33 · 1143 阅读 · 0 评论 -
大数据-Kafka容错性
partitionCount: 1 代表分区数为1 replicationFactor: 3 代表副本数为3 replicas:3 1 2 代表副本存放的brokeridIsr : 3 1 2 代表活着的是3 1 2leader: 3 代表broker编号为3 的是leader理解kafka的容错性:(容错性测试)当我们kafka有3个,随意删除其2个都不会影响kafka运行当只剩下一个时,那么...原创 2018-06-04 19:33:48 · 3909 阅读 · 0 评论 -
异常kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries.
场景:在linux 上创建了kafka topic, 但window上通过idea编写的kafka java api无法连接到linux 上的 kafka 解决思路:1.测试端口是否可以检测到 window --》cmd 输入telnet 虚拟机ip 9092 (kafka端口)/2181(zookeeper端口) 发现都...原创 2018-06-04 21:15:55 · 2528 阅读 · 0 评论 -
大数据-Flume整合Kafka
------------------------------------------------------------------------------------------------------------------------------avro-memory-kafka.conf配置:avro-memory-kafka.sources = avro-sourceavro-memor...原创 2018-06-05 12:27:49 · 450 阅读 · 0 评论 -
Flume+Kafka+SparkStreaming+Hbase处理和调试方法
1. 首先得确保Flume能接受到数据和输出数据,所以源头监控log文件,输出在控制台2. 确保kafka接受到数据并能通过consumer消费到,控制台输出3.对接Flume和Kafka,将Flume的输出改为Kafka , 测试能否在Kafka处输出4.SparkStreaming测试程序,测试能否接受到kafka数据并在控制台输出5.编写sparkStreaming 处理逻辑...原创 2018-09-23 10:47:31 · 579 阅读 · 0 评论 -
每天数百亿用户行为数据,美团点评怎么实现秒级转化分析?
用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验、推动用户增长等领域有重要作用。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据集上实现对用户行为的快速灵活分析,成为一个巨大的挑战。为此,我们提出并实现了一套面向海量数据的用户行为分析解决方案,将单次分析的耗时从小时级降低到秒级,极大的改善了分析体验,提升了分析人员的工作效率。本文以有序漏斗的需...转载 2018-10-05 10:51:10 · 342 阅读 · 0 评论 -
flume配置文件和实际场景理解
一、场景一描述:线上api接口服务通过log4j往本地磁盘上打印日志,在接口服务器上安装flume,通过exec source收集日志,然后通过avro sink发送到汇总服务器上的flume;汇总服务器上的flume通过avro source接收日志,然后通过file_roll sink写到本地磁盘。二、场景二描述: 线上api接口服务通过log4j往本地磁盘上打印日志,在接口...原创 2018-09-22 13:42:24 · 476 阅读 · 0 评论 -
大数据-Flume(分布式日志收集框架)
Flume安装前置条件 Java Runtime Environment - Java 1.7 or later Memory - Sufficient memory for configurations used by sources, channels or sinks Disk Space - Sufficient disk space for configurations...原创 2018-05-11 20:59:56 · 1133 阅读 · 0 评论