
大数据
文章平均质量分 68
TURING.DT
科技改变世界,技术改变人生。
展开
-
大数据开源框架技术汇总
引言主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展的做个参考。目录Hadoop:Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推原创 2023-10-18 14:06:28 · 1053 阅读 · 0 评论 -
友盟+、GrowingIO和神策数据 对比
属于大数据的基础设施了,可以做数据驱动技术,千人千面的优化。GrowingIO,这个非常适合项目早期,团队内没人懂这个东西,看完增长黑客就想上手。这个真的是对比过的,我们小作坊的员工是能学会GrowingIO的,可以数据驱动运营。growingio也提供清单级数据的导出服务,不过另外收费,开通之后可以提供过去15天的清单级数据。所以说,看你接给谁用,如果是做开发,想要做大数据驱动,神策更合适。使用要求:操作上,涉及数据集、表的关联、看板等多个需要用户操作的环节,对应数据处理过程。适合给老板看个总和。原创 2023-08-03 15:32:43 · 2363 阅读 · 0 评论 -
数字化转型,需要什么样人才体系?
术业有专攻,尤其是传统行业的业务人员对数据的认知处于比较浅的层次,想要在转型过程中,数据团队不是闭门造车,而是深刻的理解了业务流程和痛点,就需要具备深厚的数据功底的“外交官”的角色,去不断深入业务过程,可以告诉业务数据能够带来哪些改变,现有哪些数据,还需要做哪些工作。既然数字化转型的终极目的是降本增效,以终为始,那就要先看目前的经营流程中,主要的“本”花在了哪里,这时涉及两个层面,一是要能够梳理清楚现有的核心业务流程,二是有没有完善的数据,可以去衡量这个成本。转载 2022-10-27 10:18:14 · 662 阅读 · 0 评论 -
主流大数据调度工具对比(DolphinScheduler特点)
大数据环境下,调度工具比不可少,离线批任务和准实时任务都需要调度去驱动。支持暂停恢复操作. 支持多租户,更好的应对大数据的使用场景. 支持更多的任务类型,如 spark, hive, mr, python, sub_process, shell。DAG 监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署。支持自定义任务类型,调度器使用分布式调度,调度能力随集群线性增长,Master和Worker支持动态上下线。原创 2022-09-20 13:25:23 · 2722 阅读 · 0 评论 -
大数据中台技术组件
元数据管理:开源的Netflix的Metacat、Apache的Atlas,商业化的产品Cloudera Navigator。任务调度:Oozie,Azakaban,AirFlow,DolphinScheduler等。在线实时分析:ClickHouse,Kylin,Doris,Druid,Kudu等。数据计算:MapReduce,Spark,Flink。资源调度:YARN,Mesos,Kubernetes。数据存储:HDFS,HBase,Kudu等。交互式查询:Impala,Presto。原创 2022-08-23 18:56:35 · 790 阅读 · 0 评论 -
ClickHouse用户路径分析原理及实现
若只有单条路径app_lunch也算)的所有session,app_lunch1表示以app_lunch为起始事件的session数共有3405,所有数据会分别流向app_lunch2、download2、#-1#2,分别为用户路径为app_lunch->app_lunch->xxx->xxx……如:用户路径为app_lunch->download->#-1#,则此路径内位于第二个节点的download为图中的download2事件,路径内位于第三个节点的#-1#为图中的#-1#3事件。...原创 2022-08-04 15:04:03 · 2517 阅读 · 1 评论 -
系统等保指的是信息系统的安全保护等级
三级等保是国家对非银行机构的最高级认证,4102属于“监管级别”,由国家信息安全监管部门进行监督、检查,认证测评内容分别涵盖5个等级保护安全技术要求和5个安全管理要求,包含信息保护、安全审计、通信保密等近300项要求,共涉及测评分类73类,要求十分严格。应用的安全评估(包括应用安全扫描、渗透测试及风险评估),应不存在中高级风险以上的漏洞(例如SQL注入、跨站脚本、网站挂马、网页篡改、敏感信息泄露、弱口令和口令猜测、管理后台漏洞等);安全管理制度、安全管理机构、人员安全管理、系统建设管理、系统运维管理。...原创 2022-07-18 14:49:56 · 2803 阅读 · 0 评论 -
数仓模型规范-(刷新/存储/时间维度/废弃归档规范)
一、刷新周期规范 刷新周 期 刷新周期命名 刷新周期缩写 描述 天 day d 每天更新数据 周 week w 每周更新数据 月 month m 每月更新数据 季度 quarter q 每季度更新数据 年 year y 每年更新数据 实时 realtime r 实时更新数据 二、存储策略规范策略类型 后缀缩写 每原创 2022-01-05 14:45:45 · 1024 阅读 · 0 评论 -
superset设置自动刷新
superset想实现动态展示,搜索了一下果然有这个功能,莱斯够~1、选择下面的Auto-refresh dashboard2、选择 set auto-refresh interval3、选择需要的刷新时间4、 保存即可原创 2021-08-25 10:10:21 · 1693 阅读 · 0 评论 -
SuperSet logo修改、导出csv中文乱码、sql查询超时问题解决(默认30s)问题处理
一、网页标题及logo修改1、网页标题修改vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.pyreturn self.render_template('superset/basic.html',entry='welcome',title='Superset',bootstrap_data=json.dumps(payload, default=utils.json_iso_dttm_原创 2020-05-25 11:56:09 · 3233 阅读 · 0 评论 -
Linux下安装Superset实践
一、安装conda create --name super python=3.6yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel根据官方文档操作,在执行到fabmanager create-admi...原创 2020-03-17 18:42:09 · 1852 阅读 · 0 评论 -
Hadoop hdfs界面:Hadoop Non DFS Used大小问题
最近研究hadoop hdfs 中NonDFSUsed容量是什么,Non DFS Used为非hadoop文件系统所使用的空间,比如说本身的linux系统使用的,或者存放的其它文件。有的时候你会发现HDFS UI界面上显示的Non DFS Used很大,但实际的服务器上都没有那么大的空间了,看看下边的解释:Non DFS Used = Configured Capacity原创 2016-11-17 14:40:45 · 6400 阅读 · 0 评论 -
ambari管理界面服务显示问题
ambari管理界面发现一个zookeekper显示stoped状态,启动后还是如下状态,如下:登录到服务器,查看进程发现zookeeper的状态是启动的,尝试命令重启zk,结果还是一样,后来尝试root和zookeeper用户停止、启动,发现停止后zookeeper进程还在,直接kill进程,在使用ambari启动,终于正常了。ambari服务的用原创 2016-04-13 14:25:11 · 3327 阅读 · 0 评论 -
kafka-manager监控工具安装
kafka-manager监控工具安装1、下载源码文件https://github.com/yahoo/kafka-manager安装sbtsbt是scala的打包构建工具。http://www.scala-sbt.org/download.htmlubuntu下载、安装:下载,编绎,生成发布包:git clone https://github.com/原创 2016-04-13 14:26:54 · 6998 阅读 · 0 评论 -
Codis2.0搭建部署
Codis搭建部署codis1 10.111.32.51 codis-proxy,redis master,redis slavecodis2 10.111.32.52 codis-proxy,redis master,redis slavecodis3 10.111.32.53 redis master,redis slave部署codis集群1原创 2016-04-13 14:27:57 · 1096 阅读 · 0 评论 -
redis.conf的配置说明
# redis 配置文件示例 # 当你需要为某个配置项指定内存大小的时候,必须要带上单位,# 通常的格式就是 1k 5gb 4m 等酱紫:## 1k => 1000 bytes# 1kb => 1024 bytes# 1m => 1000000 bytes# 1mb => 1024*1024 bytes# 1g => 1000000000 bytes#原创 2016-04-13 14:28:03 · 676 阅读 · 0 评论 -
八项提高机器学习模型的准确率的方法
模型的开发周期有多个不同的阶段,从数据收集开始直到模型建立。不过,在通过探索数据来理解(变量的)关系之前,建议进行假设生成(hypothesis generation)步骤(如果想了解更多有关假设生成的内容,推荐阅读(why-and-when-is-hypothesis-generation-important)。我认为,这是预测建模过程中最被低估的一个步骤。花时间思考要回答的问题原创 2016-04-13 14:29:43 · 1911 阅读 · 0 评论 -
搞清楚LzoCodec和LzopCodec
使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别: LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如 bytes signature, header等信息 如果使用 LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzo原创 2016-04-13 14:29:45 · 670 阅读 · 0 评论 -
当我们说数据挖掘的时候我们在说什么
开头下定语:统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。统计学习的应用分类问题:客户分类模型、异常鉴别、图像识别等标注问题:信息抽取、自然语言处理等统计学习的一般流程 得到一个有限的数据集合 确定所有的学习模型集合 确原创 2016-04-13 14:31:27 · 550 阅读 · 0 评论 -
KafkaOffsetMonitor监控工具的安装与使用
KafkaOffsetMonitor是有由Kafka开源社区提供的一款Web管理界面,这个应用程序用来实时监控Kafka服务的Consumer以及它们所在的Partition中的Offset,你可以通过浏览当前的消费者组,并且每个Topic的所有Partition的消费情况都可以观看的一清二楚。它让我们很直观的知道,每个Partition的Message是否消费掉,有木有阻塞等等这个W原创 2016-08-22 18:08:52 · 1523 阅读 · 0 评论 -
hadoop2.6.0 + Azkaban2.5.0 任务调度系统实践
Azkaban有三种运行模式:solo server mode:最简单的模式,数据库内置的H2数据库,管理服务器和执行服务器都在一个进程中运行,任务量不大项目可以采用此模式。two server mode:数据库为mysql,管理服务器和执行服务器在不同进程,这种模式下,管理服务器和执行服务器互不影响multiple executor mode:该模式下,执行服务器和管理服务器在不同主原创 2016-06-06 13:52:25 · 4022 阅读 · 2 评论 -
supervisor无法正常运行Caused by: java.io.EOFException: null
告警发现一个supervisor停止,重启启动服务,但无法正常运行,查看日志报错如下:2015-09-27 10:21:53 c.n.c.f.i.CuratorFrameworkImpl [INFO] Starting2015-09-27 10:21:53 o.a.z.ZooKeeper [INFO] Initiating client connection, connectStrin原创 2016-04-13 14:25:08 · 4977 阅读 · 1 评论