
大数据
文章平均质量分 87
house.zhang
这个作者很懒,什么都没留下…
展开
-
大数据AI Notebook产品介绍和对比
背景大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等原创 2022-03-24 17:44:20 · 4635 阅读 · 0 评论 -
大数据Ambari自定义服务详细介绍
一、背景知识介绍Ambari 内置服务包括Ambari 自己都是以rpm 包方式存放于repositories中。Ambari 一般有四个 repositories,具体如下:1.Ambari:存放 ambari server, ambari agent, 和相关监控软件2.HDP:存放 stack 软件包3.HDP-UTILS:存放安装 Ambari 和 HDP 的公用包,例如:Ganglia, Nagios, Snappy, Rrd 等4.EPEL:存放企业版本 Linux 所需的额外包,原创 2022-03-23 16:14:37 · 5533 阅读 · 0 评论 -
推荐系统的那些事儿
问题背景我们周围存在大量的文字、语音、视频等信息,比如网络购物玲琅满目的商品信息,浏览抖音各种类型的信息,一个互联网产品是否具有吸引力,是看其有多智能,能够让用户发较小的时间能够获取他感兴趣的内容,这里面少不了推荐系统的作用了,它已经渗透到我们生活中的方方面面,他们解决的问题的本质都是一一样的,就是为了解决:“信息”过载的情况下,用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间,搭建起一座桥梁。逻辑结构推荐系统主要处理的是人和物的关系,描述一个人 可以从性别、年龄、原创 2022-03-03 20:00:00 · 392 阅读 · 0 评论 -
在线学习FTRL介绍及基于Flink实现在线学习流程
背景目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般而言有两种解决方式:一种是采用On-line-learning的算法原创 2022-03-01 21:39:51 · 2678 阅读 · 0 评论 -
Flink on K8s 企业生产化实践
背景为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数据与算法间架起科学桥梁,提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了数据出口,供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用原创 2022-02-22 11:04:33 · 2050 阅读 · 1 评论 -
构建可靠、可扩展与可维护的应用系统
当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同的功能采用不同的组件,各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统,比如一个互联网系统通常由类似以下结构组成:数据库:主要产品是mysql,用于存储和持久化数据,一遍数据能够多次访问。高速缓存:主要产品有Redis、Memcached缓存那些经常要访问以及复杂计算和操作的数据,用来加快数据的返回,减少数据库压力,扩大系统并发原创 2021-10-28 22:06:17 · 3157 阅读 · 0 评论 -
一种提升线上ElasticSearch集群读写能力的方法
问题背景:业务在使用ES集群读取ES数据,如果同时向ES集群写任务时,会遇到RT涨的情况,会出现一些抖动,尤其是在计算框架大量增加并发度像ES集群写的情况下会出现抖动,目前的话是大数据计算集群减少并发写。以后还是期望增加并发度,加快写入速度,预期会对ES集群读性能带来挑战目前现状:目前线上是采用的 5台 64C 128G 1THDD,机器配置比较高,使用比较稳定,在集群同时大量读写时出现一些抖动,没有发生过 FGC等状况,平均延迟都在毫秒级 。集群索引所占据的数据量大概为300-500G。 集群的搭建原创 2021-10-26 15:21:36 · 2836 阅读 · 0 评论 -
HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。
对于一个企业大数据应用来说,搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS,Hadoop最先开始设计的就是HDFS,可见分布式存储的重要性,整个大数据生态计算框架多种多样,但是大数据的存储却没有太大的变化,HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点,一些对象存储等技术的出现给HDFS的地位带来了挑战,但是HDFS目前还是最重要的大数据存储技术,新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性...原创 2021-08-26 18:47:43 · 1807 阅读 · 0 评论 -
三分钟了解大数据技术发展史
我们常说的大数据技术,大致主要起源于 Google 在 2004 年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库 BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug cutting 大佬在基于谷歌的三篇论文开发出了 hadoop hdfs 分布式文件存储、MapReduce原创 2021-08-19 21:25:32 · 1340 阅读 · 0 评论 -
Zeppelin 集成TDengine 的探索与实践
背景大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发,重点会打通大数据计算、存储及底层资源管理,支持常见的机器学习和深度学习计算框架。TDengine是一个高效的存储、查询、分析时序大数据的平台,专为物联网、车联网、工业互联网、运维监测等优化而设计。 在时序空间大数据处理上,有着自己独到的优势,Zeppelin支持标准jdbc规范的数据源接入,可以在zeppelin notebo原创 2021-07-29 17:10:40 · 607 阅读 · 4 评论