自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 阿里云 OSS大文件分片上传

获取我们将要上传的视频,在前端通过spark-md5 对大文件每一个分片生成MD5哈希值保证数据在传输过程中被篡改或替换,保障数据的安全性。1.首先我们通过在阿里云OSS对象存储控制台创建Bucket。创建成功以后 我们需要到ARM去开启授权。AccessKeyId需要自己创建。2.进入OSS对象存储控制台。后端 Controller。基于阿里云OSS对象存储。首先在yml配置这些。点击创建Bucket。设置Bucket属性。

2024-07-30 15:37:33 2358 6

原创 数据中台项目常见的问题

实际上这一块是难点之一,比如说对数据源管理的话,我们是以插件式的形式去做的,比如说我如果现在想要集成一个 Es我需要写好es的读执行器,es的写执行器,es转换执行器,以插件式的形式来去简化我们的工作,这一块我们也是参考电子插的设计架构来的。,其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。像flink的话这一块,我们用它一个 cdh做了一个和在现场实现的功能,就是能对卡夫卡的数据,然后做一个布控比对的操作产生告警,主要做了这一块。

2024-07-28 22:16:42 971

原创 数据中台-核心功能

尤为重要的是,它为医生科研项目提供了强大的数据分析工具与平台,助力医生深入挖掘数据价值,分析各平台数据间的关联与趋势,为临床研究、疾病预测、治疗方案优化等提供科学依据,推动医疗科研水平的提升。后台会启动异步的Compaction进程对历史版本的数据进行清理,当用户在查询时,Doris会将最新版本对应的数据返回给用户,这种设计解决了海量数据的更新问题。在实时数仓构建的过程中,还需面临高并发写入和实时更新的挑战,如何在亿级数据中快速找到需要更新的数据,并对其进行更新,⼀直都是大数据领域不断追寻的答案。

2024-07-26 21:44:10 1105

原创 电商项目-秒杀流程

秒杀是一个读多写少的场景,可以使用Redis做缓存,但是单体Redis可能顶不住(单机的Redis我感觉3-4W的QPS还是能顶得住的),这时候就需要搭建Redis集群,提升redis的性能和可用性,我们开始秒杀前通过定时任务提前把商品的库存加载到Redis中去,让整个流程都在Redis里面去做,然后等秒杀结束了,再异步的去修改库存就好了,但是要加事务,Redis本身是支持事务的,而且他有很多原子命令的,也可以用LUA脚本。为了提升下单的效率,并且防止下单服务的失败,需要将下单这一操作进行异步处理。

2024-07-26 11:06:08 2935

原创 ETL数据平台实现思路

八维数据平台应运而生,旨在为企业提供一套全面的数据管理和分析解决方案,通过集成多种数据源管理、接口配置、项目和任务管理、规则与流程控制、用户权限管理以及数据分析和服务监测功能,帮助企业实现数据驱动的决策支持和业务流程自动化。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。

2024-07-24 22:01:28 1890

原创 万字长文 JAVA面试篇(基础)

ThreadLocal即线程本地变量,如果你创建了一个ThreadLocal的变量,那么访问这个变量的每一个线程都会有这个变量的一份本地拷贝,多个线程操作这个变量的时候,实际上是在操作自己本地内存里面的变量,从而起到线程隔离的作用,避免了并发场景下的线程安全问题。每个线程操作数据的时候会把数据从主内存读取到自己的工作内存,如果他操作的数据并且回写到了主内存,其他已经读取的线程的变量副本就会失效,需要对数据操作就又要去主内存中读取了,说白了就是,一个线程改变了一个共享变量,会告诉其他线程,让他们的变量失效。

2024-07-21 14:51:57 863 3

原创 ETL项目常见问题

比如说源端有1,000万的人口信息同步到我们的库里边只有800万了,我们需要做好一个对标功能,告诉客户为什么只有800万,另外200万去哪了,比如说有50万是质量不达标的,我给扔了,然后有50万我是发送失败从事的,我也保存起来了等等的,现在数据对标这是一个大难点。A. 不完整的数据,其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。C. 重复的数据,特别是维表中比较常见,将重复的数据的记录所有字段导出来,让客户确认并整理。

2024-07-19 19:07:43 1676 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除