- 博客(91)
- 资源 (18)
- 收藏
- 关注
原创 【大话Presto 】- 核心概念
Presto(PrestoDB)是一个FaceBook开源的分布式MPP SQL引擎,旨在处理大规模数据的查询和分析问题。传统数据库系统(eg:Hive)在面对大规模数据和复杂查询需求时存在限制,如数据规模限制、查询速度慢、数据源集成困难等问题。本文主要介绍下Presto基本的核心概念。
2023-11-17 18:02:13
734
原创 【大模型】2万字带你快速入门最热门LLM应用开发框架LangChain
LangChain是以大型语言模型(LLM)为核心的开发框架,旨在为自然语言处理(NLP)领域带来革新。项目始于2022年10月的开源项目,迅速转变为初创公司,并吸引了大量关注和投资。LangChain提供Python和Node.js版本,让开发者能够快速上手LLM应用开发,解决了现有人工智能应用开发中的痛点,并极大地提高了开发效率。作为LLM应用架构的一部分,LangChain整合了LLM模型、向量数据库、交互层Prompt、外部知识和工具,为用户提供了自由构建LLM应用的平台。随着不断的迭代和优化,L
2023-11-11 23:20:02
315
2
原创 Presto资源管理之Resource Groups And Selector
Presto 是一个用于大数据查询和分析的开源分布式 SQL 查询引擎。在Presto中,资源组(Resource Groups)可以用来管理和分配 Presto 集群的资源。资源组可以用于控制 Presto 查询的优先级和资源分配。
2023-11-10 13:43:30
705
1
原创 OpenAI开发者大会掀起风暴:GPT模型价格狂降50%,应用商店即将亮相,AI技术将引爆全球!
OpenAI首届开发者大会于11月7日在旧金山盛大召开,吸引了整个硅谷的开发者。自2007年乔布斯的iPhone改变世界以来,硅谷从未对任何活动如此兴奋。一年前的11月30日,OpenAI发布了ChatGPT,这款AI驱动的聊天机器人在两个月内吸引了1亿用户,创下了用户增长速度最快的历史记录。然而,ChatGPT的增长后来逐渐放缓,这也是所有生成式AI产品都面临的问题:如何获得新的增长动力?今天在开发者大会上,OpenAI提出了解决方案:让生成式AI更便宜、更个性化,并让其无处不在。
2023-11-08 22:32:10
545
9
原创 presto插件机制揭秘:探索无限可能的数据处理舞台
摘要: “开启数据处理新纪元:探索Presto插件的无限可能”本文将带领读者一同探索Presto插件机制的魅力。插件机制是Presto实现自定义拓展和功能扩展的关键。我们将详细介绍Presto插件的定义、安装和使用,并深入了解插件机制的内部工作原理。了解插件机制如何提供灵活性和可定制性,并演示如何编写和注册自定义的插件。通过使用插件,你将能够强化Presto的数据处理能力,让你的工作事半功倍。让我们一同开启数据处理的新纪元,探索Presto插件的无限可能!
2023-11-03 14:47:46
1808
31
原创 01 presto 概述: 特性 优缺点 场景 架构
Presto是一款开源的分布式并行计算(MPP)引擎,主要适用于大数据领域GB~PB量级数据源的秒级分析查询场景需求。- Presto的产生是为了解决MapReduce模型太慢且不能通过BI等工具展现HDFS数据的问题- Presto是一个计算引擎,它不存储数据,主要通过丰富的Connector,获取第三方的数据,并支持扩展
2023-02-27 11:36:10
2023
1
转载 【Air2phin】Airflow 一键迁移 Dolphinscheduler 工具
调度系统迁移工具 Air2phin 宣布开源。借助 Air2phin,用户可 2 步将调度系统从 Airflow 迁移至 Apache DolphinScheduler,为有调度系统迁移需要的用户带来极大便利
2023-02-24 23:03:58
442
原创 计时器Timing Wheel 时间轮算法
计时器对于故障恢复、基于速率的流量控制、调度算法、控制网络中的数据包生命周期至关重要重要。 而一般计时器的实现维护成本比较高,比如JDK自带的 Timer、DelayQueue对于任务的进出其时间复杂度为O(logN)。 对于要求高性能且需要保证高频繁大量操作任务的优先级框架,比如Kafka、Netty等框架,重排序的时间复杂度O(logN)是不能满足其要求的。而基于一种时间轮的算法可以实现将这种重排序的时间复杂度降为O(1)。
2022-12-03 14:10:47
797
2
原创 任务调度之ScheduledThreadPoolExecutor源码分析
任务调度之ScheduledThreadPoolExecutor源码分析jScheduledThreadPoolExecutor 相比于Timer,ScheduledThreadPoolExecutor 其实就是多线程版的Timer,主要解决的就是多任务执行相互影响的问题。
2022-11-13 08:19:49
587
3
转载 知乎案例分享: 万字详解用户画像与实时数仓的架构与实践
万字详解用户画像与实时数仓的架构与实践关键词:数据仓库,Apache Doris,用户画像,实时数据
2022-11-12 18:23:41
904
原创 【面经】- 上汽新能源车企JAVA&大数据架构师实战面经分享
【面经】- 上汽新能源车企30K-60K架构师实战面经分享java架构师面经大数据架构师面经数据开发架构师面经大数据平台架构师面经
2022-09-24 10:58:39
2229
35
转载 【ClickHouse】-02.副本与分片-副本篇
【ClickHouse】-02.副本与分片-副本篇数据副本zookeeper配置方式replicatedMergeTree原理解析副本操作流程
2022-09-24 08:30:00
2802
原创 【ClickHouse】-01.万字带你快速入门使用CK
【ClickHouse】-01.万字带你快速入门使用CKClickHouse安装;ClickHouse引擎;ClickHouse数据类型;ClickHouse Sql 案例操作
2022-09-18 14:00:39
3710
92
原创 【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享
【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试:1.像网易做的一体化方案,直接从数据开发,数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象到数据的治理平台中。
2022-09-17 11:58:40
3534
18
原创 DataOps: A New Discipline 数据治理的下一步
DataOps: A New Discipline 数据治理的下一步 DataOps
2022-09-17 09:18:47
439
原创 【SQL屠夫系列】- SQL高频面试之计算累加报表,还不会你来K我
【SQL屠夫系列】- SQL高频面试之计算累计报表,还不会你来打我.SQL累加;累计题型解法
2022-09-16 17:47:09
446
20
原创 【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来
【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来。SQL 开发规范
2022-09-15 07:00:00
1128
38
转载 【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析
【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析;海豚调度架构设计;执行流程;负载均衡;容错;通信源码剖析
2022-09-14 22:39:03
392
4
原创 【NLP屠夫系列】- NER之实战BILSTM
【NLP屠夫系列】- NER之实战BILSTM了解什么是命名实体识别了解命名实体识别的作用了解命名实体识别常用方法- 了解医学文本特征
2022-09-06 12:44:49
3248
76
原创 【SQL屠夫系列】leetcode-176. 第二高的薪水
【SQL屠夫系列】leetcode-176. 第二高的薪水。SQL经典排名问题练习
2022-09-05 07:26:09
532
2
原创 【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展:连续登陆N天)
【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展:连续登陆N天)
2022-09-04 09:47:26
2635
97
原创 Python小游戏-Las Vegas Black Jack- CASINO (21点)
Python小游戏-Las Vegas Black Jack- CASINO (21点)黑杰克简称21点
2022-09-03 07:01:00
1556
13
转载 从Airflow到DolphinScheduler,有赞大数据开发平台调度系统演进分享
airflow到dolphinScheduler海豚调度的迁移分享有赞大数据平台调度系统演进分享
2022-09-02 09:56:34
541
9
原创 【湖仓一体化】存OR算之争?SPL 我都要
【湖仓一体化】存or算之争?spl我都要什么是湖仓一体?它和数据仓库、数据湖的关系是什么?为什么要用一体来形容呢
2022-08-31 10:06:01
4392
88
原创 大数据平台下的数据治理
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
2022-08-27 10:42:07
1518
3
原创 大数据批量处理神器 - 自定义周期批量消费队列的实现
大数据批量处理神奇-自定义周期批量消费队列的实现周期批量消费队列(BlockingQueue)的实现LinkedBlockingQueue与ArrayBlockingQueue的比较
2022-08-24 01:19:19
2336
49
原创 【Mock】Neo4j知识图谱数据集Mock、问答训练数据集mock
【数据mock】Neo4j知识图谱数据集Mock、问答训练数据集mock
2022-08-14 14:14:30
1794
49
原创 FIX - 克隆虚拟机NAT模式网络不通、不稳定、vMnet8网络故障、网卡冲突、ssh连接慢
FIX - 克隆虚拟机NAT模式网络不通、不稳定、vMnet8网络故障、网卡冲突、ssh连接慢
2022-08-13 22:38:43
2690
4
最新java面试题攻略
2019-01-07
离线安装python pg环境
2019-01-07
python2.7 oracle库相关包
2019-01-07
gcc_package.tar centos 6.x/7.x
2019-01-07
Ali-HBase的SQL实践与改进
2017-10-15
scala-intellij-bin-1.2.1.zip
2017-10-09
jieba分词包
2017-10-06
ansj_seg-5.1.3
2017-10-06
正则表达式转换器
2017-03-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人