自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

erainm

愿我的付出不辜负大家的关注,加油!!!

  • 博客(205)
  • 资源 (3)
  • 收藏
  • 关注

原创 AI大模型 - 机器学习基础(一)

本文介绍了人工智能(AI)、机器学习(ML)和深度学习(DL)三大核心概念及其关系。AI是模拟人类智能的广泛领域,ML作为其子集通过数据学习规律进行预测,DL则利用多层神经网络处理复杂模式识别。文章通过买西瓜和房价预测的案例,生动解释了机器学习的基本原理,包括特征、标签、线性回归等关键术语。同时概述了机器学习的发展历史和AI三要素(数据、算法、算力),并介绍了结构化/非结构化数据、数值/分类数据等数据类型划分。文章强调模型是学习到的规则集合,而大模型通过海量参数提升处理能力。

2025-07-25 11:41:46 10

原创 AI大模型初体验 - 基于Streamlit和Ollama实现聊天机器人

Streamlit是一个开源的Python库,专为数据科学家和工程师设计,可快速将数据分析和模型转化为交互式Web应用。它具有简单易用、快速开发、高度可定制等特点,提供文本、输入控件、数据展示等丰富组件。文章展示了用户注册页面和AI聊天机器人的实现案例,并介绍了如何通过Ollama调用本地大模型构建智能对话系统。Streamlit无需前端知识,通过简洁的Python代码即可创建功能完善的Web应用,适合快速原型开发。聊天机器人基于Streamlit和Ollama共同创建。

2025-07-24 09:34:53 19

原创 AI大模型初体验 - 聊天机器人

聊天机器人是一种模拟人类对话的程序,应用广泛于客服、教育、娱乐等领域。其核心技术包括自然语言处理(NLP)、对话管理和个性化交互。当前主流搭建方式包括无代码平台、开源框架和大模型集成三种,其中基于大模型(如DeepSeek、Kimi等)的方案能提供更优的对话体验。Ollama作为一个开源的本地大模型部署工具,简化了LLM的本地运行流程,支持多种模型并保障数据隐私。文章详细介绍了聊天机器人的架构、应用场景及Ollama的安装使用方法,为不同需求的开发者提供了技术选型参考。

2025-07-21 17:58:26 159

原创 AI大模型基础 - Python数据分析(Numpy、Pandas、Matplotlib)

介绍Python数据分析三大核心库Numpy、Pandas和Matplotlib。三者协同工作,形成"数值计算-数据处理-结果可视化"的完整分析流程。文章还提供了各库的安装方法和中文显示解决方案,并通过一个完整案例演示了三库的综合应用流程,展示了从数据生成、处理到可视化的典型数据分析工作流。

2025-07-21 14:14:03 31

原创 AI大模型基础-排序算法

文章摘要: 本文系统介绍了三种基础排序算法。首先解释了排序算法的稳定性概念(相同元素相对位置不变),并列举了稳定与不稳定算法示例。然后详细讲解了冒泡排序(相邻元素两两比较交换)、选择排序(每轮选择最小元素交换)和插入排序(将无序元素插入有序部分)的原理、实现步骤和时间复杂度分析。其中冒泡排序为稳定算法,时间复杂度O(n²);选择排序不稳定,最优O(n);插入排序通过构建有序序列实现排序。三种算法均附有Python代码实现样例,适用于小规模数据排序场景。

2025-07-15 12:04:45 32

原创 AI大模型基础-数据结构

本文介绍了数据结构的基本概念与分类,重点阐述了线性结构的存储实现方式。主要内容包括: 内存存储基础:以字节为单位,整型占4字节,字符占1字节; 线性结构特点:非空集、每个节点最多一个前驱和后继; 顺序表实现:分为一体式和分离式存储,通过下标偏移实现O(1)访问; 链表结构:详细说明单向链表、循环链表和双向链表的节点构成; 代码示例:用Python实现单向链表的基本操作,包括节点类、链表类及增删查等方法。文章对比了顺序表和链表的存储特点,为理解数据结构提供了基础框架。

2025-07-15 11:49:18 158

原创 AI大模型创作手札简介

AI大模型创作手札

2025-07-15 11:25:21 242

原创 Docker部署MySQL

docker部署MySQL

2024-01-21 20:23:58 544

原创 python安装(windows、mac os、linux)

本文主要记录python各个平台系统(windows、mac os、linux)的安装

2024-01-21 18:48:19 1601

原创 Hive时间相关计算函数

最近在写sql,经常会使用到hive的这些时间计算函数,记录下来,方便以后大家使用

2022-12-01 14:24:34 1443

原创 StructedStreaming消费Kafka数据突然存储不到HDFS

问题描述:StructedStreaming消费Kafka数据存储到HDFS中,以前正常存储,突然就存储不进去了,可以新建文件夹,但是数据写入不进去了。分析:通过流写出到控制台,能消费数据,说明消费正常,但是就是写不进HDFS中,说明写时不能触发HDFS保存。/*** 消费数据,写到控制台*/val query = spark.sql(sql) .writeStream .format("console") .outputMode("append") .start

2022-03-14 09:16:21 2737

原创 大数据面试宝典之JVM篇

哈喽,亲爱的小伙伴们,大家好,我是猿天歌,相信大家都是有一定研发经验,也都有一定调优经历,但是经常在面试时,会有一定的困扰:比如说面试前突击记忆一下JVM原理等理论,然后面试时问你在实际项目中如何进行JVM参数调优、如何解决OOM或者GC等问题,然后一脸茫然。或者说,因为工作职责的分配,很少去接触JVM调优等,然后面试时又经常会被问到。我为什么会出JVM面试题专栏呢?首先,肯定是面试的需要,大家都知道入职一线大厂 不光关注技术的宽广度,还需要考察技术的深度,尤其是现在技术内卷的时代,大部分公司面试时这都是

2021-12-28 18:43:22 1692 1

原创 hive问题-return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

执行hive sql时遇到问题:FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask这个其实一般是个hive内部错误,处理这个问题就需要找日志了;找日志hive.log(比较简略)hive.log ===> 缺省情况下 /tmp/root/hive.log (不然就在你hive-site.conf配置的日志路径里)我这里在/tmp/root目录下去里面看了日志,没

2021-09-23 11:44:26 10200

原创 zookeeper全面总结

1. HBase 简介2. HBase原理3. HBase应用及优化

2021-09-04 14:21:42 1913

原创 HUE安装配置

1. HUE 编译安装2. HUE 集成Hadoop、Hive

2021-08-22 19:26:27 2247

原创 hadoop群起集群脚本

vim hadooponekey.sh#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh had

2021-07-28 10:18:29 402

原创 海量实时广告流平台(DSP广告系统)架构设计与实践

1. 项目背景在互联网上,流量=变现流量变现的⽅式有很多种,不同的产品/平台,变现模式不一样。按大类分,无外乎三类:卖广告、卖产品/服务、增值服务。今天重点说说广告的变现模式,并主要解决两个问题:⼴告从何来?怎样的广告策略才能让流量变现最大化?广告来源可以有很多渠道,分两个大类:直投客户:来⾃自己销售,或代理公司。这⾥的直投是指直接在流量⽅广告系统投放,可以自建也可以使用第三方⼴告系统。在变现上,DAU千万级以上的产品就不用过于发愁了,不管是自建销售队伍还是走代理公司,一般

2021-07-25 12:00:31 8048 1

原创 数据中台建设-学习笔记

数据中台建设-学习笔记

2021-07-14 17:49:09 209

原创 中台建设-学习笔记3

中台建设-学习笔记3

2021-07-14 17:48:16 164

原创 数据中台笔记

数据中台

2021-07-14 17:47:17 188

原创 企业数据中台-数据治理

企业数据中台数据治理

2021-07-14 17:45:41 274

原创 2021大数据十大关键词解读

2021大数据十大关键词解读

2021-07-14 17:43:56 171

原创 NIO原理

网络体系:OSI IEEEIO体系本地(local)IO字节流:InputStream、OutputStream字符流:Reader、Writer网络(远程)IONIO与IO区别:NIO通道和缓冲区:通道(Channel):表示打开IO设备(例如:文件、套接字Socket)的连接。若需要NIO系统,需要获取用于连接IO设备的通道以及用于容纳数据的缓冲区(Buffer)。然后操作缓冲区,对数据进行处理。缓冲区(Buffer):一个用于特定基本数据类型的容器。由java.nio包定义的,所

2021-04-26 20:11:37 236

原创 数据湖 - 学习笔记(一)

1. 企业的数据困扰互联网的兴起和数据孤岛非结构化数据保留原始数据集中存储、成本可控、使用简单,能够支持任意格式输入并拥有分析处理能力2. 数据湖理论2.1写时模式VS读时模式写时模式:数据在写入之前,就需要定义好数据的schema,数据按照schema的定义写入数据库-表:预先定义好表结构,创建好库数据库、数据仓库、数据集市 或者具体的一些框架如:Mysql,Redis, HBase等均是写时模式,即数据在写入之前就需要预先有Schema定义好才可以。读时模式:数据在写

2021-04-22 17:43:51 624 2

原创 数据中台 -- 学习笔记(一)

数据中台:是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,中台还可以根据ThoughtWork首席咨询师给出的定义来解释。“企业级的能力复用平台”;“企业级”划定了中台的范围,区分了单系统的服务化和微服务;“能力”指定了中台的主要承载对象,能力的抽象解释了各种各样的中台的存在;“复用”定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够的关注。中台的兴起,使得人们的目光更多的从平台内部,转到平台对于前台业务的支撑上;“平台”说明了中台的主要形式,区别于应用系统拼凑的方

2021-04-22 17:36:51 3019 2

原创 zookeeper分布式协调组件详解 -- 学习笔记

思考:1、在分布式场景中,怎么确保一定拿到最新的准确值2、在分布式场景中存储一个值,为了保证安全,存储了多份NWR理论: — 抽屉原理N:总节点数W:写入副本数R:读取的副本数保证拿到最新的数据:R+W>N至少读取N-W+1个副本才行Zookeeper每个节点都存储了所有数据的副本,但是zk要求写入成功的节点数达到一半,就认为写入数据成功。如果W大,这次写入成功的概率就越小,读取数据的压力就越小如果W小,R读取的额节点就要多,读取的性能就差所以Zookeeper查询效率高,写

2021-04-22 17:21:34 440

原创 Kafka -- 从基础到高级

1、为什么有消息系统1、解耦合2、异步处理例如电商平台,秒杀活动。一般流程会分为:1:风险控制、2:库存锁定、3:生成订单、4:短信通知、5:更新数据通过消息系统将秒杀活动业务拆分开,将不急需处理的业务放在后面慢慢处理;流程改为:1:风险控制、2:库存锁定、3:消息系统、4:生成订单、5:短信通知、6:更新数据3、流量的控制3.1 网关在接受到请求后,就把请求放入到消息队列里面3.2 后端的服务从消息队列里面获取到请求,完成后续的秒杀处理流程。然后再给用户返回结果。优点:控制了流量

2021-04-19 11:27:24 5209 11

原创 Flink1.12 -- 高级API

1. Flink四大基石Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。Checkpoint这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。 Chandy-Lamport算法实际上在1985年的时候已经被提出来,但并没有被很广泛的应用,而Flink则把这个算法发扬光大了。 Spark最近在实现Continue streaming,Conti

2021-03-05 17:39:52 901

原创 Flink1.12 -- 流批一体API

1. 流处理相关概念1.1 数据的时效性 日常工作中,我们一般会先把数据存储在表,然后对表的数据进行加工、分析。既然先存储在表中,那就会涉及到时效性概念。 如果我们处理以年,月为单位的级别的数据处理,进行统计分析,个性化推荐,那么数据的的最新日期离当前有几个甚至上月都没有问题。但是如果我们处理的是以天为级别,或者一小时甚至更小粒度的数据处理,那么就要求数据的时效性更高了。比如:对网站的实时监控、对异常日志的监控,这些场景需要工作人员立即响应,这样的场景下,传统的统一收集数据,再存到数据库中,再取出

2021-03-05 15:29:16 1388 3

原创 Flink1.12 - 概述、安装部署及快速入门

1. Flink概述1.1 Flink官方介绍flink官网地址1.2 Flink组件栈一个计算框架要有长远的发展,必须打造一个完整的 Stack。只有上层有了具体的应用,并能很好的发挥计算框架本身的优势,那么这个计算框架才能吸引更多的资源,才会更快的进步。所以 Flink 也在努力构建自己的 Stack。Flink分层的组件栈如下图所示:每一层所包含的组件都提供了特定的抽象,用来服务于上层组件。各层详细介绍:物理部署层:Flink 支持本地运行、能在独立集群或者在被 YARN 管理

2021-03-05 14:00:31 3139 4

原创 CDH及软件安装部署

1. Linux配置优化1.1 Swappiness虚拟内存swappiness是Linux的一个内核参数,控制系统在使用swap虚拟内存时,内存使用的相对权重。swappiness参数值可设置范围在0到100之间。 此参数值越低,就会让Linux系统尽量少用swap虚拟内存分区,多用内存;参数值越高就是反过来,使内核更多的去使用swap空间。推荐设置为10。根据服务器硬件配置会有变化。临时生效:sysctl -w vm.swappiness=10永久生效:echo “vm.swappines

2020-12-18 13:40:37 869

原创 impala

1. impala基本介绍2. Impala与hive的关系3. Impala与hive的异同4. Impala的优缺点5. Impala支持的文件格式6. Impala的架构7. Impapla如何执行查询8. 浏览器页面访问

2020-12-02 12:34:54 498

原创 数仓建模及ETL基本过程笔记(2020.11.26更新)

一、数仓建设步骤及宏观逻辑1.1 范式1.2 常见的数仓建模方法1.3 维度建模的步骤二、事实表技术概念2.1 事实表结构2.2 可加、半可加、不可加事实2.3 常见的事实表三、维度表技术概念3.1 常见的维度键3.2 常见的维度类型四、ETL基本过程4.1 ETL前期的需求整合4.2 将数据插入数仓的3个子系统4.3 数据清洗的5个子系统4.4 发布数据的13个子系统4.5 ETL管理相关的13个子系统4.6 ETL系统设计和开发的十个步骤五、企业数据仓库总线架构

2020-11-25 08:28:25 2106

原创 大数据面试题

Hive1. hive的函数 内置函数: 数学函数: 取整函数:round(double a) 返回double类型的整数值部分(遵循四舍五入) 指定精度取整函数:round(double a, int d) 返回指定精度d的double类型 向下取整函数:floor(double a) 返回等于或者小于该double变量的最大的整数 向上取整函数:ceil(double a) 返回等于或者大于该double变量的最小的整数 取随机数函数:rand(),rand(int

2020-11-11 20:36:57 104

原创 ClickHouse从0~1详细教程

1. ClickHouse概述2. ClickHouse的应用场景3. ClickHouse的使用案例4. ClickHouse快速入门5. ClickHouse的数据类型支持6. ClickHouse的引擎7. ClickHouse的SQL语法8. ClickHouse的SQL函数9. Clickhouse中update/delete的使用10. ClickHouse的使用

2020-11-10 09:52:15 2978

原创 工作流调度之 -- Azkaban

1. 工作流调度2. Azkaban调度器3. 项目实战

2020-11-07 09:45:24 906 1

原创 Kudu(2) -- 数据模型、原理与优化

1. 表与schema2. kudu的底层数据模型3. Tablet的发现过程4. Kudu读写更新原理5. Kudu的优化

2020-11-04 17:47:14 1213 2

原创 数仓简介及hive全面总结

1. 数据仓库主要特征2. 数据仓库(OLAP)与数据库(OLTP)区别3. 数据仓库的分层4. 数据仓库之ETL5. Hive的特点6. Hive架构7. Hive的安装模式8. Hive的交互方式9. Hive各种表10. ORDER BY、Sort By、Distribute By、Cluster By区别:11. Hive函数:13. Hive的数据存储格式:14. Hive调优:15. hive小文件过多问题

2020-11-02 17:57:31 1492

原创 Kudu从0~1详解

1. 为什么使用Kudu作为存储介质2. Kudu入门2.1 Kudu介绍2.2 Java代码操作Kudu2.3 Spark操作Kudu

2020-10-31 21:54:42 1831 4

原创 Canal从0~1详细教程

1. Canal简介2. Mysql的主备复制原理3. Canal的工作原理4. Canal的架构5. Canal安装部署6. Canal采集业务数据到Kafka7. 初始化业务数据

2020-10-30 12:55:01 616 1

ArcGIS+Engine+C#实例开发教程

为Engine+C#爱好者提供,相互交流

2015-01-04

DirectX-Repair

directx修复工具

2024-01-21

Mac版 - SecureCRT_9.0.1_(2451.141440)__macw.dmg

Mac版SecureCRT_9.0.1

2021-04-23

SecureFX_9.0.1_(2451.141440)__macwk.dmg

SecureFX_9.0.1_(2451.141440)__macwk.dmg

2021-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除