- 博客(229)
- 资源 (2)
- 收藏
- 关注
原创 Python安装llama库出错“metadata-generation-failed”
Python安装llama库出错“metadata-generation-failed”
2024-09-07 12:46:51
4068
1
原创 Tensorflow 入门基础——向LLM靠近一小步
除了初始化为全0,或者全1的张量之外,有时也需要全部初始化为某个自定义数值的张量,例如将张量的数值全量初始化为-1等。通过tf.fill(shape,value),可以创建全自定义数值value的张量,形状有shape参数制定。创建所有元素为-1的标量:tf.fill([],-1) #创建-1的标量创建所有元素为-1的向量tf.fill([1],-1)#创建-1的向量创建所有元素为99的向量tf.fill([2,2],99)#创建2行2列,元素全为99的矩阵。
2024-01-21 00:00:18
1675
原创 数据产品读书笔记——数据产品经理和其他角色的关系
🍊上一节我们初步对数据产品经理的角色有了初步的了解,今天我们继续学习数据产品经理与其他角色之间的关系。🍀当我们处在一个组织中,就一定会有与其他角色之间的关系问题,比如与其他角色的边界,合作方式等。
2023-10-09 00:06:16
931
原创 数据产品读书笔记——认识数据产品经理
🌻大家可能听说的更多是产品经理这个角色,对数据产品经理可能或多或少了解一些,但又不能准确的描述数据产品经理的主要职能和与其他产品的不同,因此通过读一些书来对数据产品经理有一个准确且全面的认知。
2023-10-08 00:03:28
1044
原创 苦练基本功——数据仓库
数据仓库是一个以主题为导向、集成、非易失性、时间一致的数据集合,用于支持企业决策者进行分析、报表和数据挖掘等活动。它通过对企业各个业务领域的数据进行整合和清洗,将其转化为可理解、易分析的数据,从而为决策者提供决策所需的信息和分析基础。数据仓库是一个面向主题的、集成的、稳定的、历史数据的集合,它包括多个来源系统的数据,这些数据被集成到一个统一的模型中,通过数据清洗、转换和整合,使得数据可以被分析、查询和报告。数据仓库的主要目的是为了支持决策,因此它的设计和建设需要遵循一定的原则和方法。
2023-05-01 11:36:07
3269
2
原创 hive中的SQL执行原理
Hive 是一个基于 Hadoop 的数据仓库工具,用于处理大规模的结构化和半结构化数据。Hive 的主要目的是提供一种类 SQL 的语言,称为 HiveQL(或 HQL),以便用户可以方便地处理数据,无需编写复杂的 MapReduce 任务。Hive 的基本原理是将 SQL 查询转换为 MapReduce 任务,然后在 Hadoop 上执行这些任务以处理数据。
2023-03-17 10:31:33
1450
1
原创 mysql数据库介绍
💜今天对mysql的一些基础概念进行讲诶横扫,如概念、特点、优势、发展历史等等。对之前内容感兴趣的同学可以参考👇:🎾让我们开始今日份的学习吧!
2023-03-15 22:17:34
13486
5
原创 mysql学习之数据系统概述
☀️马上要成为打工人,这几天把前面的知识都捡了捡,发现自己对关系数据库这块的学习还有所缺失,于是本章开始学习mysql。
2023-03-11 16:03:44
1978
4
原创 启发式算法之蚁群算法
蚁群优化算法 (Ant Colony Opt imization, ACO)作为一种全局最优化搜索方法 , 同遗传算法一样来源于自然界的启示,并有着良好的搜索性能。不同的是,蚁群算法通过模拟蚂蚁觅食的过程,是一种天然的解决离散组合优化问题的方法,在解决典型组合优化问 题,如旅行商问题 (TSP ) 、车辆路径问题 CVRP ) 、车间作业调度问题 CJSP) 时具有明显的优越性。目前针对蚁群算法在数学理论、算法改进、实际应用等方面的研究是计算智能领域的热点,取得了一定的进展。
2022-10-23 00:43:18
2656
3
原创 python数据分析之pandas数据合并
🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作,类似于SQL中的内连接、外连接的操作.
2022-10-12 22:22:20
7387
原创 大数据方向面试问题
本篇文章总结一下一些常见的数据研发容易碰见的面试题(尤其是应届生),将面试题分为了数据仓库、hadoop、hive、spark几个模块,问题和答案都列举出来了,供大家参考。
2022-08-08 23:52:23
1928
原创 大数据之kafka消费者
🍒今天是端午节,先祝大家端午节快乐!上一期我们学习了kafka的broker部分主要介绍了kafka中的副本、kafka文件的存储的原理,以及kafka的高效读写的保证,今天我们来介绍kafka中的消费者原理,对往期内容感兴趣的小伙伴可以参考👇:🍑消费者作为kafka中最重要的部分,如何从主题中消费数据是我们重点关注的地方,话不多说,让我们开始今日份的学习吧!通常来说,消费者消费数据的方式有2种,一种是拉取数据的方式,另一种是broker主动推数据。kafka中,消费者采用的消费数据的方式是拉取数据...
2022-06-03 23:02:07
3316
3
原创 大数据之kafka Broker的工作流程
🐳在前面的章节中,我们学习了kafka的生产者的原理和数据一致性保证,今天我们来学习Broker的原理,对以往内容感兴趣的小伙伴可以参考👇:链接: kafka入门基础.链接: 大数据之kafka生产者原理.链接: 大数据之kafka生产者数据可靠性保障🌟这一章节,主要是介绍kafka Broker的相关原理,希望大家能够了解broker是如何存储数据的,如何保证数据的存储安全,如何保证数据的有效性等。话不多说,让我们开始今日份的学习吧😄。本文目录1. zookeeper中的kafka信息2.
2022-05-28 14:54:36
1599
2
原创 大数据之kafka生产者原理
🌿在前面的介绍中,我们介绍了kafka的基础架构主要包含以下几个部分:生产者、消费者、消费者组、 broker、Topic、Replica(副本)、leader、follower。今天我们来介绍其中的消息生产者。对往期内容感兴趣的同学可以参考👇:链接: kafka入门基础.🌰废话不多说,让我们开始今日份的学习吧。目录1. 生产者消息发送1.1 发送原理2. 生产者同步与异步发送2.1 同步发送2.2 异步发送3. 生产者分区4. 生产者吞吐量建议5. 参考资料1. 生产者消息发送1.1 发送
2022-05-02 15:13:00
2728
9
原创 leetcode中的python技巧
🎮本博客会不断记录leetcode刷题中的一些常用的函数,可以让大家不用导包,快速解决一些编程中的问题。
2022-04-16 19:31:03
1418
2
原创 python遗传算法之geatpy学习
使用python语言对遗传算法进行学习,主要是通过geatpy包的内容,对遗传算法的概念和编码矩阵方式进行了解。学习使用遗传算法解题的框架。
2022-04-10 19:14:15
11865
7
原创 百度用户增长SQL面试题
🌹今天我们来刷点sql题,先说一下这几道题的侧重点吧,主要有常考点留存率、连续登陆天数的问题,以及其他像用户分级、最大观看时长的统计。对往期内容感兴趣的同学可以参考如下内容👇:链接: 牛客SQL大厂真题——某音短视频.链接: 京东数据分析SQL面试题.🌰话不多说,让我们开始今日份的学习吧。目录1. 题目介绍2. 统计人均浏览文章时长3. 每篇文章同一时刻最大在看人数4. 新用户的次日留存率5. 统计活跃间隔对用户分级结果6. 每天的日活数及新用户占比7. 连续签到领金币1. 题目介绍这里有一
2022-04-09 14:19:54
3591
2
原创 macbook Intel版本安装anaconda和配置镜像源
今天我们来给新电脑安装上一些开发工具,因为我的MacBook是 intel 版本的,直接安装anaconda即可,如果是m1芯片的版本,可参考下面教程:链接: link.最后说一句,支持正版,让我们开始今日份的学习吧。目录1. 下载anaconda2. 安装anaconda2.1 一直点击继续2.2 选择安装位置(可选)2.3 安装中2.4 选择是否安装pycharm(我这里不安装)2.5 安装完毕3. 启动anaconda3.1 点击图标,进行启动3.2 添加国内镜像源4. 测试运行效果4.1
2022-04-08 18:58:34
3094
1
原创 spark学习之作业优化
💅在前面的spark优化学习中,我们学习了spark的语法、资源调度、sql语法优化和数据倾斜的技巧,今天我们来学习spark中的作业优化,也就是job优化。对往期内容感兴趣的同学可以参考👇:链接: spark学习之处理数据倾斜.链接: spark学习之sparksql语法优化.链接: spark学习之资源调度.链接: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🙈关于spa
2022-04-07 16:53:11
1246
1
原创 spark学习之sparksql语法优化
🐹上一章的学习中,我们学习了spark的资源调度进行了学习,今天我们要学习的内容是sparksql语法优化部分,对往期内容感兴趣的同学可以参考👇:上一篇: spark学习之资源调度.上一篇: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🌱sparksql在大数据开发中使用较多,也是优化较好的处理数据的方式,在对spark的优化过程中,百分之50的优化都是对sql的优化,由此可见s
2022-03-26 11:02:43
3563
3
原创 spark学习之执行计划explain
本文主要介绍了spark的执行计划explain的使用方法,以及对逻辑执行计划和物理执行计划进行了说明,让大家更加了解spark的运行原理。
2022-03-23 21:52:15
6933
3
原创 大数据之维度建模中的重要概念
🌸本篇博客,是在经历了小10轮大数据开发面试后,博主对大数据建模中,比较重要的知识点进行了梳理,截取了书中一些常考的概念,供大家参考。
2022-03-18 23:50:50
3152
1
原创 2022字节跳动数仓实习面经(2、3面、hr面)
字节已经给offer了,今天接着上一篇抖音电商部门的数仓实习生面经,这次面试是2、3面的总结,就放在一起吧。对往期内容感兴趣的同学可以查看如下内容👇:2022字节一面面经: 2022字节跳动数据仓库实习面经.2022 字节被拒面经: 2022暑期实习字节跳动数据研发面试经历.2022百度面经: 2022百度大数据开发工程师实习面试经历.下面我将对2,3面的问题进行一个总结。目录1. 二面问题1.1 二面总结2. 三面问题2.1 面试总结3.hr面3.1 面试总结4. 总结1. 二面问题
2022-03-17 19:46:32
7108
24
原创 2022字节跳动数据仓库实习面经
先和大家说一下情况,3月4号面试的字节跳动数据研发岗位直接把我挂了,我满脸疑惑,但是抱着学习和提升自我的心态,打电话问问hr,像看看面试官给我面试的评价,hr说,就两行,第一句肯定,第二句说我专业知识不够。以下是我上次的面试经历👇:链接: 2022暑期实习字节跳动数据研发面试经历.链接: 2022百度大数据开发工程师实习面试经历....
2022-03-11 21:36:04
7073
14
原创 Flink学习之容错机制和状态一致性
☀️在前天的学习中,我们学习了flink中的几个重要概念:时间、水位线和状态,今天我们继续学习flink中的两个重要机制:容错机制和状态一致性保证。对往期内容感兴趣的同学可以参考👇:链接: Flink学习中之time、watermark、state.链接: Flink实战之电商用户行为实时分析.链接: Flink学习之flink sql.链接: Flink学习之Table API(python版本).链接: Flink学习之DataStream API(python版本).🌰flink的容错
2022-03-08 14:40:20
2762
2
原创 Flink学习中之time、watermark、state
🌿今天我们来了解一下flink中的几个重要基础概念:time、watermark、state,这是flink流处理中实现数据流执行速度快和结果正确的要点,对往期内容感兴趣的同学可以看下面👇:链接: Flink学习专辑.🌰其实在前面的章节中,我们也介绍了一些时间、状态的概念,但不够深入,本篇博客将从flink的运行机制上说明这些概念在流处理框架中的作用。目录1. Time2. Watermark2.1 Watermark的作用2.2 Watermark的特点2.3 Watermark的案例2.3
2022-03-06 17:37:00
2153
5
原创 2022暑期实习字节跳动数据研发面试经历
🌟今天下午面试两家,字节跳动数据研发一面和百度三面,百度那边突然不面了,hr说下个星期再看看,是直接过了还是再来一面,需要和部门商量一下,先来总结一下字节跳动的面试吧。废话,对百度面试感兴趣的同学可以参考如下文章:链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并发、core数和分区的关系.👊废话不多上,先上图,这里有个小插曲啊,我简历上的邮箱写错了,赶紧打电话给hr小姐姐,帮我重新发了一下面试链接,小姐姐人真好,给她点赞👍目录1. 一面问题2. 面试感觉1
2022-03-04 19:22:50
5490
4
原创 spark学习之并行度、并发、core数和分区的关系
👊上次的百度面试遇到了关于spark的并发数的问题,今天我们就来将这些问题都一并解决一下:链接: 2022百度大数据开发工程师实习面试经历.🍀我将先对并行和并发的基本定义开始讲起,然后介绍spark中是如何控制并行和并发的,以及这些和cpu核数、分区数有何关系。1.并行和并发并行:并发:...
2022-03-03 13:47:52
7728
6
原创 2022百度大数据开发工程师实习面试经历
2022年2月28日,我将我改了4遍的简历上传至boss上,还没开始投递,但收到来自百度的hr消息,于是发了一下简历,没过几天便来自百度的面试邀请,直接上图吧。实习面试:1. 一面问题2. 二面问题3. 总结1. 一面问题自我介绍你博客的电商分析项目中,我看你用到了很多组件,你能说说这些组件都是在干什么吗?了解hadoop的组件吗?说一说yarn在hadoop中的位置,以及执行作业时yarn的作用?你刚才提到es,你使用过es吗?了解es的原理吗?你会scala吗?说一下mapreduc
2022-03-02 19:12:48
5854
18
docker安装flink sql组件
2022-01-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人