柳小葱-优快云博客

原创 Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed”

2024-09-07 12:46:51 4068 1

原创 Tensorflow 入门基础——向LLM靠近一小步

除了初始化为全0，或者全1的张量之外，有时也需要全部初始化为某个自定义数值的张量，例如将张量的数值全量初始化为-1等。通过tf.fill(shape,value)，可以创建全自定义数值value的张量，形状有shape参数制定。创建所有元素为-1的标量：tf.fill([],-1) #创建-1的标量创建所有元素为-1的向量tf.fill([1],-1)#创建-1的向量创建所有元素为99的向量tf.fill([2,2],99)#创建2行2列，元素全为99的矩阵。

2024-01-21 00:00:18 1675

原创数据产品读书笔记——数据产品经理和其他角色的关系

🍊上一节我们初步对数据产品经理的角色有了初步的了解，今天我们继续学习数据产品经理与其他角色之间的关系。🍀当我们处在一个组织中，就一定会有与其他角色之间的关系问题，比如与其他角色的边界，合作方式等。

2023-10-09 00:06:16 931

原创数据产品读书笔记——认识数据产品经理

🌻大家可能听说的更多是产品经理这个角色，对数据产品经理可能或多或少了解一些，但又不能准确的描述数据产品经理的主要职能和与其他产品的不同，因此通过读一些书来对数据产品经理有一个准确且全面的认知。

2023-10-08 00:03:28 1044

原创苦练基本功——数据仓库

数据仓库是一个以主题为导向、集成、非易失性、时间一致的数据集合，用于支持企业决策者进行分析、报表和数据挖掘等活动。它通过对企业各个业务领域的数据进行整合和清洗，将其转化为可理解、易分析的数据，从而为决策者提供决策所需的信息和分析基础。数据仓库是一个面向主题的、集成的、稳定的、历史数据的集合，它包括多个来源系统的数据，这些数据被集成到一个统一的模型中，通过数据清洗、转换和整合，使得数据可以被分析、查询和报告。数据仓库的主要目的是为了支持决策，因此它的设计和建设需要遵循一定的原则和方法。

2023-05-01 11:36:07 3269 2

原创 mysql之窗口函数练习

窗口函数练习，都很经典，大家有其他的解题思路可以一起分享。

2023-03-20 23:49:36 1224 1

原创 hive中的SQL执行原理

Hive 是一个基于 Hadoop 的数据仓库工具，用于处理大规模的结构化和半结构化数据。Hive 的主要目的是提供一种类 SQL 的语言，称为 HiveQL（或 HQL），以便用户可以方便地处理数据，无需编写复杂的 MapReduce 任务。Hive 的基本原理是将 SQL 查询转换为 MapReduce 任务，然后在 Hadoop 上执行这些任务以处理数据。

2023-03-17 10:31:33 1450 1

原创 mysql数据库介绍

💜今天对mysql的一些基础概念进行讲诶横扫，如概念、特点、优势、发展历史等等。对之前内容感兴趣的同学可以参考👇：🎾让我们开始今日份的学习吧！

2023-03-15 22:17:34 13486 5

原创 mysql学习之数据系统概述

☀️马上要成为打工人，这几天把前面的知识都捡了捡，发现自己对关系数据库这块的学习还有所缺失，于是本章开始学习mysql。

2023-03-11 16:03:44 1978 4

原创启发式算法之蚁群算法

蚁群优化算法 (Ant Colony Opt imization, ACO)作为一种全局最优化搜索方法，同遗传算法一样来源于自然界的启示，并有着良好的搜索性能。不同的是，蚁群算法通过模拟蚂蚁觅食的过程，是一种天然的解决离散组合优化问题的方法，在解决典型组合优化问题，如旅行商问题 (TSP ) 、车辆路径问题 CVRP ) 、车间作业调度问题 CJSP) 时具有明显的优越性。目前针对蚁群算法在数学理论、算法改进、实际应用等方面的研究是计算智能领域的热点，取得了一定的进展。

2022-10-23 00:43:18 2656 3

原创 2022秋招蚂蚁金服数据研发一面

蚂蚁金服的面试，他来了！

2022-10-18 22:50:49 2228

原创 python数据分析之pandas数据合并

🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作，类似于SQL中的内连接、外连接的操作.

2022-10-12 22:22:20 7387

原创 2023秋招的第一个意向书

2023校招字节意向书来了！

2022-09-12 22:20:35 1750 3

原创 2023秋招——快手数据研发一、二面面经

2023届秋招面试之快手数据研发一、二面面经。

2022-09-06 02:11:45 3615

原创 2023秋招——大数据研发工程师提前批一面

2023秋招百度提前批面经复盘，刚出炉，还是热乎的。

2022-08-21 14:59:18 2181 4

原创大数据方向面试问题

本篇文章总结一下一些常见的数据研发容易碰见的面试题（尤其是应届生），将面试题分为了数据仓库、hadoop、hive、spark几个模块，问题和答案都列举出来了，供大家参考。

2022-08-08 23:52:23 1928

原创数据仓库入门介绍

本篇文章将从初学者的角度，来介绍一下什么是数据仓库，以及数据仓库的理论基础，帮助大家快速了解这个概念。

2022-06-26 21:01:30 1497 5

原创大数据之kafka消费者

🍒今天是端午节，先祝大家端午节快乐！上一期我们学习了kafka的broker部分主要介绍了kafka中的副本、kafka文件的存储的原理，以及kafka的高效读写的保证，今天我们来介绍kafka中的消费者原理，对往期内容感兴趣的小伙伴可以参考👇：🍑消费者作为kafka中最重要的部分，如何从主题中消费数据是我们重点关注的地方，话不多说，让我们开始今日份的学习吧！通常来说，消费者消费数据的方式有2种，一种是拉取数据的方式，另一种是broker主动推数据。kafka中，消费者采用的消费数据的方式是拉取数据...

2022-06-03 23:02:07 3316 3

原创大数据之kafka Broker的工作流程

🐳在前面的章节中，我们学习了kafka的生产者的原理和数据一致性保证，今天我们来学习Broker的原理，对以往内容感兴趣的小伙伴可以参考👇:链接: kafka入门基础.链接: 大数据之kafka生产者原理.链接: 大数据之kafka生产者数据可靠性保障🌟这一章节，主要是介绍kafka Broker的相关原理，希望大家能够了解broker是如何存储数据的，如何保证数据的存储安全，如何保证数据的有效性等。话不多说，让我们开始今日份的学习吧😄。本文目录1. zookeeper中的kafka信息2.

2022-05-28 14:54:36 1599 2

原创大数据之kafka生产者数据可靠性保障

介绍了kafka生产者数据一致性保障的原理，供大家参考。

2022-05-14 18:45:07 1315 4

原创大数据之kafka生产者原理

🌿在前面的介绍中，我们介绍了kafka的基础架构主要包含以下几个部分：生产者、消费者、消费者组、 broker、Topic、Replica(副本)、leader、follower。今天我们来介绍其中的消息生产者。对往期内容感兴趣的同学可以参考👇：链接: kafka入门基础.🌰废话不多说，让我们开始今日份的学习吧。目录1. 生产者消息发送1.1 发送原理2. 生产者同步与异步发送2.1 同步发送2.2 异步发送3. 生产者分区4. 生产者吞吐量建议5. 参考资料1. 生产者消息发送1.1 发送

2022-05-02 15:13:00 2728 9

原创 Vmware的安装并启动虚拟机

🍒电脑重装系统之后很多都软件都没了，今天来安装一下Vmware，用来搭建大数据相关的平台。

2022-04-17 08:30:00 2021

原创 leetcode中的python技巧

🎮本博客会不断记录leetcode刷题中的一些常用的函数，可以让大家不用导包，快速解决一些编程中的问题。

2022-04-16 19:31:03 1418 2

原创 python遗传算法之单/多目标规划问题

学习python遗传算法用来解决带约束的单目标规划和带约束条件的多目标规划问题。

2022-04-16 19:28:58 11787 11

原创 python遗传算法之geatpy学习

使用python语言对遗传算法进行学习，主要是通过geatpy包的内容，对遗传算法的概念和编码矩阵方式进行了解。学习使用遗传算法解题的框架。

2022-04-10 19:14:15 11865 7

原创百度用户增长SQL面试题

🌹今天我们来刷点sql题，先说一下这几道题的侧重点吧，主要有常考点留存率、连续登陆天数的问题，以及其他像用户分级、最大观看时长的统计。对往期内容感兴趣的同学可以参考如下内容👇:链接: 牛客SQL大厂真题——某音短视频.链接: 京东数据分析SQL面试题.🌰话不多说，让我们开始今日份的学习吧。目录1. 题目介绍2. 统计人均浏览文章时长3. 每篇文章同一时刻最大在看人数4. 新用户的次日留存率5. 统计活跃间隔对用户分级结果6. 每天的日活数及新用户占比7. 连续签到领金币1. 题目介绍这里有一

2022-04-09 14:19:54 3591 2

原创 macbook Intel版本安装anaconda和配置镜像源

今天我们来给新电脑安装上一些开发工具，因为我的MacBook是 intel 版本的，直接安装anaconda即可，如果是m1芯片的版本，可参考下面教程：链接: link.最后说一句，支持正版，让我们开始今日份的学习吧。目录1. 下载anaconda2. 安装anaconda2.1 一直点击继续2.2 选择安装位置（可选）2.3 安装中2.4 选择是否安装pycharm（我这里不安装）2.5 安装完毕3. 启动anaconda3.1 点击图标，进行启动3.2 添加国内镜像源4. 测试运行效果4.1

2022-04-08 18:58:34 3094 1

原创 spark学习之作业优化

💅在前面的spark优化学习中，我们学习了spark的语法、资源调度、sql语法优化和数据倾斜的技巧，今天我们来学习spark中的作业优化，也就是job优化。对往期内容感兴趣的同学可以参考👇:链接: spark学习之处理数据倾斜.链接: spark学习之sparksql语法优化.链接: spark学习之资源调度.链接: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🙈关于spa

2022-04-07 16:53:11 1246 1

原创 spark学习之处理数据倾斜

大数据面试，遇见数据倾斜不会答？最全的数据倾斜总结来教你如何解决它。

2022-03-27 21:16:39 3356 6

原创 spark学习之sparksql语法优化

🐹上一章的学习中，我们学习了spark的资源调度进行了学习，今天我们要学习的内容是sparksql语法优化部分，对往期内容感兴趣的同学可以参考👇:上一篇: spark学习之资源调度.上一篇: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🌱sparksql在大数据开发中使用较多，也是优化较好的处理数据的方式，在对spark的优化过程中，百分之50的优化都是对sql的优化，由此可见s

2022-03-26 11:02:43 3563 3

原创 spark学习之资源调度

本文主要介绍从spark的内存、持久化、cpu的角度介绍spark的资源调度的情况。

2022-03-25 12:33:02 2600 5

原创 spark学习之执行计划explain

本文主要介绍了spark的执行计划explain的使用方法，以及对逻辑执行计划和物理执行计划进行了说明，让大家更加了解spark的运行原理。

2022-03-23 21:52:15 6933 3

原创大数据之维度建模中的重要概念

🌸本篇博客，是在经历了小10轮大数据开发面试后，博主对大数据建模中，比较重要的知识点进行了梳理，截取了书中一些常考的概念，供大家参考。

2022-03-18 23:50:50 3152 1

原创 2022字节跳动数仓实习面经（2、3面、hr面）

字节已经给offer了，今天接着上一篇抖音电商部门的数仓实习生面经，这次面试是2、3面的总结，就放在一起吧。对往期内容感兴趣的同学可以查看如下内容👇:2022字节一面面经: 2022字节跳动数据仓库实习面经.2022 字节被拒面经: 2022暑期实习字节跳动数据研发面试经历.2022百度面经: 2022百度大数据开发工程师实习面试经历.下面我将对2，3面的问题进行一个总结。目录1. 二面问题1.1 二面总结2. 三面问题2.1 面试总结3.hr面3.1 面试总结4. 总结1. 二面问题

2022-03-17 19:46:32 7108 24

原创 2022字节跳动数据仓库实习面经

先和大家说一下情况，3月4号面试的字节跳动数据研发岗位直接把我挂了，我满脸疑惑，但是抱着学习和提升自我的心态，打电话问问hr，像看看面试官给我面试的评价，hr说，就两行，第一句肯定，第二句说我专业知识不够。以下是我上次的面试经历👇:链接: 2022暑期实习字节跳动数据研发面试经历.链接: 2022百度大数据开发工程师实习面试经历....

2022-03-11 21:36:04 7073 14

原创 Flink学习之容错机制和状态一致性

☀️在前天的学习中，我们学习了flink中的几个重要概念：时间、水位线和状态，今天我们继续学习flink中的两个重要机制：容错机制和状态一致性保证。对往期内容感兴趣的同学可以参考👇:链接: Flink学习中之time、watermark、state.链接: Flink实战之电商用户行为实时分析.链接: Flink学习之flink sql.链接: Flink学习之Table API（python版本）.链接: Flink学习之DataStream API（python版本）.🌰flink的容错

2022-03-08 14:40:20 2762 2

原创 Flink学习中之time、watermark、state

🌿今天我们来了解一下flink中的几个重要基础概念：time、watermark、state，这是flink流处理中实现数据流执行速度快和结果正确的要点，对往期内容感兴趣的同学可以看下面👇：链接: Flink学习专辑.🌰其实在前面的章节中，我们也介绍了一些时间、状态的概念，但不够深入，本篇博客将从flink的运行机制上说明这些概念在流处理框架中的作用。目录1. Time2. Watermark2.1 Watermark的作用2.2 Watermark的特点2.3 Watermark的案例2.3

2022-03-06 17:37:00 2153 5

原创 2022暑期实习字节跳动数据研发面试经历

🌟今天下午面试两家，字节跳动数据研发一面和百度三面，百度那边突然不面了，hr说下个星期再看看，是直接过了还是再来一面，需要和部门商量一下，先来总结一下字节跳动的面试吧。废话，对百度面试感兴趣的同学可以参考如下文章：链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并发、core数和分区的关系.👊废话不多上，先上图，这里有个小插曲啊，我简历上的邮箱写错了，赶紧打电话给hr小姐姐，帮我重新发了一下面试链接，小姐姐人真好,给她点赞👍目录1. 一面问题2. 面试感觉1

2022-03-04 19:22:50 5490 4

原创 spark学习之并行度、并发、core数和分区的关系

👊上次的百度面试遇到了关于spark的并发数的问题，今天我们就来将这些问题都一并解决一下：链接: 2022百度大数据开发工程师实习面试经历.🍀我将先对并行和并发的基本定义开始讲起，然后介绍spark中是如何控制并行和并发的，以及这些和cpu核数、分区数有何关系。1.并行和并发并行：并发：...

2022-03-03 13:47:52 7728 6

原创 2022百度大数据开发工程师实习面试经历

2022年2月28日，我将我改了4遍的简历上传至boss上，还没开始投递，但收到来自百度的hr消息，于是发了一下简历，没过几天便来自百度的面试邀请,直接上图吧。实习面试：1. 一面问题2. 二面问题3. 总结1. 一面问题自我介绍你博客的电商分析项目中，我看你用到了很多组件，你能说说这些组件都是在干什么吗？了解hadoop的组件吗？说一说yarn在hadoop中的位置，以及执行作业时yarn的作用？你刚才提到es，你使用过es吗？了解es的原理吗？你会scala吗？说一下mapreduc

2022-03-02 19:12:48 5854 18

docker安装flink sql组件

sqlite3数据库应用程序

空空如也