- 博客(17)
- 收藏
- 关注
原创 医疗花费预测——协方差矩阵和热力图
在统计学中,协方差(Covariance)是用来衡量两个随机变量之间的变动趋势是否一致的指标。协方差为正表示两个变量正向关系;协方差为负表示两个变量反向关系;协方差为0表示两个变量没有线性关系。协方差可以通过以下公式计算:其中,和是两个随机变量,和是它们的观测值,和分别是和的均值,是样本数量。协方差矩阵是一个的矩阵,其中是变量的数量。协方差矩阵的第个元素表示第个变量和第个变量之间的协方差。假设我们有个一维随机变量。如果我们将它们按列组成一个的矩阵。
2024-12-11 18:15:02
1027
原创 数据分析与可视化(工具篇)——PIL使用指北
Pillow 是 Python Imaging Library(PIL)的一个分支,它提供了广泛的图像处理功能,包括图像缩放、旋转、剪裁、颜色转换、滤镜效果等。Pillow 库具有简单易用的 API,可以方便地对图像进行操作。
2024-09-12 00:59:47
904
原创 数据分析与可视化(工具篇)——Scipy 使用指北
包含各种专用于科学计算中常见问题的工具箱。其不同的子模块对应不同的应用,如插值、积分、优化、图像处理、统计、特殊函数等。可以与其他标准科学计算库进行比较,例如 GSL(用于 C 和 C++ 的 GNU 科学库)或 Matlab 的工具箱。scipy是 Python 中科学计算的核心包;它旨在有效地在numpy 数组上运行,以便 numpy 和 scipy 共同使用。scipy 非常丰富,这里我们只介绍一些重点部分,帮助我们了解如何将scipy用于科学计算。它们都依赖于,但大多是相互独立的。
2024-09-12 00:15:44
1790
原创 Datawhale AI 夏令营-动手学大模型应用全栈开发-Task1
为了对人类语言的内在规律进行建模,研究者们提出使用语言模型(language model)来准确预测词序列中。
2024-08-11 22:55:55
933
原创 Datawhale AI 夏令营-大模型微调-Task1
在教育领域,传统的出题方式通常依赖于教师的个人经验和教学大纲的要求,这种方式虽然稳定可靠,但存在一些局限性。例如,传统出题可能缺乏足够的多样性和个性化,无法满足不同学习能力和兴趣学生的需要。同时,教师在出题时需要投入大量的时间和精力,这个过程往往较为繁琐且效率不高。随着人工智能技术的快速发展,大模型正成为推动个性化学习与智能教育的关键力量。特别是在语言学科的教学中,利用大模型完成Question Answer Generation (QAG)过程可以有效赋能QA题型的出题流程。
2024-08-11 12:56:52
382
原创 Task02 Datawhale AI夏令营-AI极端降水预报挑战赛
通过task2的学习,深入理解了使用PyTorch和深度学习搭建预测任务的流程,掌握了时间序列预测的基础知识,并对伏羲大模型在气象预报中的作用有了初步了解。
2024-07-31 23:25:47
482
原创 Task01 Datawhale AI夏令营-AI极端降水预报挑战赛
机器学习是人工智能的一个分支,它使计算机系统利用数据来不断改进性能,而无需进行明确的编程。机器学习像一个学生, 通过给定的教材, 不断地学习教材内容,最终可以在期末考试或者综合实践中取得优异的成绩。核心思想:通过算法和统计模型,机器学习允许计算机从经验中学习,识别模式,并做出预测或决策。监督学习:算法从标记的训练数据中学习,这些数据包含了输入和期望的输出。无监督学习:算法处理未标记的数据,试图找出数据中的结构和模式。同时, 通过任务的输出是否离散, 机器学习的任务又可以划分为分类与回归深度学习。
2024-07-26 13:15:44
1015
原创 05.数组双指针、滑动窗口
在计算机网络中,滑动窗口协议(Sliding Window Protocol)是传输层进行流控的一种措施,接收方通过通告发送方自己的窗口大小,从而控制发送方的发送速度,从而达到防止发送方发送速度过快而导致自己被淹没的目的。我们所要讲解的滑动窗口算法也是利用了同样的特性。滑动窗口算法(Sliding Window):在给定数组 / 字符串上维护一个固定长度或不定长度的窗口。可以对窗口进行滑动操作、缩放操作,以及维护最优解操作。滑动操作:窗口可按照一定方向进行移动。最常见的是向右侧移动。缩放操作。
2024-04-28 20:26:50
1346
原创 04.数组二分查找
每一次选择的元素位置可以是中间位置,但并不是一定非得是区间中间位置元素,靠左一些、靠右一些、甚至区间三分之一、五分之一处等等,都是可以的。此时区间不为空,待查找区间还有一个元素存在,我们并不能确定查找的元素不在这个区间中,此时终止循环时,如果直接返回 −1 就是错误的。而于问题的规模是有限的,经过有限次的查找,最终会查找到目标元素或者查找失败。,写成区间形式就是 [𝑟𝑖𝑔ℎ𝑡+1,𝑟𝑖𝑔ℎ𝑡],此时待查找区间为空,待查找区间中没有元素存在,此时终止循环时,可以直接返回 −1。
2024-04-27 18:29:52
2153
1
原创 03.数组排序
基数排序算法可以采用「最低位优先法(Least Significant Digit First)」或者「最高位优先法(Most Significant Digit first)」。希尔排序中用到的插入排序算法为原地排序算法,只用到指针变量 𝑖、𝑗 以及表示无序区间中第 1 个元素的变量、间隔数 𝑔𝑎𝑝 等常数项的变量。:在一次插入排序是稳定的,不会改变相等元素的相对顺序,但是在不同的插入排序中,相等元素可能在各自的插入排序中移动。:介于 𝑂(𝑛×log2𝑛) 与 𝑂(𝑛2) 之间。
2024-04-22 22:42:22
1638
原创 02.数组基础
数组(Array):一种线性表数据结构。它使用一组连续的内存空间,来存储一组具有相同类型的数据。我们可以从两个方面来解释数组的定义。线性表:线性表就是所有数据元素排成像一条线一样的结构,线性表上的数据元素都是相同类型,且每个数据元素最多只有前、后两个方向。数组就是一种线性表结构,此外,栈、队列、链表都是线性表结构。连续的内存空间:线性表有两种存储结构:「顺序存储结构」和「链式存储结构」。其中,「顺序存储结构」是指占用的内存空间是连续的,相邻数据元素之间,物理内存上的存储位置也相邻。
2024-04-18 22:54:53
522
2
原创 01. 数据结构与算法
一个程序的运行时间,依赖与算法的好坏和。问题的输入规模:输入量的多少。输入、输出、有穷性、确定性、可行性。所需运行时间更少(时间复杂度更低)占用内存空间更小(空间复杂度更低)
2024-04-16 22:53:28
211
1
原创 机器学习入门--03决策树
1、决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的"分而治之" (divide-and-conquer) 策略。5、CART Classification and Regression Tr.胆的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。3、一般而言,信息增益越大,则意味着使周属性 来进行划分所获得的"纯度提升"越大。(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3) 当前结点包含的样本集合为空,不能划分。
2023-11-23 23:24:42
425
原创 机器学习入门--02线性模型
2、均方误差(差亦称平方损失)是回归任务中最常用的性能度量。最小化的过程,称为线性回归模型的最小二乘"参数估计"。:渐近等于,随着循环递进,左右两边逐渐相等。5、欠采样法的时间开销通常远小于过采样法。4、单位阶跃函数不连续。
2023-11-20 21:56:36
94
1
原创 机器学习入门--01绪论
1、属性张成的空间称为"属性空间" (attribute space) “样本空间” (sample space) 或"输入 空间"。例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。2、一般地,用(Xi,Yi) 表示第 个样例 其中执 εy 是示例 Xi 的标记 是所有标记的集合, 亦称"标记空间" (label space)或"输出空间“。5、监督学习:训练数据有标记信息的学习过程。
2023-11-14 23:37:47
220
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅