自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 Python例子——数据增删的常用方法

上一步删除后,'java'成了排名在第1的语言,pop(0)表示直接删除了索引为0(位置排在第一个)的'java'python中常用的删除数据的方式有remove和pop两种方式,

2025-03-03 12:07:08 137

原创 决策树(部分)

信息熵与概率是一个事物的一体两面,概率指“事件多大可能发生”,表示事件发生的“确定性”,而信息熵指“事件有几种可能性”表示时间发生的“不确定性”。反映的是事情复杂、混乱的程度。统计意义上来说这是一种加权平均,表示整体的选择个数。信息熵还可以用来进行信息编码,可用于计算信息编码的平均长度由于日常所得的数据中既有有效数据又含噪音,选择特征的方法包括信息增益(Information Gain)、基尼指数(Gini Index)和增益率(Gain Ratio)等。

2024-11-05 14:23:51 1075

原创 apply、map、applymap区别

这几个方法常用于对于 dataframe 逐行、逐列、逐元素的操作。其中,“拆分-应用-合并”的方法,讲一个函数作用于dataframe的每个行或列,可以几乎代替 agg() 和 transform() 方法语法常用参数:func:函数,可以是内置函数、lambda匿名函数、或自定义函数axis:0表示按索引,作用于列,1表示按列,作用于每一行(上方用法相当于调用 transform(),下方用法相当于调用 agg() )

2024-11-04 15:36:20 502

原创 使用wordcloud与jieba库制作词云图

里面有一个 extract_tags() 方法,可以用于提取关键字,返回一个可以迭代的列表,方法的具体介绍可以再看看这个文章。由于一开始一直报字体文件格式错误(明明是 .ttf 没什么问题),因此在晚上查到需要把pillow库更新一下, 解决了。词云图,以视觉效果提现关键词,可以过滤文本信息,掌握关键信息,通过一个例子理解它的大概用法。有许多如“我”、“是”、“的”等无效信息,因此需要进一步处理。txt 的赋值可以自己随便敲单词,文本即可。直接上例子看区别,根据个人需求选择。

2024-11-01 16:41:22 1320

原创 Linux补基础之:系统和进程

计算机中,一个正在执行的程序或命令,叫“进程”(process),有自己的内存空间,需要占用相应资源,计算机会给每个进程一个编码,PID。启动之后一直存在、常驻内存的进程,如开启网络服务进程,一般被称作“服务”(service)。Linux 中有 “守护进程” 的概念,其实质就是维持系统正常运行的系统服务,会一直启动。

2024-10-29 09:12:14 1067

原创 Linux补基础之:网络配置

实际的大数据管理中,会有由很多服务器构成的集群,可能是机房中的许多主机,也可能是云服务器。我们去使用控制电脑进行与集群的连接,进行数据的传输或者通信。

2024-10-28 13:50:07 798

原创 Python——OS模块中的常用法

几个函数语法一样,返回的是时间戳,可以使用 time 模块进行处理python的time模块_python time模块-优快云博客。

2024-10-28 11:19:28 1715

原创 shell文本处理——cut与awk

cut 可以按列切割,默认分隔符是制表符,语法。

2024-10-24 15:11:03 561

原创 shell——正则表达式入门

shell中总是会需要对文本字符串做各种各样的剪切拼接等操作,除了 basename 和 dirname 这种简单的函数外,还可以用正则表达式,定义模糊匹配的筛选规则。

2024-10-23 17:45:12 803

原创 Shell中的函数

shell中函数、脚本、命令意思有些相似,都是指为了实现某个功能的一段代码的集合,可以包装起来完成某些功能。shell会提供一些既有的可以直接执行调用的脚本,系统函数也分为内置外置,比如外置的脚本直接放在 /bin 目录下,就可以直接执行了如date函数,显示时间及时间戳2024年 10月 22日 星期二 16:42:05 CST1729586538date后面一定要加一个空格在这里,相当于调用了date函数,再使用+%s的参数,然后用$()包起来所有的命令都能在脚本里作为系统函数调用。

2024-10-23 15:24:18 746

原创 shell中使用read读取控制台的输入

【代码】shell中使用read读取控制台的输入。

2024-10-22 15:39:13 241

原创 Shell中的流程控制(重点)

但是如果用引号将变量引起来,$*会被视为一个元素,将所有参数当成一个整体,而$@会依次将参数输出。报错:[ condition ]两端一定要有空格,否则报错!循环打印出了几个值(无传入参数汇报错,期待操作参数)可以使用 -a 表示 and 逻辑,用-o表示或逻辑。(这里在未给sum赋初值时报错了,上面却不报错?相当于“为真时执行,不为真时跳过”{a..b}也是用于遍历的。

2024-10-22 15:04:42 726

原创 Shell——条件判断

test+表达式或者使用中括号[](

2024-10-21 16:19:10 231

原创 Shell——运算符

整体来讲还是使用上面的 $"(())"或者$"[]"方便一些。如何将计算命令的值作为结果。使用$(),将计算结果。做一个脚本算a+b的值。

2024-10-21 15:23:32 216

原创 Shell学习——shell中的变量

号两边不能有空格,有的话要用引号引起来my varexit使用export可以将局部变量升级为全局变量my var但是,在子shell里面的变量修改不会改变外层父shell的值,如your varexitmy var。

2024-10-21 11:48:10 897

原创 初识shell,做一个Shell脚本输出字符

开发实践中如部分数据库进行定时备份,有可能会要写shell脚本Linux原理图:Shell是一个命令行解释器,Linux内核直接操作计算机硬件,用户使用的则是外层应用程序(如文本编辑器浏览器数据库及图形化操作界面),shell作为中间的解释层连接外层应用程序和Linux内核,可以将外层命令解释称计算机可以执行的命令。

2024-10-17 10:52:03 403

原创 Linux基本命令总结(佛系更)

实际生活中企业在进行大数据开发或分析时可能会存在多台主机,通过使用Linux系统进行连接,随后进行分布式的存储和计算,如 hive 就是一种结构化数据库,使用的类似SQL语法--Hive SQL,因此对于Linux系统应该要有一定的了解,本文总结一下Linux系统中的常用命令。

2024-09-23 16:25:24 958

原创 文章标题1

文章内容1。

2024-06-19 15:54:43 135

原创 好用的 with as

with as 相当于视图,是子查询的另一种写法,原理是将建立一个临时表。在做分析时如果需要多次使用到某些中间表可以使用该方法,

2024-04-16 14:13:22 404

原创 总结SQL相对常用的几个字符函数

这个 rowid 是在 oracle 中记录每一行数据在插入数据库时分配的物理地址(是唯一的字符串)oracle 中可连接多个字符串,SqlServer 里可以用 + 进行连接。从 start 开始,截取长度为 lenth 的字符,其中空格长度为1。此外,对字符串出现 % 或 _ 也可以用反斜杠 \ 对其忽略。从源 str 两边、左边、右边开始截取目标 str,对 oracle 中自带的 EMP 表进行字符处理。,不过参数一样,但是不能缺少长度,也就不会默认到末尾。除此之外,Oracle 也可用。

2024-04-09 11:21:04 1413

原创 机器学习——几个线性模型的简介

线性说白了就是初中的一次函数的一种应用,根据不同的(x,y)拟合出一条直线以预测,从而解决各种分类或回归问题,假设有 n 个属性(自变量),xi 为 x 在第 i 个属性上的取值,则其形式为: 模型有系数 、 、...以及误差项 ,可写为: 线性回归拟合有一些重要的假设,包括: 拿一元线性回归举例(一个自变量一个因变量): 机器学习过程中我们的目标是最小化残差平方和来估计模型系数的值,均方误差对应了常用的“欧氏距离”(Euclidean dist

2024-04-03 15:50:08 1473

原创 机器学习基础——模型评估与选择(部分)

使用上述流程理解,其中a 为预测错误的个数,m为使用的样本数量错误率(error rate):分类错误的样本数占样本总数的比例。即在 m 个样本中有 a 个样本分类错误,则错误率E = a / m。精度=1 - a / m,即精度 = 1 - 错误率。误差(error):学习器的预测输出与样本之间的差异。其中:学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”,在新样本上的误差称为“

2024-03-26 15:48:47 1588

原创 sql——对于行列转换相关的操作

可以看出使用位移函数后,在第二列得到的是第二行往后的数据,第三列得到的是第三行开开始的数据,以此类推,第N列第一行就是第一列的第N行了,顺序也一样,此时只需要得到第一行,就是原来的第一列数据了。rownum是oracle的伪列,会在原表中新增一个新的列,来记录每一行的数据(用来表示序号),这里的 '10' 为值,后接 as+列名,即所有值为'10'的统计完记为"部门10 "根据部门分组统计人数,列出每组的 ename (姓名)只能使用 < 或 <=(除=1以外),得到要统计的员工号,不满足的为空。

2024-03-25 17:50:18 568

原创 可视化日记——极坐标绘制雷达图

Python中没有直接画雷达图的函数,若要绘制需要先创建画布和极坐标轴域,再设定角度与半径的参数(极坐标中角度与半径确定一个点的位置)[angles[0]]无方括号会报错,因为进行的是数组间的连接,不能数组与整数之间这样连接。绘制雷达图,在极坐标下仍然使用plot(),参数是极坐标参数就可以了。(没有 concatenate 连接在绘制时会变成这样)现在有五个属性,需要把 2π 划分为5分。

2024-03-21 15:19:38 768

原创 可视化日记——画饼

数据所有预处理和预分析都已经省略了,目前得到一个如下名为 “category” 的 DataFrame。

2024-03-04 15:13:36 404

原创 机器学习——绪论总结

例:只有一个属性,在该属性上的所有可能取值组成的集合 [1,2,3,...] 构成一维属性空间,若有多个维度,如一个人的年龄,身高,体重构成一个属性空间为三维[[1,2,3,...],[171,181,182,...],[140,152,110,...]]:使用西瓜三个特征——色泽,根蒂,敲声三个属性,作为三个坐标轴,每个西瓜对应一个空间点(一个原点指向该点的坐标向量),每个这种示例称为一个特征向量。:又称特征,描述事物在某个方面的具体表现,常常在数据中的表现形式为数据集的某一列,一个特征表示一列数据。

2024-01-30 12:00:21 1057

原创 机器学习:什么是监督学习和无监督学习

介绍:监督学习是指(x->y)映射的机器学习算法,监督即理解为:已知正确答案对其学习结果进行监督原理:提供算法示例以供学习,通过查看 x->y 的正确示例,使得算法最终达到例子:监督学习主要包括,如一个判断邮件是否为垃圾邮件、广告公司根据客户数据判断是否会点击广告、根据房子的面积拟合合适的线条预测房价,等等。

2024-01-19 17:00:59 1168 1

转载 pandas 去重操作

可以使用 drop_duplicates() 函数,根据一列或多列进行去重,该函数用法转载自:pandas根据某列去重_pandas根据某一列去重-优快云博客

2023-12-27 14:04:43 232 1

原创 Pandas的分组聚合操作

因此这里得到的是一个分组后对象及其内存地址,分组之后会对其进行进一步操作,使用 list 对其进行查看,如下结果可以看出 data 已经成功被分组(结构是一个列表,里面几个元组,每个元组是对应组别和DataFrame)Pandas 的 Groupby 分组操作和 SQL 中的 Group by 功能类似,在对数据进行划分组之后可以进行。这是对于上面代码的解释说明:帮助一下理解。,如上述的 data 要按 company 的字段分组。可以先选择需要的列,再进行分组聚合。,也可对多列计算不同指标,加上。

2023-12-25 16:05:32 649

原创 Python 的 datetime 模块

datetime 模块是对 time 模块的封装,这个模块提供了这几个类:date(日期)、time(时间)、datetime(日期时间,功能覆盖前两者)、timedelta(时间差)、tzinfo。文章用于记录模块的常用属性和方法(一些不太常用的可能不会涉及)python 里表示时间的格式有三种:时间戳、元组、格式化时间。与time模块类似,datetime 模块也能够将 datetime 类型转换成这三种类型。

2023-11-10 16:18:57 2307

原创 SQL案例记录:学习和工作中遇到的 SQL 常见思想

工作和学习中遇到的常见的 sql 案例总结,持续更新

2023-10-25 16:37:23 400

原创 关于ndarray对象知识总结

多维数组每个 axis 都会有一个索引,行和列均从 0 开始,通过逗号分割进行查找,这是比较规范的用法,多尝试体验与 list 索引的差别。尝试了一下三维的 (4,3,2) 与 (2,1) 、(3,) 不能进行计算,会报错,只能与 (3,1)、(3,2) 、三维数组也是同理,以下例子进行计算时将左边每一块都与右边进行相加,此外(3,4,2)与(4,)也是可以进行计算的。将任意形状的数组扁平化,返回 1 维数组的视图,当 order=‘F’ 时,可以按列依次读取排序。

2023-10-19 16:10:49 483

原创 matplotlib常用方法和操作

Matplotlib 是 python 中一款强大的可视化绘图工具,可以以更直观的方式对数据进行展示和呈现,可以准确高效传递信息,甚至可以帮助我们发现某种规律和特征,挖掘数据背后的价值,本文简单介绍了Matplotlib常用操作和方法。

2023-10-16 18:05:51 299

原创 DML——数据操纵语言简记

工作中有时会需要用到数据库对数据进行处理,在此记录一下对数据库增加、删除、修改数据等操作的语法

2023-09-20 16:17:07 172

原创 selenium——超级鹰的使用方法

在获取数据遇到验证码时,一般只有两种处理方式,要么自己写图像识别(有这能力可以去干计算机视觉了),要么选择互联网上成熟的验证码破解工具,比如今天使用的超级鹰。对验证码右键检查,定位到图片位置,此时 img 是一个浏览器元素,使用 screenshot_as_png 截取得到的图片。登录超级鹰注册领积分,点击用户中心左边一栏最下方的软件ID生成软件ID,拿代码识别平台的时候需要用到这个信息。以模块的方式导入超级鹰并运行,流程:造出超级鹰对象使用里面的 PostPic 方法,传参。

2023-09-13 16:29:33 439

原创 Python爬虫——Selenium在获取网页数据方面的使用

Selenium 可以实现,它本身是一款自动化测试工具,可以打开浏览器,像人一样操作浏览器,人们可以从 Selenium 中直接提取到网页上的各种信息,因为网页信息对于 Selenium 来说是透明的,其本质就是运行一个浏览器。selenium使用便捷,易于编写,可以屏蔽许多js加密、解密问题,但是其运行速度较慢,且一些网站会针对通过 selenium 方法进行的访问做反爬,所以使用的时候并不是万能的。打开浏览器,这里可以选择年份(需要点击),这是通过网页的 select 标签存放的。

2023-09-07 16:57:33 13502

原创 协程、aiohttp——异步的http操作

协程太烧脑了,看了视频又翻了一下博客才明白了一点点。。假如现在有三个图片url,如何完成异步协程的操作。

2023-08-25 10:58:52 270 1

原创 Python实现异步的三种方法

如 time.sleep() 时,操作如 input() 用户输入前,requests.get()等待请求返回数据前,程序也会处于阻塞状态,一般情况下,当程序处于IO操作时,线程都会处于阻塞状态,CPU是不在此工作的。协程:如上图,白色为时间轴,当程序遇见IO操作的时候,可以选择性地切换到其他任务上(类似if-else),以这种形式提高CPU利用率,宏观上看就是多个任务一起执行(多任务异步操作)先写一个函数,在最前面加一个 async 修饰,得到一个异步协程函数,此时函数是一个协程对象,

2023-08-22 16:39:23 27803 5

原创 SQL语法:DDL——对Oracle数据库的表进行操作

顾名思义在数据库中对表进行定义,通过指定某列的头是什么、是哪种数据类型、表之间有何链接。以及约束等初始化,工作上他们大多用于建立表或修改表。

2023-08-18 15:24:47 471

原创 将Excel数据通过plsql导入Oracle的表

点击表头全选(导入某列),或者前面的*号(导入所有),CTRL+C、CTRL+V即可将表格的数据粘贴过来,:这种方法简单粗暴,数据量不大的时候非常方便,但是速度似乎不是很快,这词只是导了数千条数据,在数据量巨大的时候可能比较慢。今天需要进行一个数据处理,用 excel 不太方便,就顺便记录了将表导入 oracle 的方法。

2023-08-18 13:48:13 922

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除