自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 机器学习开始-02逻辑回归

逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计学习方法,尽管名字中带有"回归",但它实际上是一种用于二分类或多分类问题的算法。逻辑回归通过使用逻辑函数(也称为 Sigmoid 函数)将线性回归的输出映射到 0 和 1 之间,从而预测某个事件发生的概率。

2025-08-10 09:58:20 1162 2

原创 HDFS基础命令

HDFS基础命令Hadoop3.0功能命令查看目录hdfs dfs -ls+路径创建文件hdfs dfs -touchz /目录/文件名称上传文件hdfs dfs -put 本地文件路径 hdfs路径下载文件hdfs dfs -get hdfs文件 本地路径 默认当前目录内部文件复制hdfs dfs -cp /目录/文件名称 /目录删除hdfs dfs -rm /目录/文件名称删除目录hdfs dfs -rm -r 目录

2025-07-27 11:17:52 254

原创 机器学习开始01-线性回归

简单来讲就是构建一个方程,y=ax+b,a和b需要通过已经知道的y和x的关系取求得,最后呢,会得到一个能够根据输入的x得到的y值跟已知y值差距最小的一个方程,就比如下图就是一个回归,equation就是我们的模型。求得这个equation的过程就是我们的数据建模。回归模型是一种重要的预测性建模技术,用于研究和揭示因变量(目标)与自变量(预测器)之间的关系,因变量和自变量都是连续的,回归线的性质也是线性的。机器学习是一种人工智能领域中的方法,它让计算机通过数据和算法自主学习和改进,来获取新的知识和洞见。

2025-07-27 11:09:03 535

原创 Matplotlib入门09-绘制多子图

【代码】Matplotlib入门09-绘制多子图。

2025-06-29 09:34:30 186

原创 python小工具合集

【代码】python切分excel。

2025-05-12 09:11:07 196

原创 dolphinscheduler实现(oracle-hdfs-doris)数据ETL

【代码】dolphinscheduler实现(oracle-hdfs-doris)数据ETL。

2025-04-22 17:19:06 595

原创 Doris-BrokerLoad任务监控

【代码】Doris-BrokerLoad任务监控。

2025-04-22 17:01:31 283

原创 hadoop执行sqoop任务找不到jar

【代码】hadoop执行sqoop任务找不到任务jar包

2025-04-15 17:01:48 440

原创 DataSophon部署问题汇总

DataSophon部署问题总结

2025-02-26 14:45:33 765 6

原创 cm+cdh集群配置

08.等待(腾讯云 TencentOS Server 有没有用过的😭😭😭 卡住了草)10.安装java(就用yum安装吧 不然老是版本不适配,真是醉了)9.上传驱动到/usr/share/java 这是默认路径。3.配置新用户免密(待完善,大家自己找教程吧)版本不要超过5.x,除非你的cm版本更高。04.等待一会儿进入如下界面,继续。3台主机 版本centOS7。7.关闭selinux。

2025-02-14 11:15:16 394 1

原创 NLP学习开始

nlp学习第一步,搭建环境啊啊啊啊啊

2024-09-24 22:46:57 448

原创 spark单机安装

【代码】spark单机安装。

2024-09-14 13:42:55 495 1

原创 Lua入门-Mac环境搭建

配置文件位置,此处目的为主要为修改luarocks库的安装位置,将其直接安装到lua的搜索库路径中去。

2024-06-19 22:36:47 926

原创 Pandas03-数据的修改

【代码】Pandas03-数据的修改。

2024-06-04 11:52:42 269 1

原创 数据分析入门-数据分析的常方法和一般步骤

通过漏斗分析,企业可以科学地评估一种业务过程,从起点到终点,各个阶段的转化情况,帮助业务找到有问题的业务环节,并进行针对性的优化。在对比分析中,选择合适的对比标准是十分关键的步骤,选择的合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。ABtest是一种做比较的手段,在同一总体下,用不同的策略作用于两个或多个同质的样本,通过分析不同策略导致的样本数据表现出的差异,来推断或者比较不同策略的效果。

2024-06-04 11:12:07 1230

原创 shell脚本应用案例

实际的应用处理场景,从应用的角度举例子。

2023-11-27 16:48:13 449

原创 入门篇3-hive常用函数

hive常用函数

2023-08-02 14:01:51 343

原创 入门篇2-Hive常用文件格式、压缩方式、分割符

压缩特性运用得当能提高性能,但运用不当也可能降低性能。CPU集型的job,少用压缩。IO密集型的job,多用压缩。

2023-07-02 17:51:16 405

原创 Hive手册入门篇

hive入门

2023-02-16 09:53:46 191

原创 Hadoop单机 阿里云ecs服务器部署

Hadoop 阿里云ecs服务器部署一、Jdk安装二、Hadoop安装一、Jdk安装1.JDK1.8安装(查看是否已安装其他jdk,需先卸载)wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz2.解压tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz3.移动jar并重名mv java-se-8

2021-07-03 15:49:44 433 1

原创 Matplotlib入门07-饼图

饼图[2020年4月]1.饼图的作用饼图(pie chart)是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。2.参数解释(只涉及常用参数)参数解释x要用饼图展示的数据。explode每一块饼图就圆心的位置,比例是半径的倍数labels每块饼图的名称colors设置颜色,这个是...

2020-04-29 22:18:45 616

原创 Matplotlib入门06-箱线图

箱线图[2020年4月]1、箱线图的功能01、直观明了地识别数据批中的异常值箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。02、判断数据的偏态和尾重对于标准正态分布的大样本,中位数位于上下四分位数...

2020-04-16 23:04:46 2473

原创 Matplotlib入门05-直方图

直方图官方文档1.直方图在统计数据时,按照频数分布表,在平面直角坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。作直方图的目的就是通过观察图的形状,判断生产过程是否稳定,预测生产过程的质量。2.绘制简单图形...

2020-04-13 23:48:34 267

原创 现学现卖之pandas-02数据的选择

数据的选择[2020年3月]1 Series AND Dataframe1 Series AND Dataframeseries是一个数据

2020-04-05 22:16:02 189

原创 现学现卖之pandas-01数据的加载

Pandas的常用方法

2020-03-27 10:45:02 214

原创 Matplotlib入门04-柱状图

柱状图这次做一个北京市的疫情周报吧,因为中间又是后忘跑程序了,所以数据不太准确,看看就可以了。数据

2020-03-26 22:23:06 287

原创 matplotlib入门03-散点图

散点图[2020年03月]1 . 同样以气温变化作为样本数据。 每天最高温度: [10, 9, 8, 7, 9, 10, 15, 6, 11, 11, 16, 14, 12, 16, 18]2.开始做图,老规矩先做一个简单的图,然后逐渐优化#导入包 from matplotlib import pyplot as plt import numpy as np #先画一个简单的图...

2020-03-16 21:53:37 392

原创 Mac下MongoDB的安装

MongoDB安装1 、安装前的准备2、开始安装3、 启动这里采用官方给出的安装文档进行安装,版本4.2,没有自定义目录,因为采用官方的比较简单(我懂????)。1 、安装前的准备注意事项:MongoDB4.2仅支持MacOS10.12及以上版本。Install XCodexcode-select --installInstall Homebrew/bin/bash -c "$(cur...

2020-03-12 10:34:51 213

原创 numpy常用方法

numpy 的使用数据的加载#常用参数np.loadtext(frame,delimiter,dtype,skiprows,usecols,unpack)#egfile_path = ""np.loadtext(file_path,delimiter=",",dtype="int",skiprows=0,usecols=(0,),unpack=ture)参数注释...

2020-02-27 20:58:15 240

原创 Matplotlib入门-02折线图

折线图02书接上文01 修改颜色、粗细#绘制图形 只需要修改对应的参数就可修改这些属性plt.plot(x_ticks,y_temp_h,color='orange',lw = 2,linestyle = '-.',label = '最高温度')02 添加另外一条线#添加最低温度的线 plt.plot(x_ticks,y_temp_l,color='green',lw = 2,li...

2020-02-14 18:20:31 199

原创 历史天气信息数据爬取

北京市2020年1月份历史天气爬取视频教程(讲的阔以的)1 确定目标网址1.1 目标网址[2345天气]1.2 目标数据北京2020年一月份2 分析网页分析过程大家去看视频吧,讲的很好,现学现卖 ????3 爬取js文件爬取过程1.构造URL2.用requests获取js,处理成json样式,接下转换成标准的json3.用demjson转换成标准的json4.解析数据放入...

2020-02-13 21:02:32 2559 2

原创 Matplotlib入门01-折线图

折线图需求观察2020年1月份北京市的气温变化数据准备利用爬虫,爬取网站的历史天气数据信息,目标网址

2020-02-13 21:02:04 304 1

原创 Python学习笔记01-函数的传参

函数的定义 #函数的定义 def square(x) x=x*x return x

2020-01-17 16:52:51 376

原创 SQL优化笔记

SQL优化笔记1.表的连接数2.exist 与 in 详解- in () 适合B表比A表数据小的情况 - exists() 适合B表比A表数据大的情况 - 当A表数据与B表数据一样大时,in与exists效率差不多,可任选一个3. “*”号尽量避免使用*,Oracle数据库中,数据库会先把*号解析为表中所有的列名,在这个过程中,会去查数据字典,这个过程会耗费一定的时间。4....

2020-01-16 15:54:10 387

原创 数据库SQL语句的执行

参考 https://www.cnblogs.com/XiaoZone/p/7851898.html; https://cloud.tencent.com/developer/news/254038;https://blog.youkuaiyun.com/somezz/article/details/84844581;DB2S数据库sql的执行顺序SQL的执行浅析基础SQL语句组成及书写顺序新的改变...

2019-08-12 18:44:20 847

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除