自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 SQL-task3-学习SQL复杂一点的查询方法

学习目标:学习SQL复杂一点的查询方法学习内容:视图视图并不是数据库真实存储的数据表,它可以看作是一个窗口,通过这个窗口我们可以看到数据库表中真实存在的数据。视图不是表,视图是虚表,视图依赖于表需要视图主要有以下几点原因:通过定义视图可以将频繁使用的SELECT语句保存以提高效率。通过定义视图可以使用户看到的数据更加清晰。通过定义视图可以不对外公开数据表全部字段,增强数据的保密性。通过定义视图可以降低数据的冗余。创建视图的基本语法如下:CREATE VIEW <视图名称&

2021-08-22 12:24:06 267

原创 SQL-task2-基础查询与排序

学习目标:学习SQL的基础查询与排序学习内容:2.1 SELECT语句基础2.1.1 从表中选取数据SELECT语句从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。基本SELECT语句包含了SELECT和FROM两个子句(clause)。示例如下:SELECT <列名>, FROM <表名>;其中,SELECT子句中列举了希望从表中查

2021-08-19 11:31:15 354

原创 SQL-task1-认识数据库

学习目标:学习数据库安装和数据库基本介绍,学习SQL学习内容:认识数据库数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。DBMS的种类DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型.层次数据库(Hierarchical Database,HDB)关系数据库(Rel

2021-08-16 16:50:34 320

原创 集成学习-task8-案例二

集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量

2021-07-31 22:44:05 258

原创 集成学习-task7-stacking和案例一

学习目标:学习stacking理论知识、代码和案例一代码学习内容:Blending集成学习算法简化版的Stacking,也叫做BlendingBlending集成学习方式:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_

2021-07-28 10:28:09 677

原创 集成学习-task06-boosting

学习目标:学习基于Boosting方式的集成方法:两类常用的Boosting方式:Adaptive Boosting 和 Gradient Boosting 以及它们的变体Xgboost、LightGBM以及Catboost。学习内容:Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。Adaboost算法Adaboost算法如下:(1) 初始化训练数据的分布:????1=(????11,⋯,????1????,⋯,

2021-07-24 15:20:00 259

原创 集成学习-task4-分类问题

使用sklearn构建完整的分类项目流程(1) 收集数据集并选择合适的特征:在数据集上我们使用我们比较熟悉的IRIS鸢尾花数据集from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] = ydata.head()(2

2021-07-20 12:19:05 236

原创 集成学习-task3-学习投票法和bagging

学习目标:学习投票法和bagging理论与代码应用学习内容:投票法投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。投票法在回归模型与分类模型上均可使用:回归投票法:预测结果是所有模型预测结果的平均值。分类投票法:预测结果是所有模型种出现最多的预测结果。分类投票法又可以被划分为硬投票与软投票

2021-07-18 12:51:00 297

原创 集成学习-task2-机器学习

学习目标:学习机器学习理论知识、简单模型建模方法学习内容:概念机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。分类:机器学习的任务可分为:有监督学习和无监督学习。根据因变量的是否连续,有监督学习又分为回归和分类:回归from sklearn import datasetsboston = datasets.load_boston() # 返回一个类似于字典的类X = boston.datay = boston.targetf

2021-07-15 11:35:07 1017

原创 集成学习-task1-数学基础

学习目标:掌握集成学习的数学知识包括高数、线性代数、数理统计等作业#利用三维轴方法from matplotlib import pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D#定义图像和三维格式坐标轴fig=plt.figure()ax2 = Axes3D(fig)import numpy as npfig = plt.figure() #定义新的三维坐标轴ax3 = plt.axes(projection='3

2021-07-13 16:40:04 144

原创 Task5-爬虫入门与综合应用

学习内容:Task5 爬虫入门与综合应用对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法:pip install requests或者conda安装conda install req.

2021-06-27 00:08:58 368

原创 task-python操作pdf

学习内容:Python 操作 PDFPDF 操作是本次自动化办公的最后一个知识点,初级的 PDF 自动化包括 PDF 文档的拆分、合并、提取等操作,更高级的还包括 WORD与PDF互转等初级操作一般比较常用,也可以解决较多的办公内容,所以本节将会主要介绍 PDF 的初级操作,具体内容将会从以下几个小节展开:相关介绍批量拆分批量合并提取文字内容提起表格内容提起图片内容转换为PDF图片添加水印加密与解码下面直接开始本节内容。1. 相关介绍Python 操作 PDF 会用到两个

2021-06-23 21:14:52 198

原创 task3- python与word

学习内容:python自动化之word操作文章目录学习内容:python自动化之word操作一、课前准备二、知识要点1.预热:初步认识docx(1)新建空白word并插入文字2. 正式:python自动化之word操作(1)整体页面结构介绍(2)字体设置(3) 插入图片与表格(4)设置页眉页脚(5)代码延伸三、项目实践一、需求二、需求分析三、代码四、总结一、课前准备python 处理 Word 需要用到 python-docx 库,终端执行如下安装命令:pip3 install python.

2021-06-20 18:03:24 277

原创 Task2-Python自动化之Excel

学习内容:Python自动化之ExcelPython自动化之Excel0.包的安装1.Excel读取1.1读取对应表格1.2读取单元格1.3读取多个格子的值1.4练习题2.Excel写入2.1写入单元格并保存2.2写入行数据并保存2.3将公式写入单元格保存2.4插入列数据2.5插入行数据2.6删除2.7移动2.8Sheet表操作2.9创建新的Excel表3.Excel 样式3.1设置字体样式3.2设置对齐样式3.3设置行高与列宽3.4合并、取.

2021-06-18 21:40:11 254

原创 task01-文件自动化处理

学习目标:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:1.1 读写文件我们知道,程序运行时,可以用变量来保存运算结果,但如果希望程序运行关闭后,依然可以查看运行后的结果,就需要将数据保存到文件中。简单点,你可以将文件内容理解为一个字符串值,大小可能有几个GB。本节将学习,如何使用python在硬盘上创建、读取和保存文件。1.1.1 文件与文件路径文件的两个属性:“路径”和“文件名”,路径指明文件在计算机上的位置,文件名是指该位置的文件的名称。比如,我的电脑上,有

2021-06-16 19:08:47 513

原创 异常检测-task5-集成方法

学习目标:学习异常检测——高维数据异常检测主要内容包括:Feature Bagging孤立森林学习内容:1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子

2021-05-22 10:17:19 200

原创 异常检测task4基于邻近度的方法

学习目标:主要内容包括:基于距离的度量基于密度的度量学习内容:1、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。  在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异

2021-05-20 12:46:35 419

原创 异常检测task3线性模型

学习目标:了解认识异常检测——线性相关方法主要内容包括:线性回归主成分分析学习内容:1、引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。   一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有

2021-05-16 19:08:39 203 1

原创 异常检测task2基于统计学的方法

学习目标:学习主要内容包括:高斯分布箱线图HBOS学习具体内容:1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个

2021-05-14 16:39:08 178 1

原创 异常检测task1

学习目标:了解异常检测基本概念了解异常检测基本方法学习内容:1、什么是异常检测异常检测(Outlier Detection),是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件1.1异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下

2021-05-11 10:59:49 123

原创 智慧海洋建设-Task5 模型融合

学习目标:学习融合策略完成相应学习打卡任务学习内容:模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式:1、简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)2、boosting/bagging(在xgboost,Adaboost,GBDT中已经用到):多树的提升方法3、stacking/blending:构建多层模型,并利用预测结果再拟合预测。相关理论介绍:1、简

2021-04-24 17:08:32 170

原创 智慧海洋建设-Task4模型建立

学习目标:学习如何选择合适的模型以及如何通过模型来进行特征选择掌握随机森林、lightGBM、Xgboost模型的使用。掌握贝叶斯优化方法的具体使用学习内容:模型训练与预测随机森林lightGBM模型Xgboost模型交叉验证模型调参智慧海洋数据集模型代码示例学习代码:学习感想:看得不是很懂,需要慢慢地、多多地学习!!!...

2021-04-22 20:01:00 125

原创 智慧海洋建设-Task3 特征工程

学习目标:了解学习特征工程的基本概念学习topline代码的特征工程构造方法,实现构建有意义的特征工程了解构造特征的一些方法和步骤学习内容:(对特征工程的个人理解:通过特征工程把一个X变成另外的X)特征工程概述赛题特征工程业务特征,根据先验知识进行专业性的特征构建分箱特征v、x、y的分箱特征x、y分箱后并构造区域DataFramte特征count计数值shift偏移量统计特征Embedding特征Word2vec构造词向量NMF提取文本的主题分布

2021-04-19 21:22:22 181

原创 智慧海洋task2-数据分析

学习目标:EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解特征之间的相关性、分布,以及特征与预测值之间的关系。为进行特征工程提供理论依据学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值、异常值)学习了解变量之间的相互关系、变量与预测值之间的存在关系学习内容:数据总体了解读取数据集并了解数据集的大小,原始特征维度;通过info了解数据类型;粗略查看数据集中各特征的基本统计量缺失值和唯

2021-04-16 11:22:32 256 2

原创 智慧海洋task1-地理数据分析常用工具

学习目标:1.了解和学习shapely和geopandas的基本功能,掌握用python中的这两个库实现几何对 象之间的空间操作方法。2.掌握folium和kepler.gl的数据可视化工具的使用。3.学习与掌握geohash编码方法。学习内容:shapely空间数据模型几何对象的一些功能特性PointLineStringsLineRingsPolygon几何对象之间的关系geopandasList itemFoliumKepler.glGeoHash注意

2021-04-13 21:04:32 194 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除