- 博客(80)
- 收藏
- 关注
原创 Mac/Linux系统matplotlib中文支持问题
matplotlib是python中最常用的数据可视化分析工具,Mac和Linux系统无中文字体,不支持中文显示(希望后续可以改进),需要进行字体的下载和设置才能解决。笔者经过实践,发现Mac系统和Linux系统解决方案略有区别,因此分别记录一下,供读者参考。
2024-08-27 13:47:42
1335
1
原创 使用miniconda构建数据科学环境
数据科学中,不同时期项目代码往往是由不同的版本的python和第三方数据科学包构建,这些不同版本往往会存在兼容性问题,要运行这些代码,需要管理不同的版本的安装包。Conda是一个开源的包管理和环境管理系统,环境管理允许用户创建不同的独立的虚拟环境,可以在其中安装不同版本的python和包,而且支持方便快速地切换虚拟环境anaconda和miniconda都集成了conda,二者的区别是anaconda预安装了300多个常用的数据科学包,安装包非常大(安装需要4~5G空间),有图形化界面,比较适合新手使用。
2024-08-25 21:53:57
1232
原创 深度学习中embedding层的理解
在深度学习领域中,Embedding层扮演着至关重要的角色,尤其在处理文本数据或类别数据。Embedding层的功能有两个:1. 将高维稀疏的输入数据(如单词、类别标签等)转换为低维稠密的向量表示,可以大幅降低数据存储和计算量。2. 低维稠密向量捕获了输入之间的语义和上下文信息,语义相近、类别相近的单词或者类别,其表示向量相似度也高,使得模型能够更好地理解数据信息并进行预测推理。上述两个原因,使得模型能够更好的学习和处理输入数据。
2024-06-10 09:50:18
2282
6
原创 深度学习模型断点调试
IDE可以帮助开发者高效地进行代码调试,例如,IDE提供了设置断点的功能,可以在代码运行到特定位置时暂停,以便开发者检查变量值、内存使用情况等信息,理解代码的运行逻辑,更快地定位和修复问题。本文介绍了深度学习模型IDE debug设置方法,深度学习模型涉及到多个python文件,同时,模型参数采用命令行传参的方式,这种情况的debug方式和单个文件有所不同。
2024-04-26 11:11:24
649
原创 深度学习-tensorflow 使用keras进行深度神经网络训练
深度学习网络的训练可能会很慢、也可能无法收敛,本文介绍使用keras进行深度神经网络训练的加速技巧,包括解决梯度消失和爆炸问题的策略(参数初始化策略、激活函数策略、批量归一化、梯度裁剪)、重用预训练层方法、更快的优化器算法,以及学习率的调度策略。
2023-05-03 11:43:53
2661
原创 深度学习-Tensorflow Keras使用函数式API构建复杂模型
在深度学习中,并非所有的网络结构都是顺序神经网络,还存在非顺序神经网络,比如有多个输入或者输出的网络,比较典型的是“Wide&Deep”网络(Heng-Tze Cheng et al.,Wide & Deep Learning for Recommender Systems), 此时就需要使用函数式API来构建复杂的网络了。
2023-04-09 17:58:17
486
原创 深度学习-Tensorflow使用Keras进行模型训练
本文以FasionMNIST/加州房价数据集为例,介绍KerasAPI进行分类问题/回归问题模型训练的方法
2023-03-19 11:17:24
3052
1
原创 机器学习-集成学习(模型融合)方法概述
模型融合方法广泛应用于机器学习中,其原因在于,将多个学习器进行融合预测,能够取得比单个学习器更好的效果,实现“三个臭皮匠,顶一个诸葛亮”,其原因在于通过模型融合,能够降低预测的偏差和方差。本文对模型融合中常见的三种方法进行一个简要介绍:包括Bagging、Boosting、Stacking.........
2022-08-13 11:09:31
2819
原创 机器学习在竞赛和工业界应用区别
机器学习在竞赛和工业界应用是有很大区别的,竞赛通常关注极致的评价指标,而工业应用会在满足应用标准的前提下,会更加关注模型的稳定性、可解释性和领域专家知识的应用
2022-07-24 16:31:23
445
原创 Linux系统下使用kaggle API下载竞赛数据
在参加Kaggle竞赛或者学习训练时,需要将数据下载到本地或者服务器上。Kaggle提供了2种下载方法,一种是普通的web下载,一般本地的windows/mac系统建议采用这种方法,另外一种是kaggle API下载方法,建议在Linux服务器上使用。......
2022-06-06 08:54:48
2219
原创 机器学习-集成学习-提升树-LightGBM
GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,该模型具有训练效果好、不易过拟合等优点。在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点
2022-01-02 12:30:52
376
原创 机器学习-集成学习-提升树-Xgboost
xgboost 的全称是eXtreme Gradient Boosting,由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。所以不考虑细节方面,两者最大的不同就是目标函数的定义,接下来就着重从xgboost的目标函数定义上来进行介绍。
2022-01-02 11:47:41
701
原创 机器学习-集成学习-梯度提升决策树(GBDT)
提升树(Boosting Tree)是以分类树或者回归树位基本分类器到提升方法,提升树被认为是统计学习中性能最好的方法之一Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重(Ada Boosting),或者让新的预测器对前一个预测器到残差进行拟合(GBDT)。预测时,根据各层分类器的结果的加权得到最终结果。
2022-01-01 21:34:03
3759
1
原创 机器学习-集成学习:随机森林(Random Forest)
内容参考:https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning/3.1%20Random%20Forest略做修改0.集成学习如果你随机向几千专家询问一个复杂的问题,然后汇总他们的回答,在许多情况下,你会发现,这个汇总的答案比最好的那个专家回答得要好。同样,如果你聚合一组预测器(比如分类器或者回归器)的预测,得到的预测结果也比最好的单个预测器要好,这种聚合一组预测器来进行预测的方法,称为集成学习。例如..
2021-12-27 20:41:01
2723
原创 机器学习-决策树(Decision Tree)
内容参考自:ML-NLP/Machine Learning/3.Desition Tree at master · NLP-LOVE/ML-NLP · GitHub,有修改1. 什么是决策树1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区
2021-12-25 21:04:44
761
转载 [转载]Mac使用vim命令修改配置文件内容
在服务器上部署服务,需要用到jar包起服务,但是不可避免的jar内容有时候需要自己修改配置来适用不同的服务器所在的一个网络环境。不同于windows修改jar包配置文件内容:用压缩工具直接打开jar包修改并保存即可。mac上并没有这样简单易用的mac版工具,于是就打算直接用VIM来实现修改jar包配置文件内容的操作。Vim是一个类似于Vi的著名的功能强大、高度可定制的文本编辑器,下面介绍并使用
2021-12-25 17:55:02
391
原创 机器学习-逻辑斯蒂回归(Logistic Regression)
注:内容转自https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning,略有修改。目录逻辑1. 什么是逻辑斯蒂回归2. 什么是Sigmoid函数3. 损失函数是什么4.可以进行多分类吗?5.逻辑斯蒂回归有什么优缺点6. 逻辑斯蒂回归有哪些应用7. 逻辑斯蒂回归常用的优化方法有哪些7.1 一阶方法7.2 二阶方法:牛顿法、拟牛顿法:8. 逻辑斯特回归为什么要对特征进行离散化。9. 逻辑回
2021-12-12 17:55:23
3449
原创 机器学习-线性回归(Linear Regression)
1.什么是线性回归线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。 回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。2. 能够解决什么样的问题对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就
2021-12-05 16:57:44
2202
原创 scikit_learn中fit()/transform()/fit_transform()区别和联系
函数功能解释fit()根据训练集数据学习得到数据集的特征,比如均值、中位数、标准差等等transform()将fit()学到数据集特征,应用到数据集,比如学习到数据集平均数为6,应用到填充数据中的缺失值fit_transform() = fit()+transform()即将从数据集中学到的特征(均值、中位数、标准差)应用到数据集中举例此处以使用均值填充缺失值举例>>> import numpy as np>>> from skl.
2021-11-29 22:08:23
1955
转载 线性代数知识汇总(转载)
发现一片对线性代数的知识点做了非常好的总结性文章,记录下来,供以后查阅。线性代数知识汇总_MyArrow的专栏-优快云博客_线性代数
2021-10-30 16:47:12
335
转载 Python+Matplotlib制作动画
转载自:https://www.cnblogs.com/endlesscoding/p/10308111.html看到一篇觉得非常不错的Python+Matplotlib制作动画的方法
2021-09-04 22:02:38
285
转载 SVD(奇异值分解)小结
转载自:https://www.cnblogs.com/endlesscoding/p/10033527.html注:奇异值分解在数据降维中有较多的应用,这里把它的原理简单总结一下,并且举一个图片压缩的例子,最后做一个简单的分析,希望能够给大家带来帮助。...
2021-09-04 21:49:28
115
原创 Python中可变数据类型和不可变数据类型
python中数据类型(红色为可变类型)1、字符串 str2、布尔类型 bool3、整数 int4、浮点数 float5、元组 tuple6、日期 date7、列表 list8、字典 dict9、集合 set可变类型和不可变类型的定义这个定义是基于内存地址来说的可变数据类型:变量引用的数据类型,在更改数值的时候,存在不开辟新内存的行为,此数据类型为可变数据类型。不可变数据类型 :变量引用的数据类型,在更改数值的时候,不存在不开辟新内存的行...
2021-08-07 06:52:03
4347
3
转载 Python地理可视化工具包 folium介绍
本文内容转载自:https://www.cnblogs.com/feffery/p/9282808.html一、简介 folium是js上著名的地理信息可视化库leaflet.js为Python提供的接口,通过它,我们可以通过在Python端编写代码操纵数据,来调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图。其语法格式类似ggplot2,是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来。
2021-07-22 16:37:30
4337
1
转载 [转载]sql(hive)中变量的使用
文章来源:https://zhuanlan.zhihu.com/p/89062863我们在学 Python 或者其他编程语言的时候都应该有学过变量这么一个东西,可是 Sql 这种查询语言中怎么也有变量呢?具体有什么用呢?我们来看一下实际应用场景。现在有这么一个表 t ,表结构如下:time1 表示浏览日期,time2 表示加购物车日期,time3 表示下订单日期,time4 表示收货日期。这四个日期有什么关系呢?就是都有可能不相等,也有可能都相等,还有可能部分相等。如果我们想要
2021-03-07 21:49:24
6936
2
原创 支持向量机原理及scikit-learn实现
引言支持向量机(SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或者非线性分类、回归,甚至异常值检测任务。它是机器学习最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配置一个。SVM特别适用于中小型复杂数据分类。目录引言线性可分和线性不可分线性可分数学定义(二维):线性可分情况下的最优分隔平面线性可分情况下最优分隔平面的数学理论(优化理论)二次规划问题线性不可分情况下的最优分隔平面少数样本导致线性不可分情况大量样本线性不可分情况线性不可
2021-02-17 22:09:46
961
原创 机器学习模型训练问答
内容主要来自Aurelien Geron《Hands-on Machine Learning withi Scikit-Learn&TensorFlow》线性回归1. 如果训练集超过百万个特征,你需要选择什么线性回归算法进行训练?答:使用随机梯度下降(SGD)或者小批量梯度下降(mini-batch gradient descent),如果内存允许,甚至也可以使用批量梯度下降(batch gradient descent),但是由于计算复杂度随特征数增加而快速上升(比二次方还高),因此,
2021-01-31 19:17:09
2745
原创 线性回归模型算法原理及Python实现
线性回归方程线性回归模型的一般表达式:转换为向量表达形式为:训练线性回归模型,主要是得到一组向量,使得均方误差MSE(成本函数)最小参数求解方法一:标准方程MSE为凸函数,有唯一最优解(最小值),为了求解,可以令MSE对求偏导数为0,得到解:手动求解线性回归方程现在我们来使用标准方程计算:import numpy as npX = 2 * np.random.rand(100, 1) # 生存100 X 1维向量(均匀分布随机数)y = 4 + ...
2021-01-24 18:17:55
2436
原创 Pandas数据分析常用数据操作(3年总结)
原创文章,转载请注明来源,谢谢导入设置import odpsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] # matplotlib画图中文支持plt.rcParams['axes.unicode_minus']=False # matplotlib画图
2021-01-09 20:48:56
1688
1
原创 嵩天-Python语言程序设计程序题--第九周:Python计算生态纵览
前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,与大家一起学习交流。目录系统基本信息获取描述输入输出示例二维数据表格输出描述输入输出示例系统基本信息获取描述获取系统的递归深度、当前执行文件路径、系统最大UNICODE编码值等3个信息,并打印输出。
2020-12-02 20:17:42
380
原创 嵩天-Python语言程序设计程序题--第八周:程序设计方法学
前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,与大家一起学习交流。目录英文字符的鲁棒输入描述输入输出示例数字的鲁棒输入描述输入输出示例英文字符的鲁棒输入描述获得用户的任何可能输入,将其中的英文字符进行打印输出,程序不出现错误。
2020-11-21 17:51:24
592
原创 嵩天-Python语言程序设计程序题--第七周:文件和数据格式化
前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,和大家一起学习交流目录文件行数文件字符分布文件独特行数CSV格式列变换CSV格式数据清洗文本的平均列数 描述 输入输出示例CSV格式清洗与转换 描述 输入输出示例文件行数打印输出附件文件的有效行数,注意:空行不计算为有效行数。...
2020-11-21 16:58:17
1917
原创 嵩天-Python语言程序设计程序题--第六周:组合数据类型
前言:嵩天老师的《Python语言程序设计课程》被评为国家精品课程,在幕课上累计超过11万学员,里面的习题对初学者入门Python,提高编程实战能力很有帮助。因此,我想把自己学习这门课程作业分享出来,和大家一起学习交流目录实例9:基本统计值计算描述输入输出示例实例10:文本词频统计 -- Hamlet描述输出样例人名独特性统计描述输入输出示例字典翻转输出描述输入格式输入输出示例《沉默的羔羊》之最多单词描述输入格式输出格式输入输出示例
2020-11-14 17:08:41
4442
原创 文本字符串中提取数据进行分析
需求在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见。比如,需要下列表格“基础薪资规则”字段中提取阶梯单量和价格。而且表格中,大部分规则是4档单量和价格,也有部分是3档规则和价格。格式为:第1档单量 第2档单量 第3档单量 第4档单量 第1档价格 第2档价格 第3档价格 第4档价格 200 250 300 9999 3.8 4.8 5.0
2020-11-09 20:44:45
1248
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人