- 博客(35)
- 收藏
- 关注
原创 Python面向对象-高级用法
python的魔法函数总被双下划线包围,它们可以给你的类增加特殊的方法。如果你的对象实现了这些方法中的一个,那么这个方法就会在特殊情况下被调用,你可以定义想要的行为,而这一切都是自动发生的。
2023-03-31 13:00:01
493
原创 如何在 Debian 10 上安装 Python 3.9
我们已经向您展示了如何在您的 Debian 10 系统上安装 Python 3.9。您现在可以创建一个虚拟环境并开始开发您的 Python 项目。
2023-03-28 21:12:28
1544
原创 configparser 模块
配置文件的格式如下:中括号“[ ]”内包含的为section。section 下面为类似于key-value 的配置内容。紧接着section 为类似于key-value 的options 的配置内容。2、获取指定section 的options。以下的几行代码只是将文件内容读取到内存中,进过一系列操作之后必须写回文件,才能生效。5、修改某个option的值,如果不存在则会出创建。3、获取指点section下指点option的值。4、获取指点section的所用配置信息。1、获取所用的section节点。
2023-03-28 21:11:54
404
原创 01基本概念
在单元格模式下,第一行语句(与魔法命令在同一行的语句)为设置(初始化)语句,作用是可以用来定义变量供后续的代码使用。在单元格模式下,第一行语句(与魔法命令在同一行的语句)为设置(初始化)语句,作用是可以用来定义变量供后续的代码使用。但是,因为魔法命令具有最低的优先级,这意味着,但魔法命令与我们定义的命名冲突时,优先选择的是自定义的名称。因此,建议:当使用魔法命令时,总是使用%前缀。当automagic处于开启状态,如果我们定义了与魔法命令相同名称的变量(或方法,类)时,访问的将是我们自定义的名称。
2023-03-23 13:33:27
289
原创 01_机器学习概述
人工智能(Artificial Intelligence)是计算机科学的一个分支,目的是让计算机能够像人一样,对外界的环境做出反应。而机器学习,正是实现人工智能的一种方式。
2023-03-23 12:14:41
154
原创 02_线性回归
线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系。当只有一个自变量时,称为一元线性回归,当具有多个自变量时,称为多元线性回归。
2023-03-23 12:07:53
1692
原创 03_过拟合与欠拟合
拟合指的是构建的模型能够符合样本数据的特征。与拟合相关的两个概念是欠拟合与过拟合。欠拟合:模型过于简单,未能充分捕获样本数据的特征。表现为模型在训练集上的效果不好。- 过拟合:模型过于复杂,过分捕获样本数据的特征,从而将样本数据中一些特殊特征当成了共性特征。表现为模型在训练集上的效果非常好,但是在未知数据上的表现效果不好。
2023-03-23 12:04:31
316
原创 04_梯度下降
梯度是一个向量,表示函数在某一点处的方向导数。可以通过梯度指引的方向,进而求解函数的极值。过程为:1. 设定一个初始坐标点。2. 求解该坐标点的梯度值。3. 根据梯度值指定的方向,前进一段距离,更新坐标值。4. 重复步骤2-3,直到迭代到指定的次数,或者连续迭代两次的y值小于指定的阈值为止。
2023-03-23 09:33:44
83
原创 05_逻辑回归
逻辑回归是一个分类算法。其优点在于,逻辑回归不仅能够进行分类,而且还能够获取属于该类别的概率。这在现实中是非常实用的。例如,某人患病的概率,明天下雨的概率等。逻辑回归实现分类的思想为:将每条样本进行“打分”,然后设置一个阈值,达到这个阈值的,分为一个类别,而没有达到这个阈值的,分为另外一个类别。对于阈值,比较随意,划分为哪个类别都可以,但是,要保证阈值划分的一致性。
2023-03-23 09:31:39
146
原创 06_KNN
KNN(k-nearest neighbor),即K近邻算法。K近邻就是K个最近的邻居,当需要表示一个样本(值)的时候,就使用与该样本最接近的K个邻居来决定。KNN既可以用于分类,也可以用于回归。KNN算法的原理在于,样本映射到多维空间时,相似度较高的样本,其距离也会比较近,反之,相似度较低的样本,其距离也会比较远。我们可以将该算法理解为“近朱者赤,近墨者黑”。
2023-03-23 09:26:33
172
原创 07_决策树
决策树是一种非参数监督学习方法,用于分类与回归。 目标是创建一个模型,从数据特征中进行学习,进而推断出的简单决策规则,用来预测目标变量的值。决策树是一种树形结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
2023-03-23 08:37:02
183
原创 08_集成学习
集成学习(集成方法)是一种解决问题的思想(不是具体的算法)。操作为将若干个基本评估器(分类器&回归器)进行组合,然后使用这些基本评估器来综合对未知样本进行预测。通过这种“集思广益”的行为,比起使用单个基本评估器进行预测,集成学习具有更好的泛化能力与稳健性。
2023-03-23 08:28:27
114
原创 06_02_Spark Streaming
它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务,数据一般都是在固定位置上,通常我们写好一个脚本,每天定时去处理数据,计算,保存数据结果。这类任务通常是T+1(一天一个任务),对实时性要求不高。但在企业中存在很多实时性处理的需求,例如:双十一的京东阿里,通常会做一个实时的数据大屏,显示实时订单。这种情况下,对数据实时性要求较高,仅仅能够容忍到延迟1分钟或几秒钟。实时计算框架对比Storm。
2023-03-09 17:52:02
462
原创 06_01_Spark SQL
Spark SQL概念它是spark中用于处理结构化数据的一个模块Spark SQL历史Hive是目前大数据领域,事实上的数据仓库标准。Shark:shark底层使用spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。底层很多东西还是依赖于Hive,修改了内存管理、物理计划、执行三个模块2014年6月1日的时候,Spark宣布了不再开发Shark,全面转向Spark SQL的开发Spark SQL优势。
2023-03-09 17:43:57
425
原创 05 Spark_Core
1、什么是spark基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。2、为什么要学习sparkMapReduce框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和启动开销大3,无法充分利用内存4,不适合迭代计算(如机器学习、图计算等等),交互式处理(数据挖掘)5,不适合流式处理(点击日志分析)6,MapReduce编程不够灵活,仅支持Map和Reduce两种操作Hadoop生态圈。
2023-03-09 15:10:16
168
原创 04 Hive&HBase
Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive 本质: 将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,是一款基于 HDFS 的 MapReduce计算框架主要用途用来做离线数据分析,比直接用 MapReduce 开发效率更高。UDF。
2023-03-09 14:54:37
215
原创 03 Hadoop
作者:Doug cuttingHadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Yet Another Resource Negotiator, 另一种资源协调者通用资源管理系统为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发。
2023-03-07 00:13:36
557
原创 02 推荐算法-(03) 基于关联规则的推荐
基于关联规则的推荐思想类似基于物品的协同过滤推荐关联分析中最有名的例子就是“啤酒与尿布”。据报道,在美国沃尔玛超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西,为什么会放在一起售卖呢?原来,在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一点尿布回来,而丈夫在买完尿布后,大都会顺手买回一瓶自己爱喝的啤酒(由此看出美国人爱喝酒)。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。
2023-03-05 18:20:20
575
原创 02 推荐算法-(02) 基于内容的推荐算法(Content-Based)
word2vec是google在2013年开源的一个NLP(Natural Language Processing自然语言处理) 工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。animalpetdog-0.40.02lion0.20.35animal那一列表示的就是左边的词与animal这个概念的”距离“
2023-03-05 18:19:15
1732
原创 02 推荐算法-(01) Model-Based 协同过滤算法
随着机器学习技术的逐渐发展与完善,推荐系统也逐渐运用机器学习的思想来进行推荐。将机器学习应用到推荐系统中的方案真是不胜枚举。以下对Model-Based CF算法做一个大致的分类:接下来我们重点学习以下几种应用较多的方案:基于K最近邻的协同过滤推荐其实本质上就是MemoryBased CF,只不过在选取近邻的时候,加上K最近邻的限制。这里我们直接根据MemoryBased CF的代码实现修改以下地方修改所有的选取近邻的地方的代码,根据相似度来选取K个最近邻但由于我们的原始数据较少,这里我们的KNN方法的
2023-03-05 18:17:24
437
原创 01_推荐系统简介
个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载,系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载,
2023-02-28 15:20:57
3107
2
原创 Kaggle数据集下载问题
Kaggle数据集下载问题关于kaggle没有办法下载数据集dataset问题问题:我试图下载房价预测数据集,没有反应,或者断开连接,提示检查代理服务器。1.首先,打开cmd安装kaggle库。命令:pip install kaggle2.然后,Win + R,输入 %HOMEPATH% 进入Windows 主页下查看是否有 .kaggle 文件夹生成。3.检查是否安装成功kagg...
2019-10-12 09:25:45
3040
1
转载 PIP 更换国内安装源
pip国内的一些镜像阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 中...
2019-06-28 20:07:54
4500
转载 如何自动生成和安装requirements.txt依赖
在查看别人的Python项目时,经常会看到一个requirements.txt文件,里面记录了当前程序的所有依赖包及其精确版本号。这个文件有点类似与Rails的Gemfile。其作用是用来在另一台PC上重新构建项目所需要的运行环境依赖。requirements.txt可以通过pip命令自动生成和安装生成requirements.txt文件pip freeze > requirement...
2019-04-08 21:00:53
1610
原创 Python操作三大数据库之MySQL-第2章 mysql基础
第2章 mysql基础介绍MySQL的安装及配置,使用Navicat 和 phpMyAdmin 进行图形化管理数据库。然后讲解SQL基础,重点包括建表、建库语句,新增、修改、删除、查询语句等重点知识。为了巩固基础,在此处安排了一个“设计新闻表”的实战。课程内容1.安装和配置2.图形化管理工具3.语法基础4.新闻表设计2-1 mysql安装及配置直接安装下载地址:www.mysq...
2019-03-03 12:18:18
448
原创 Python操作三大数据库之MySQL-第 1 章 数据库简介
第 1 章 数据库简介数据库的分类和比较数据库分类1.关系型数据库2.非关系型数据库(NoSQL(not only sql))(百度百科)非关系型数据库分类1.文档型2.key-value型3.列式数据库4.图形数据库MySQL简介讲解数据库基本知识,关系型数据库和非关系型数据库的对比,非关系型数据库的分类以及其应用场景,最后介绍MySQL数据库。数据库的分类和比较数据库分类1.关系型...
2019-03-03 12:01:36
303
转载 Basemap 安装
1.basemap地图包简介在python的众多扩展包packages中,[matplotlib](https://matplotlib.org/index.html)是用的最普遍的绘图包,而为了能够扩展其在地图绘制领域的功能(尤其在气象,地理等学科中有广泛的需求)Basemap模块就刚好能满足这一要求。2.安装方法Basemap模块相比于普通的几兆大小的安装包来说是很大的了,打包压缩后的包...
2018-12-07 16:57:31
2611
原创 ImportError: No module named 'thread'
在site-packages文件夹下,新建一个文件“thread.py”,粘贴以下代码:from _thread import *__all__ = ("error", "LockType", "start_new_thread", "interrupt_main", "exit", "allocate_lock", "get_ident", "sta
2018-11-24 10:48:37
1500
转载 markdown表格制作
Name | Academy | score - | :-: | -: Harry Potter | Gryffindor| 90 Hermione Granger | Gryffindor | 100 Draco Malfoy | Slytherin | 90原文:https://blog.youkuaiyun.com/tuxingchen6/article/details/55222951...
2018-11-21 11:41:27
416
转载 numpy常用方法
1、multiply对应位置上面的元素进行相乘。import numpy as npx1 = [1, 2, 3]x2 = [4, 5, 6]np.multiply(x1, x2)array([ 4, 10, 18])2、std 标准方差 ,var 方差b = [1, 3, 5, 6]np.var(b)3.6875np.std(b)1.92028643696715...
2018-11-20 18:11:43
831
转载 大话CNN经典模型:GoogLeNet(从Inception v1到v4的演进)
2014年,GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄,GoogLeNet获得了第一名、VGG获得了第二名,这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构(详见 大话CNN经典模型:VGGNet),而GoogLeNet则做了更加大胆的网络结构尝试,虽然深度只有22层,但大小却比AlexNet...
2018-11-13 09:10:50
239
原创 OpenCV
1.环境配置(Anaconda下)pip install opencv-python (--upgrade)pip install opencv-contrib-python (--upgrade)# 根据情况可能还需要升级numpypip install numpy --upgrade2.源码(1)文件内容:data中存放“haarcascade_frontal...
2018-11-12 19:48:04
848
原创 matplotlib.pyplot中文字体显示
方法1:import matplotlibfont = {'family': 'MicroSoft Yahei', 'weight': 'bold', 'size': 12}matplotlib.rc("font", **font)实例:import matplotlibimport matplotlib.pyplot as pltimpor...
2018-11-07 22:32:30
7460
3
转载 pymysql的使用
1.取得 MYSQL 的版本import pymysqlimport getpass # 该模块无法在pycharm中使用con = Nonetry: pwd = getpass.getpass("请输入root账户密码:") # 连接mysql的方法,connect('ip', 'user', 'password', 'dbname') con = pymy...
2018-11-06 12:32:05
485
转载 Alexnet 和 VGGnet学习整理笔记
Alex NetAlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网路被提出,比如优秀的vgg,GoogleLeNet。其官方提供的数据模型,准确率达到57.1%,top 1-5 达到80.2%. 这项对于传统的机器学习分类算法而言,已经相当的出色。上图所示是caffe中alexnet的网...
2018-10-30 19:51:55
2131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人