
python
文章平均质量分 79
天甜费,
python,为梦想启航
展开
-
#10生活小妙招:如何转行it行业(python入行)
#各位如果看了我之前的博客,也就知道我一直在学习python,但其实我是一个新能源行业的电池系统测试工程师;为什么要学习python呢,我和很多人都不一样,我是真的喜欢敲代码这个事情,会让我感觉很有意义,这种感觉不是当时的工作所能给予的。选择python,也有几个原因,代码的简洁,附属库很多,给人一种无所不能的感觉,所以我坚持了一年多,然后想着找一份相关的工作;最开始是因为通过爬虫进入python的世界,之后又学习了Django,做了个博客系统,然后又学习了数据分析方面:pandas,numpy,matp原创 2021-04-14 23:18:40 · 381 阅读 · 2 评论 -
#9生活小妙招:python基础知识补充(详解装饰器及可能你没注意到的一些知识点)
#装饰器就是一个帽子,一个背包,有了他你就有了新功能,你的代码运行之前会先在装饰器里走一圈;先大致了解一下相关概念:'''python装饰器的本质是函数闭包代码更规范的一种表现形式;装饰器的作用就是为已经存在的函数或对象添加额外的功能。什么是闭包函数:函数中可以(嵌套)定义另一个函数时,如果内部的函数引用了外部的函数的变量,则可能产生闭包(或者这么理解:一个函数,其参数和返回值都是函数:用于增强函数的功能,面向切面编程(AOP))。语法糖:指的是计算机语言中添加某种语法,这种语法对语言的功能没原创 2021-03-13 18:42:55 · 283 阅读 · 1 评论 -
#第30篇分享:乳腺癌预测及SVC的探索(python语言:sklearn支持向量机svm)(6)
⑥.SVM:(可做分类预测及回归预测,选择不同的核函数即可)①算法概念:支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。②.算法思路:初识SVM;加深理解;公式推导,声音磁性,讲解透彻,爱了爱了;③优缺点: 优点:可以解决高维问题,即大型特征空间;能够处理非线性特征的相互作用;无需依赖整个数据;可以提高泛化能力原创 2021-03-08 15:28:28 · 1846 阅读 · 1 评论 -
#第29篇分享:房价预测(python语言:sklearn 线性回归)(5)
b.回归算法:①.线性回归:①算法概念:线性回归才是真正用于回归的,而不像logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化,找到误差函数最低点的线性系数w:②.算法思路:线性回归线性关系模型:损失函数:找损失函数最低点有两个办法:第一个:正规方程:111第二个:梯度下降:③优缺点:优点:实现简单,计算简单;缺点:不能拟合非线性数据;④.代码实例:#coding=gb2312from sklearn.datasets impor原创 2021-03-08 10:59:01 · 475 阅读 · 0 评论 -
#第32篇分享:一个评分卡的数据挖掘(python语言:sklearn 逻辑回归)(8)
⑤.逻辑回归:111①算法概念Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。②.算法思路:③Logistic回归优缺点:优点:实现简单;分类时计算量非常小,速度很快,存储资源低;缺点:容易欠拟合,一般准确度不太高;只能处理两分类问题(在此基础上衍生出来的softmax可原创 2021-03-07 21:52:38 · 596 阅读 · 0 评论 -
#第31篇分享:泰坦尼克生存预测(python语言:sklearn 随机森林)(7)
④.随机森林(分为分类随机森林及回归随机森林):非常好用,及其常用,要弄明白①算法概念:随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的;随机森林运行快速的一个原因是他一棵树只选部分特征进行建立。②.算法思路:每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging (Bagging的特点“随机采样”)思想,回归就原创 2021-03-07 20:53:34 · 478 阅读 · 0 评论 -
#第30篇分享:泰坦尼克生存预测(python语言:sklearn 决策树)(6)
③.决策树:分为分类树及回归树①算法概念:决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它,简单理解就是信息增益越大,用来区分约原创 2021-03-07 20:46:23 · 322 阅读 · 0 评论 -
#第28篇分享:数据聚类及降维(python语言:sklearn 聚类算法KMeans)(4)
c.聚类算法(无监督学习:):①.K-means(k-means clustering algorithm):①算法概念k均值聚类算法是一种迭代求解的聚类分析算法:其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心(质心),然后计算每个对象与各个种子质心之间的距离,把每个对象分配给距离它最近的质心;接着根据距离的均值更换质心,直到质心不变或者变化较小后,聚合结束。从上面可以看出,质心的选择及K的选择会影响最终的聚类效果。②.算法思路:添加链接描述③优缺点:优点:算法容易理解,聚原创 2021-03-07 19:37:08 · 938 阅读 · 0 评论 -
#第27篇分享:数据无量纲化(python语言:sklearn 预处理及特征工程)(3)
4.数据无量纲化:数据预处理,提升算法的准确度:a.无量纲化(nondimensionalize 或者dimensionless):是指通过一个合适的变量替代,就是通过计算,将数据转变为更适合模型计算的数值,经过实践发现无量纲化后确实会加快算法速度及提升准确度。b.机器学习的特点:是数据训练之前的数据需要人工处理一下,因为sklearn模型是不接受字符串类型的数据,我们需要把字符串等类型数据统一转换为模型可识别的数值类型,比如对三分类变量用[0,1,2]代替;c.我们想提升模型的准确度:仅仅把字符串转原创 2021-03-07 18:40:49 · 2541 阅读 · 0 评论 -
#8生活小妙招:数据集的获取(python语言:sklearn 数据集)
附录2:机器学习中的数据集:**数据集:面对自己的任务肯定有自己的数据集,sklearn有内置的数据集,在datasets模块下面;还可以去网站:UCI数据集,kaggle数据集,和鲸社区。#9.===========================================数据集划分:训练集+测试集(75%+25%)====================建立模型,评估模型from sklearn.model_selection import train_test_splitfrom sk原创 2021-03-07 14:49:15 · 189 阅读 · 0 评论 -
#第26篇分享:一个文本分类的数据挖掘(python语言:sklearn 朴素贝叶斯NB)(2)
②.朴素贝叶斯算法:(朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好;它常用于垃圾文本过滤、情感预测、推荐系统等)①算法概念:(小数据,以概率计算,假设特征之间独立)朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。②.算法思路:NB属于娱乐的概率是0,显然是不太好的,所以出现了拉普拉斯平滑系数,就是加上个系数,不让他的值是0:拉普拉斯平滑(模块内原创 2021-03-07 14:35:03 · 545 阅读 · 1 评论 -
#7.生活小妙招-工业标准化数据简单处理(python数据处理)
#本人主要是做新能源动力电池测试的,在未和python相遇的时候还手动进行数据处理,有时候项目进度紧急需要找好几个同事帮忙处理,效率缓慢,而且容易出现错误;使用python:pandas、matplotlib之后实现了数据处理的自动化,大大提升了效率与准确度:1.实例1:电池模组循环寿命数据处理:a.处理目标:①.需要从原始数据里面筛选出如下表数据,b.原始数据格式:①.文件夹(命名有规律,有利于数据处理):②.文件夹内部数据(excle数据):③.数据格式(根据列标签对应的值和shee原创 2021-03-06 23:51:26 · 474 阅读 · 0 评论 -
#6.生活小妙招-搜索及排序算法(python实现)
#排序及搜索算法虽然我们做应用或者数据分析时只要调用底层模块即可,但是我觉的这些算法都非常经典,对思维及理解算法实现都有很大的帮助,正好最近正在看一本python的算法书,特来分享:1.搜索算法:以下代码均成功运行,并输出理论结果:主要介绍的算法:顺序搜索,二分搜索:a.顺序搜索:①.算法思路:搜索数值与列表中数字从头到尾开始比对,找到或者全部搜所完成没有找到:②.算法实例:#顺序搜索:def sequentialSearch(alist,item): pos = 0 fou原创 2021-03-02 16:45:10 · 261 阅读 · 0 评论 -
#5.生活小妙招-大O计算法(计算算法的时间复杂度)
#我们运行一个程序总是说时间多长,有时候会牺牲空间来换取时间,那么程序运行时间在代码界有什么好的表示方法吗?我们来瞅一瞅。持续更新,,,,原创 2021-03-01 19:45:17 · 1083 阅读 · 0 评论 -
#第25篇分享:一个用户签到位置数据挖掘实例(python语言:sklearn KNN)(1)
#sklearn支持向量机,支持向量机是一个相对较难的算法,但是也是非常有用的,无论是回归还是离散的数据预测都可以进行,那么我们就来见识一下他的魅力吧:1.支持向量机的思想:2.实例:持续更新,,,,,,...原创 2021-02-28 20:01:36 · 743 阅读 · 0 评论 -
#第24篇分享:网络编程-知识点笔记(python)
HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。URL是一种特殊类型的URI,包含了用于查找某个资源的足够的信息URL,全称是UniformResourceLocator, 中文叫统一资源定位符,是互联网上用来标识某一处资源的地址。客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与原创 2021-02-18 12:41:28 · 251 阅读 · 2 评论 -
#第23篇分享:一个北京二手房价格数据挖掘实例(python语言:sklearn随机森林)
#本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干:目的:预测二手房的价格;工具:语言python;爬虫模块scrapy,数据清洗:xpath;数据分析:pandas,matplotlib,numpy三剑客;数据预测:sklearn;操作流程:先爬取数据,然后清洗数据及分析数据,最后选择合适的机器学习算法进行房价预测。1.数据爬取(;爬虫模块scrapy,数据清洗:xpath):2.数据分析(pandas,matplotlib,numpy)原创 2021-02-15 22:32:12 · 3047 阅读 · 1 评论 -
#4.生活小妙招-pycharm下面print数据打印显示不全解决办法?全是...
#print数据打印,显示窗口显示不全解决办法:问题:今天在进行pandas数据处理的时候,我把数据读取进来了,但是因为下方显示空间有限,所以有很多数据都被…代替了,很耽误我查看数据之间的关系,所以要想个办法把数据全部显示出来,我觉得人家设计的时候肯定想到了:解决办法:pandas给出了解决办法,我觉得好用,分享一下(参数可以自己改一下,或者注释感受一下效果):#conding=gb2312import pandas as pdimport numpy as npfrom matplotl原创 2021-02-02 10:48:52 · 3902 阅读 · 0 评论 -
#第20篇分享:python初识大数据(2)-HDFS集群搭建
#HDFS分布式存储系统的搭建--------其实就是配置,但是涉及很多,问题也很多1.Linux之间添加信任:2.系统相关文件配置:3.Hadoop HDFS相关文件配置:4.HDFS web 端介绍:持续更新,,,,,,,,,,,,,,...原创 2021-01-16 16:54:22 · 185 阅读 · 0 评论 -
#第19篇分享:python初识大数据(1)-Hadoop开发环境搭建(Hadoop+jdk)
#走进数据的世界-大数据1.什么叫大数据:2.大数据行业做什么?3.我们需要使用哪些工具,做什么:原创 2021-01-10 18:20:21 · 364 阅读 · 0 评论 -
#第18篇分享:python机器学习-sklearn简介(初识0)
#python机器学习-sklearn学习笔记:1.sklearn做什么的:2.与其他模块的区别:3.了解一下各个部分:#持续更,,,,,,,原创 2020-12-28 17:20:08 · 565 阅读 · 0 评论 -
#第17篇分享:python数据处理-pandas,numpy,matplotlib
#python数据处理-pandas,numpy,matplotlib:1.说说各个模块的作用:a.pandas:b.numpy:c.matplotlib:2.各个模块通过实例讲解:#持续更新,,,,,,,,,,,原创 2020-12-27 22:04:51 · 1827 阅读 · 1 评论 -
#第16篇分享:python网站开发-Django源码及视频分享
#以blog项目讲解Django的实际应用1.基础架构2.注意事项:原创 2020-12-21 22:26:27 · 900 阅读 · 2 评论 -
#第9篇分享:python数据存储-MySQL数据库
要想选择一款适合自己的数据库,我们首先要对数据库有个了解:数据库从字面上的理解就是数据的仓库,其实我们平时说的数据库是指数据库管理系统(Database Management System),它是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库,简称DBMS。严格来说数据库是数据库管理系统的实例,一个数据库管理系统可以有多个数据库实例。数据库种类繁多,选择关系型数据库是个明智的选择:数据库不仅仅有我们平时学到的关系型数据库,还有键值(Key-Value)数据库、列存储数据库、文档数据库和搜索原创 2020-10-14 16:31:55 · 381 阅读 · 0 评论