
Data Science
文章平均质量分 75
数据架构
知识就是力量,良知才是方向。良知比知识更重要!
When you want to give up , think about why you started?
千学不如一看,千看不如一练,千练不如一战
ACDU(中国DBA联盟)成员
安徽DBA俱乐部 成员
展开
-
已解决mysql shell 中 没有numpy & pandas module
已解决mysql shell 中 没有numpy & pandas module原创 2022-10-14 16:55:38 · 289 阅读 · 0 评论 -
Linux CentOS 8中 升级Python3.6.8到Python3.9.13
Linux CentOS 8中 升级Python3.6.8到Python3.9.13原创 2022-10-14 16:15:34 · 2379 阅读 · 2 评论 -
About Variables
About Variables原创 2022-07-19 06:41:26 · 1068 阅读 · 0 评论 -
Introduction:Multiple DataFrames
Introduction:Multiple DataFrames原创 2022-07-17 09:16:34 · 285 阅读 · 0 评论 -
Aggregates in Pandas
Aggregates in Pandas原创 2022-07-16 21:56:12 · 494 阅读 · 0 评论 -
Modifying DataFrames in Pandas
Modifying DataFrames in Pandas原创 2022-07-16 19:07:37 · 554 阅读 · 0 评论 -
深入学习Python库中的Pandas 和NumPy
深入学习Python库中的Pandas 和NumPy原创 2022-07-14 21:17:23 · 1505 阅读 · 0 评论 -
讲述如何使用Data Science 的核心工具 Pandas
讲述如何使用Data Science 的核心工具 Pandas原创 2022-07-10 15:05:45 · 519 阅读 · 0 评论 -
数据分析工具Pandas--索引操作总结
理论:Pandas中,使用索引获取数据的方式可归纳为3种:1. .loc,标签索引2. .iloc,位置索引loc与iloc主要用于行索引,其中,使用名称/标签的切片索引是包含末尾位置的。3. 布尔值遮罩:对应位置为True的时候,则取得该数据。实验:数据分析工具Pandas基础索引操作总结In[1]:import pandas as pdimport numpy as npIn[12]:# 构建DataFr...原创 2021-03-18 21:38:32 · 241 阅读 · 0 评论 -
交互式数据可视化工具Boken介绍
可视化工具In[1]:import bokeh# 检查版本是否为0.12.5bokeh.__version__Out[1]:'0.12.5'In[2]:from bokeh.io import output_notebook,output_file,showfrom bokeh.charts import Scatter,Bar,BoxPlot...原创 2021-03-23 08:59:49 · 3444 阅读 · 0 评论 -
PySpark搭建金融实时数据挖掘系统
原创 2021-02-16 19:42:50 · 254 阅读 · 0 评论 -
Machine Learning 高频面试题
第一类问题与机器学习背后的算法和理论有关。【Algorithms】你必须了解算法之间的比较,以及怎样正确地评价它们的效率和准确性。第二类与你的编程能力,对于算法和理论的运行能力有关【Programming】。第三类问题与你对机器学习问题的兴趣相关【General Machine Learning Interest】:你会被问到这个行业的运作如何,以及你如何跟上最新的机器学习趋势。第四类问题与你对于行业和公司理解有关【Company / Industry Specific】:更多地原创 2021-04-26 21:18:27 · 9545 阅读 · 0 评论 -
python中变量、标识符、命名规则、关键字,运算符,基本的数据类型、输入输出、CSV处理
import keywordprint(keyword.kwlist)主要运算符运算符的优先级主要运算符运算符的优先级Python数据类型类型转换Python数据可以通过 类型名(变量名) 的方式进行变量类型的转换操作,主要的转换操作包括:输入输出读取键盘输入str = input("请输入:")print ("你输入的内容是: ", str)...原创 2021-03-06 15:11:28 · 193 阅读 · 0 评论 -
机器学习算法高频面试题
1 有哪些你熟悉的监督学习和无监督学习算法?监督学习:线性回归、逻辑回归、支持向量机、神经网络、决策树、贝叶斯无监督学习:K-均值聚类、PCA2 生成模型和判别模型的区别?1、判别式模型评估对象是最大化条件概率p(y|x)并直接对其建模,生成式模型评估对象是最大化联合概率p(x,y)并对其建模。2、生成式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。3 线性分类器与非线性分类器的区别以及优劣线性分类器就是用一个超平面将正负样本分开,非线性分类器就是用一个“超曲面”将政府样本分原创 2021-06-10 06:54:42 · 234 阅读 · 0 评论 -
python控制流
if条件判断if 条件: 逻辑代码else: 其他逻辑代码多判断条件if 条件1: 逻辑代码1elif 条件2: 逻辑代码2elif 条件2: 逻辑代码3else: 其他逻辑代码if嵌套if 条件1: if 内部条件1 内部逻辑代码1 elif 条件2: 内部逻辑代码2 else: 内部逻辑代码3elif 条件2: 内部逻辑代码2else原创 2021-03-07 16:15:48 · 166 阅读 · 0 评论 -
Pandas高阶--第一节 层级索引、分组与聚合介绍、GroupBy对象及常用的聚合操作、自定义分组及聚合操作
实验: 第6课 数据分析工具第一节 层级索引In[30]:import pandas as pdimport numpy as npIn[2]:# 文件路径filepath = r'C:\Users\ShanPan\ML Learning\Projects\第四章-数据分析预习内容\第四章-数据分析预习内容\第二节-数据分析工具pandas高阶\3_lesson_06\lesson_06\examp...原创 2021-03-21 21:31:36 · 460 阅读 · 0 评论 -
python基础中,列表的定义及相关应用
列表定义name_list = ["zhangsan","lisi","wangwu"]顺序存储,可通过下标获取内部元素name_list[0]name_list[1]内容可变,可通过下标修改元素值name_list[0] = "xiaobai"for方式遍历for item in name_list: print(item)添加元素append()/insert()+组合两个列表生成新的列表extend向调用它的列..原创 2021-03-07 13:21:07 · 254 阅读 · 0 评论 -
Jupyter notebook的应用
Jupyter notebook 是一种 Web 应用,能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。Jupyter notebook 已迅速成为数据分析、机器学习等领域的工作人员在进行数据清理和探索时所需的必备工具。notebook 能将文档及代码等一切相关资料集中到一处,让用户一目了然。Jupyter notebook 源自 IPython,是一种交互式 shell,与普通的 Python shell 相似。最初,notebook 的工作方式是,将来自 Web 应原创 2021-03-06 10:59:51 · 712 阅读 · 0 评论 -
python中的异常处理
捕获异常try: 逻辑代码块except ExceptionType as err: 异常处理方法捕获多个异常try: 逻辑代码块except (ExceptionType1, ExceptionType2,…) as err: 异常处理方法捕获所有可能发生的异常try: 逻辑代码块except (ExceptionType1, ExceptionType2,…) as err: 异常处理方法except Exception as err: 异常处理方法原创 2021-03-10 21:05:34 · 616 阅读 · 0 评论 -
数据分析工具Pandas基础——数据结构--Series
Pandas的介绍:一个强大的分析结构化数据的工具集基础是NumPy,提供了高性能矩阵的运算pd.Series数据结构:1.构建Series数据:通过数组/列表通过dict2.获取索引:ser_obj.index3.获取数据:1>获取所有数据:ser_obj.values2>依据名称获取Series中的某些值:ser_obj[‘idx_name’], 或 ser_obj.loc[‘idx_name’],其中假设了ser_obj的索引由”idx_name原创 2021-03-18 07:38:33 · 475 阅读 · 0 评论 -
数据分析工具Pandas基础 数据清洗--处理缺失数据、处理重复数据、替换数据处理
理论:明确问题:数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?数据清洗的特点:是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作处理缺失数据:判断是否存在缺失值,ser_obj.isnull(), df_obj.isnull(),可以结合any()判断行/列中是否存在缺失值1.丢弃缺失数据:dropna(),注意inplace参数2.填充缺失数据:fillna(value),以value填充数据ffill()和bfi原创 2021-03-20 20:34:58 · 1184 阅读 · 0 评论 -
python面向对象基础_概要
面向对象定义是一种解决软件复用的设计和编程方法。 这种方法把软件系统中相似的操作逻辑、数据、状态等以类的形式描述出来,通过对象实例在软件系统中复用,从而提高软件开发效率。类一个事物的抽象,定义了一类事物的属性和行为。对象通过类创建的一个具体事物,它具有状态和行为,可以做具体的事情。类与对象的关系类相当于创建对象的模板,根据类可以创建多个对象。类的构成1. 名称2. 属性3. 方法类的定义class 类名: def 方法名(self[,参数列表])创建对象原创 2021-03-10 20:07:59 · 96 阅读 · 0 评论 -
数据分析工具Pandas基础--DataFrame的索引操作
知识要点依据索引获取数据:列索引:df_obj[‘label’]不连续列索引:df_obj[ [‘label1’, ‘label2’] ]行索引,loc[ ],iloc[ ]Inplace参数:Pandas中的很多操作都有参数inplace,如 drop(),replace() …默认 inplace=False,表示将操作后的结果进行返回,对原始数据不会产生影响inplace=True,没有返回值,在原始数据上进行操作,对原始数据会产生影响第五节 Da...原创 2021-03-18 21:17:44 · 456 阅读 · 0 评论 -
Anaconda的安装及使用
安装AnacondaAnaconda 可用于 Windows、Mac OS X 和 Linux。安装程序链接:https://www.anaconda.com/download/。如果计算机上已经安装了 Python,这不会有任何影响。Anaconda使用自己附带的Python。选择 Python 3.6 版本(你也可以根据具体的需要选择 Python 2 的版本)。如果是 64 位操作系统,则选择 64 位安装程序,否则选择 32 位安装程序。完成安装后,打开Anaconda Prom..原创 2021-03-06 10:32:00 · 306 阅读 · 0 评论 -
机器学习大纲
python简介全世界有众多的编程语言(大概有600多种),流行的可能有20多种,包括C/C++、Java、Go、perl、scala、shell、PHP、Julia、R、Python,Python是一种非常容易上手,对于非计算机背景的同学非常友好的编程语言。Python编写的代码可读性非常好,因此很容易理解他人的代码逻辑与编写代码。Python就为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池(batte...原创 2021-03-24 06:23:22 · 194 阅读 · 0 评论 -
数据可视化面试题
问答题1.随机从某超市抽取10个顾客,得到他们购物所花费的金额(单位:元) 数据:388,24,152,63.2,224.6,26,69,70,138,213 请问我们可以用哪些统计量,分析该组数据? 中心趋势统计量: median(均值), mean(中位数),mode(众数) 散布程度统计量:标准差(方差),四分位极差 (极差range=Max - Min 四分位极差(IQR)= Q3 - Q1) 分布形状统计量: 偏度系数和峰度系数偏度是用于衡量数据分布对称性的统计量:通原创 2021-04-05 11:14:35 · 4993 阅读 · 0 评论 -
Non Linear Regression Analysis
If the data shows a curvy trend, then linear regression will not produce very accurate results when compared to a non-linear regression because, as the name implies, linear regression presumes that the data is linear. Let's learn about non linear regressio原创 2021-05-07 21:33:35 · 231 阅读 · 0 评论 -
Data Ming: Theory & Algorithms-Day2
实验工具:研究软件:可视化工具原创 2021-02-20 07:03:17 · 215 阅读 · 0 评论 -
数据科学与Python
数据科学与Python深度学习/人工智能google:tensorflowfacebook:pytorch+caffe2Amazon:mxnet+gluon百度:paddlepaddle非常容易上手的一些package:Keras Tflearn tensorlayer机器学习numpy scipy pandas scikit-learn xgboost/LightGBM 大数据大数据整体是由Java/scala等语言主导的方向,但是目前有很多python的方式可以无缝衔原创 2021-03-04 21:03:42 · 198 阅读 · 1 评论 -
Python使用缩进来
规则1. Python使用缩进来标识代码块。2. 缩进空格数可变,同一代码块的语句必须包含相同缩进。3. 使用反斜杠连接多行。习惯1. 在功能相差较大的代码块之间通常用空行分割。2. 并不影响代码执行。3. 使用反斜杠连接多行。空行良好的注释可以让代码可读性更高,便于代码使用者及维护者更好的理解、使用和改进代码。单行注释以#开头,只注释#开头的一行。多行注释''' 注释内容''' 或者"""注释内容""",可以对多行内容整体进行注释。...原创 2021-03-06 11:55:22 · 334 阅读 · 0 评论 -
Python的一些常用函数
zip函数作用将可迭代对象,打包成由对象中的对应元素组成的元组列表(Python2)或者Zip对象(Python3)语法zip([iterable, ...])注意1. 当各个迭代器的元素个数不一致时,则返回列表长度与最短的对象相同。2. 使用”*”做解压操作。1当作为参数传入zip函数的各个迭代器的元素个数不一致时,返回的结果将是:A. 结果的元素个数与元素个数最多的传入参数的元素个数相同。输入参数中,元素个数少的将按照从头循环取数的方式寻找匹配元素。 比如.原创 2021-03-12 21:03:27 · 180 阅读 · 0 评论 -
Pandas-常用统计分析方法 describe、quantile、sum、mean、median、count、max、min、idxmax、idxmin、mad、var、std、cumsum
理论:describe():快速查看每列数据的统计信息,以下是可以输出的统计指标count,数据个数(非空数据)mean,均值std,标准差min,最小值25%,第1四分位数,即第25百分位数50%,第2四分位数,即第50百分位数75%,第3四分位数,即第75百分位数max,最大值quantile(q):输出指定位置的百分位数,默认q=0.5,q的范围是[0,1]常用统计方法:sum(),求和mean(),求均值median(),求中位数.原创 2021-03-20 22:12:22 · 7163 阅读 · 0 评论 -
python函数
函数定义def 函数名称 (参数) : 函数体代码 return 返回值调用方法函数名(参数)缺省参数1. 函数定义带有初始值的形参2. 函数调用时,缺省参数可传,也可不传3. 缺省参数一定要位于参数列表的最后4. 缺省参数数量没有限制命名参数1. 调用带有参数的函数时,通过指定参数名称传入参数的值2. 可以不按函数定义的参数顺序传入局部变量1. 函数内部定义的变量2. 不同函数内的局部变量可以定义相同的名字,互不影响3.作用范围:函数体内有效,其他函数不.原创 2021-03-09 19:58:16 · 4101 阅读 · 0 评论 -
数据分析工具Pandas基础--运算与对齐
理论:知识要点Series的运算:对齐操作发生在索引上DataFrame的运算:对齐操作会同时发生在行和列上,注意:Series和DataFrame操作时,Series被看作行数据(index被看作列),和DataFrame中的每行数据进行计算。Series和DataFrame的对齐和运算方式:索引与数据的对应关系仍保持在数组运算的结果中。若是没有对齐的位置,则运算结果位置默认补NaN实验:第七节运算与对齐In[1]:impor...原创 2021-03-19 06:41:25 · 395 阅读 · 0 评论 -
数据分析工具Pandas基础 --文本读写操作、排序操作
理论:知识要点读取数据:pd.read_csv(filepath, usecols, index_col)filepath: 文件路径usecols: 指定需要读取的列(默认全部读取)index_col: 指定某列为索引列,默认会生成一列索引 0, 1, …df.info():快速查看数据基本信息保存数据:df.to_csv(filepath, index)filepath: 保存的路径index: 是否将索引列保存,默认为True按索引排序:sort_...原创 2021-03-19 08:32:48 · 568 阅读 · 0 评论 -
pandas高阶--透视表介绍
In[36]:# 创建dataframed = { 'Name':['Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine', 'Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine'], 'Semester':['Semester 1','Semester 1','Semester 1','Semest...原创 2021-03-21 22:05:37 · 256 阅读 · 0 评论 -
数据分析工具Pandas基础--Series的索引操作
理论:行索引:按索引位置:ser_obj[pos]按索引名称:ser_obj[‘label’]切片索引:按索引位置:ser_obj[2:4]按索引名称:ser_obj[‘label1’: ‘label3’],注意,按索引名切片操作时,是包含终止不连续索引:ser_obj[ [‘label1’, ‘label2’, ‘label3’] ]ser_obj[ [pos1, pos2, pos3] ]实验:第四节 Series的索引操作In[1]:...原创 2021-03-18 20:32:18 · 1247 阅读 · 0 评论 -
Data Ming: Theory & Algorithms-Day1
...原创 2021-02-17 22:11:06 · 121 阅读 · 0 评论 -
Choose the best AI service for your needs
Choose the best AI service for your needsIntroductionArtificial Intelligence (AI) is a category of computing that adapts and improves its decision-making ability over time based on its successes and failures. Microsoft Azure provides several AI so..原创 2021-03-20 07:35:47 · 644 阅读 · 0 评论 -
关于最小二乘法详解
最小二乘法的原理与要解决的问题最小二乘法的矩阵法解法最小二乘法的几何解释最小二乘法的局限性和适用场景 最小二乘法的python实战import numpy as npimport scipy as spfrom scipy.optimize import leastsqimport matplotlib.pyplot as plt%matplotlib inline# 目标函数def real...原创 2021-04-28 22:44:30 · 12230 阅读 · 9 评论