
NLP
文章平均质量分 67
数据架构
知识就是力量,良知才是方向。良知比知识更重要!
When you want to give up , think about why you started?
千学不如一看,千看不如一练,千练不如一战
ACDU(中国DBA联盟)成员
安徽DBA俱乐部 成员
展开
-
机器学习算法高频面试题
1 有哪些你熟悉的监督学习和无监督学习算法?监督学习:线性回归、逻辑回归、支持向量机、神经网络、决策树、贝叶斯无监督学习:K-均值聚类、PCA2 生成模型和判别模型的区别?1、判别式模型评估对象是最大化条件概率p(y|x)并直接对其建模,生成式模型评估对象是最大化联合概率p(x,y)并对其建模。2、生成式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。3 线性分类器与非线性分类器的区别以及优劣线性分类器就是用一个超平面将正负样本分开,非线性分类器就是用一个“超曲面”将政府样本分原创 2021-06-10 06:54:42 · 234 阅读 · 0 评论 -
Non Linear Regression Analysis
If the data shows a curvy trend, then linear regression will not produce very accurate results when compared to a non-linear regression because, as the name implies, linear regression presumes that the data is linear. Let's learn about non linear regressio原创 2021-05-07 21:33:35 · 231 阅读 · 0 评论 -
Non Linear Regression Analysis
Non Linear Regression AnalysisIf the data shows a curvy trend, then linear regression will not produce very accurate results when compared to a non-linear regression because, as the name implies, linear regression presumes that the data is linear. Let...原创 2021-05-07 09:51:59 · 384 阅读 · 0 评论 -
关于最小二乘法详解
最小二乘法的原理与要解决的问题最小二乘法的矩阵法解法最小二乘法的几何解释最小二乘法的局限性和适用场景 最小二乘法的python实战import numpy as npimport scipy as spfrom scipy.optimize import leastsqimport matplotlib.pyplot as plt%matplotlib inline# 目标函数def real...原创 2021-04-28 22:44:30 · 12230 阅读 · 9 评论 -
Machine Learning 高频面试题
第一类问题与机器学习背后的算法和理论有关。【Algorithms】你必须了解算法之间的比较,以及怎样正确地评价它们的效率和准确性。第二类与你的编程能力,对于算法和理论的运行能力有关【Programming】。第三类问题与你对机器学习问题的兴趣相关【General Machine Learning Interest】:你会被问到这个行业的运作如何,以及你如何跟上最新的机器学习趋势。第四类问题与你对于行业和公司理解有关【Company / Industry Specific】:更多地原创 2021-04-26 21:18:27 · 9545 阅读 · 0 评论 -
机器学习大纲
python简介全世界有众多的编程语言(大概有600多种),流行的可能有20多种,包括C/C++、Java、Go、perl、scala、shell、PHP、Julia、R、Python,Python是一种非常容易上手,对于非计算机背景的同学非常友好的编程语言。Python编写的代码可读性非常好,因此很容易理解他人的代码逻辑与编写代码。Python就为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池(batte...原创 2021-03-24 06:23:22 · 194 阅读 · 0 评论 -
Pandas高阶--数据规整(1)--数据合并concat\(2)--数据连接merge\(3)数据重构stack\unstack
实验:第六课 数据分析工具Pandas高阶第七节 数据规整(1)--数据合并 concatIn[1]:import pandas as pdimport numpy as npIn[2]:# 创建dataframedf1 = pd.DataFrame({'A':['A0', 'A1', 'A2', 'A3'], 'B':['B0', 'B1'...原创 2021-03-22 08:30:49 · 265 阅读 · 0 评论 -
pandas高阶--透视表介绍
In[36]:# 创建dataframed = { 'Name':['Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine', 'Alisa','Bobby','Cathrine','Alisa','Bobby','Cathrine'], 'Semester':['Semester 1','Semester 1','Semester 1','Semest...原创 2021-03-21 22:05:37 · 256 阅读 · 0 评论 -
Pandas高阶--第一节 层级索引、分组与聚合介绍、GroupBy对象及常用的聚合操作、自定义分组及聚合操作
实验: 第6课 数据分析工具第一节 层级索引In[30]:import pandas as pdimport numpy as npIn[2]:# 文件路径filepath = r'C:\Users\ShanPan\ML Learning\Projects\第四章-数据分析预习内容\第四章-数据分析预习内容\第二节-数据分析工具pandas高阶\3_lesson_06\lesson_06\examp...原创 2021-03-21 21:31:36 · 460 阅读 · 0 评论 -
Pandas-常用统计分析方法 describe、quantile、sum、mean、median、count、max、min、idxmax、idxmin、mad、var、std、cumsum
理论:describe():快速查看每列数据的统计信息,以下是可以输出的统计指标count,数据个数(非空数据)mean,均值std,标准差min,最小值25%,第1四分位数,即第25百分位数50%,第2四分位数,即第50百分位数75%,第3四分位数,即第75百分位数max,最大值quantile(q):输出指定位置的百分位数,默认q=0.5,q的范围是[0,1]常用统计方法:sum(),求和mean(),求均值median(),求中位数.原创 2021-03-20 22:12:22 · 7163 阅读 · 0 评论 -
数据分析工具Pandas基础 数据清洗--处理缺失数据、处理重复数据、替换数据处理
理论:明确问题:数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?数据清洗的特点:是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作处理缺失数据:判断是否存在缺失值,ser_obj.isnull(), df_obj.isnull(),可以结合any()判断行/列中是否存在缺失值1.丢弃缺失数据:dropna(),注意inplace参数2.填充缺失数据:fillna(value),以value填充数据ffill()和bfi原创 2021-03-20 20:34:58 · 1184 阅读 · 0 评论 -
数据分析工具Pandas基础 --文本读写操作、排序操作
理论:知识要点读取数据:pd.read_csv(filepath, usecols, index_col)filepath: 文件路径usecols: 指定需要读取的列(默认全部读取)index_col: 指定某列为索引列,默认会生成一列索引 0, 1, …df.info():快速查看数据基本信息保存数据:df.to_csv(filepath, index)filepath: 保存的路径index: 是否将索引列保存,默认为True按索引排序:sort_...原创 2021-03-19 08:32:48 · 568 阅读 · 0 评论 -
Pandas中函数map,apply,applymap的相关应用操作
理论:知识要点map(function,series)作用:将funciton函数作用于一个Series的每一个元素Series:是待分析的数据function函数:可以是NumPy中的通用函数(np.max、np.mean等)可以是自定义函数(def function)优点:不使用循环,代码简洁,效率高apply()函数通过apply()将函数应用到行或列上在DataFrame上操作时注意指定轴的方向,默认axis=0applymap()函数通过applym原创 2021-03-19 07:28:53 · 557 阅读 · 0 评论 -
数据分析工具Pandas基础--运算与对齐
理论:知识要点Series的运算:对齐操作发生在索引上DataFrame的运算:对齐操作会同时发生在行和列上,注意:Series和DataFrame操作时,Series被看作行数据(index被看作列),和DataFrame中的每行数据进行计算。Series和DataFrame的对齐和运算方式:索引与数据的对应关系仍保持在数组运算的结果中。若是没有对齐的位置,则运算结果位置默认补NaN实验:第七节运算与对齐In[1]:impor...原创 2021-03-19 06:41:25 · 395 阅读 · 0 评论 -
数据分析工具Pandas--索引操作总结
理论:Pandas中,使用索引获取数据的方式可归纳为3种:1. .loc,标签索引2. .iloc,位置索引loc与iloc主要用于行索引,其中,使用名称/标签的切片索引是包含末尾位置的。3. 布尔值遮罩:对应位置为True的时候,则取得该数据。实验:数据分析工具Pandas基础索引操作总结In[1]:import pandas as pdimport numpy as npIn[12]:# 构建DataFr...原创 2021-03-18 21:38:32 · 241 阅读 · 0 评论 -
数据分析工具Pandas基础--DataFrame的索引操作
知识要点依据索引获取数据:列索引:df_obj[‘label’]不连续列索引:df_obj[ [‘label1’, ‘label2’] ]行索引,loc[ ],iloc[ ]Inplace参数:Pandas中的很多操作都有参数inplace,如 drop(),replace() …默认 inplace=False,表示将操作后的结果进行返回,对原始数据不会产生影响inplace=True,没有返回值,在原始数据上进行操作,对原始数据会产生影响第五节 Da...原创 2021-03-18 21:17:44 · 456 阅读 · 0 评论 -
数据分析工具Pandas基础--Series的索引操作
理论:行索引:按索引位置:ser_obj[pos]按索引名称:ser_obj[‘label’]切片索引:按索引位置:ser_obj[2:4]按索引名称:ser_obj[‘label1’: ‘label3’],注意,按索引名切片操作时,是包含终止不连续索引:ser_obj[ [‘label1’, ‘label2’, ‘label3’] ]ser_obj[ [pos1, pos2, pos3] ]实验:第四节 Series的索引操作In[1]:...原创 2021-03-18 20:32:18 · 1247 阅读 · 0 评论 -
Pandas 第三节 数据结构--Index
第三节 数据结构--Index知识要点Index对象:Series和DataFrame中的索引都是Index对象Index对象的特征:不可变(immutable) ,保证了数据的安全常见的Index种类:IndexInt64IndexMultiIndex,“层级”索引DatetimeIndex,时间戳类型Index对象重置索引:reset_index(drop),将索引重新赋值为0-1第五课 数据分析工具Pandas基础第三节 数据结构--Ind.原创 2021-03-18 08:25:30 · 655 阅读 · 1 评论 -
Pandas 第二节 数据结构-DataFrame
理论:DataFrame数据结构:类似多维数组/表格数据 每列数据可以是不同的类型 索引包括行索引(index)和列索引(label/column)DataFrame的构建以及操作:1.构建DataFrame通过ndarray/列表 通过dict通2.获取列数据(Series类型 )df_obj[label] 或 df_obj.label3.增加列数据df_obj[new_label] = data4.删除列df_obj.drop(columns=[],inp.原创 2021-03-18 08:11:21 · 396 阅读 · 2 评论 -
数据分析工具Pandas基础——数据结构--Series
Pandas的介绍:一个强大的分析结构化数据的工具集基础是NumPy,提供了高性能矩阵的运算pd.Series数据结构:1.构建Series数据:通过数组/列表通过dict2.获取索引:ser_obj.index3.获取数据:1>获取所有数据:ser_obj.values2>依据名称获取Series中的某些值:ser_obj[‘idx_name’], 或 ser_obj.loc[‘idx_name’],其中假设了ser_obj的索引由”idx_name原创 2021-03-18 07:38:33 · 475 阅读 · 0 评论 -
Python的一些常用函数
zip函数作用将可迭代对象,打包成由对象中的对应元素组成的元组列表(Python2)或者Zip对象(Python3)语法zip([iterable, ...])注意1. 当各个迭代器的元素个数不一致时,则返回列表长度与最短的对象相同。2. 使用”*”做解压操作。1当作为参数传入zip函数的各个迭代器的元素个数不一致时,返回的结果将是:A. 结果的元素个数与元素个数最多的传入参数的元素个数相同。输入参数中,元素个数少的将按照从头循环取数的方式寻找匹配元素。 比如.原创 2021-03-12 21:03:27 · 180 阅读 · 0 评论 -
python正则表达式基础介绍
语法if __name__ == '__main__'作用定义一个代码块,只在py文件以python命令方式被调用的时候被执行,而以模块方式被导入的时候不被执行。正则表达式-re模块在日常生活中,如果访问一个新的网站注册一个用户经常会遇到让填写手机号、邮箱等信息,在填写信息的过程中要对填写的手机号、邮箱进行验证,验证格式是否正确。这个验证是如何实现的呢?就是本节要讲的正则表达式。在Python中提供了re(regular expression简写)正则表达式模块,能够非常方便的使原创 2021-03-11 23:17:03 · 226 阅读 · 0 评论 -
python的包和模块
关系模块的名字.py文件的名字引入模块的方式引入单个模块import model_name引入多个模块import model_name1,model_name2,…引入模块中的指定函数from model_name import func1,func2,…定义别名import model_name as xx包中的__init__文件1. 会在包或者该包下的模块被引入时自动调用2. 常用于设置包和模块的一些初始化操作代码结构样例原创 2021-03-11 21:22:08 · 143 阅读 · 0 评论 -
python中的异常处理
捕获异常try: 逻辑代码块except ExceptionType as err: 异常处理方法捕获多个异常try: 逻辑代码块except (ExceptionType1, ExceptionType2,…) as err: 异常处理方法捕获所有可能发生的异常try: 逻辑代码块except (ExceptionType1, ExceptionType2,…) as err: 异常处理方法except Exception as err: 异常处理方法原创 2021-03-10 21:05:34 · 616 阅读 · 0 评论 -
python面向对象基础_概要
面向对象定义是一种解决软件复用的设计和编程方法。 这种方法把软件系统中相似的操作逻辑、数据、状态等以类的形式描述出来,通过对象实例在软件系统中复用,从而提高软件开发效率。类一个事物的抽象,定义了一类事物的属性和行为。对象通过类创建的一个具体事物,它具有状态和行为,可以做具体的事情。类与对象的关系类相当于创建对象的模板,根据类可以创建多个对象。类的构成1. 名称2. 属性3. 方法类的定义class 类名: def 方法名(self[,参数列表])创建对象原创 2021-03-10 20:07:59 · 96 阅读 · 0 评论 -
python函数
函数定义def 函数名称 (参数) : 函数体代码 return 返回值调用方法函数名(参数)缺省参数1. 函数定义带有初始值的形参2. 函数调用时,缺省参数可传,也可不传3. 缺省参数一定要位于参数列表的最后4. 缺省参数数量没有限制命名参数1. 调用带有参数的函数时,通过指定参数名称传入参数的值2. 可以不按函数定义的参数顺序传入局部变量1. 函数内部定义的变量2. 不同函数内的局部变量可以定义相同的名字,互不影响3.作用范围:函数体内有效,其他函数不.原创 2021-03-09 19:58:16 · 4101 阅读 · 0 评论 -
python字符串,元组,集合,字典
字符串变量定义s = "hello" 或者'hello'组合字符串的方式“+”号格式化符号通过下标获取指定位置字符string_name[index]切片string_name[起始:结束:步长]字符串方法文档https://docs.python.org/3/library/stdtypes.html#string-methods...原创 2021-03-08 20:59:19 · 123 阅读 · 0 评论 -
python控制流
if条件判断if 条件: 逻辑代码else: 其他逻辑代码多判断条件if 条件1: 逻辑代码1elif 条件2: 逻辑代码2elif 条件2: 逻辑代码3else: 其他逻辑代码if嵌套if 条件1: if 内部条件1 内部逻辑代码1 elif 条件2: 内部逻辑代码2 else: 内部逻辑代码3elif 条件2: 内部逻辑代码2else原创 2021-03-07 16:15:48 · 166 阅读 · 0 评论 -
python基础中,列表的定义及相关应用
列表定义name_list = ["zhangsan","lisi","wangwu"]顺序存储,可通过下标获取内部元素name_list[0]name_list[1]内容可变,可通过下标修改元素值name_list[0] = "xiaobai"for方式遍历for item in name_list: print(item)添加元素append()/insert()+组合两个列表生成新的列表extend向调用它的列..原创 2021-03-07 13:21:07 · 254 阅读 · 0 评论 -
python中变量、标识符、命名规则、关键字,运算符,基本的数据类型、输入输出、CSV处理
import keywordprint(keyword.kwlist)主要运算符运算符的优先级主要运算符运算符的优先级Python数据类型类型转换Python数据可以通过 类型名(变量名) 的方式进行变量类型的转换操作,主要的转换操作包括:输入输出读取键盘输入str = input("请输入:")print ("你输入的内容是: ", str)...原创 2021-03-06 15:11:28 · 193 阅读 · 0 评论 -
Python使用缩进来
规则1. Python使用缩进来标识代码块。2. 缩进空格数可变,同一代码块的语句必须包含相同缩进。3. 使用反斜杠连接多行。习惯1. 在功能相差较大的代码块之间通常用空行分割。2. 并不影响代码执行。3. 使用反斜杠连接多行。空行良好的注释可以让代码可读性更高,便于代码使用者及维护者更好的理解、使用和改进代码。单行注释以#开头,只注释#开头的一行。多行注释''' 注释内容''' 或者"""注释内容""",可以对多行内容整体进行注释。...原创 2021-03-06 11:55:22 · 334 阅读 · 0 评论 -
Jupyter notebook的应用
Jupyter notebook 是一种 Web 应用,能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。Jupyter notebook 已迅速成为数据分析、机器学习等领域的工作人员在进行数据清理和探索时所需的必备工具。notebook 能将文档及代码等一切相关资料集中到一处,让用户一目了然。Jupyter notebook 源自 IPython,是一种交互式 shell,与普通的 Python shell 相似。最初,notebook 的工作方式是,将来自 Web 应原创 2021-03-06 10:59:51 · 712 阅读 · 0 评论 -
Anaconda的安装及使用
安装AnacondaAnaconda 可用于 Windows、Mac OS X 和 Linux。安装程序链接:https://www.anaconda.com/download/。如果计算机上已经安装了 Python,这不会有任何影响。Anaconda使用自己附带的Python。选择 Python 3.6 版本(你也可以根据具体的需要选择 Python 2 的版本)。如果是 64 位操作系统,则选择 64 位安装程序,否则选择 32 位安装程序。完成安装后,打开Anaconda Prom..原创 2021-03-06 10:32:00 · 306 阅读 · 0 评论 -
Jupyter notebook使用
Jupyter notebook使用关于Jupyter notebookJupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言,可以方便地记笔记和交互式编写运行代码,也是本课程大家学习和练习的主要环境。Jupyter notebook的一个优点是,内核无需运行 Python。由于 notebook 和内核分开,因此可以在两者之间发送任何语言的代码。例如,早期的两个非 Python 内核分别是 R 语言和 Julia 语言。原创 2021-03-04 22:34:21 · 883 阅读 · 1 评论 -
数据科学与Python
数据科学与Python深度学习/人工智能google:tensorflowfacebook:pytorch+caffe2Amazon:mxnet+gluon百度:paddlepaddle非常容易上手的一些package:Keras Tflearn tensorlayer机器学习numpy scipy pandas scikit-learn xgboost/LightGBM 大数据大数据整体是由Java/scala等语言主导的方向,但是目前有很多python的方式可以无缝衔原创 2021-03-04 21:03:42 · 198 阅读 · 1 评论 -
虚拟环境的搭建
Step1 : 安装virtualenvwrapperC:\Users\psmax\workspace\maxwell_ai\nlp_course\s_code>pip install virtualenvwrapperStep 2 : 环境变量的配置(Mac or Linux)Step 2 : 环境变量的配置(Windows)Step3 创建工作环境。C:\Users\psmax\workspace\maxwell_ai\nlp_course\s_code>mk原创 2021-02-06 09:02:00 · 127 阅读 · 0 评论 -
window10配置python虚拟环境的路径的详细过程
window10配置python虚拟环境的路径当我们搭建python+django项目的时候,需要配置虚拟环境,从而使项目与项目之间的包相互隔离,互不影响。1.配置虚拟环境前,首先需要安装两个包pip install virtualenvwrapper-win #Windows使用该命令pip install virtualenvwrapper2.配置环境变量WORKON_HOME:我是将以后虚拟环境都放在C:\Users\psmax方便管理3.修改windows环境下m原创 2021-02-05 07:02:05 · 1242 阅读 · 0 评论 -
pip install matplot lib安装报错ERROR: Could not install packages due to an EnvironmentError: [WinError 5
问题: ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'd:\\soft\\anaconda3\\lib\\site-packages\\matplotlib\\backends\\_backend_agg.cp37-win_amd64.pyd' Consider using the `--user` option or check the permissions.解决方法: 在inst原创 2021-02-03 22:01:55 · 394 阅读 · 0 评论 -
2021-01-17-NLP-Day4
原创 2021-01-20 19:23:11 · 129 阅读 · 0 评论 -
2021-01-12-Day2 NLP
原创 2021-01-13 21:03:40 · 123 阅读 · 0 评论