- 博客(36)
- 资源 (1)
- 收藏
- 关注
原创 Django task1打卡
一.python基础知识1.数据类型:(1)整形、浮点型、字符型(2)布尔型(3)字符串、列表、元组(切片,索引)(4)字典、集合2.分支结构:(1)顺序结构(2)分支结构(3)循环结构(4)break,continue的用法for i in range(10): if i%5==2: break print(i)01for i in range(10): if i%5==2: continue print(i)
2021-06-17 00:20:48
220
原创 datawhale task6 连接
一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照姓名\color{red}{姓名}姓名和班级\color{red}{班级}班级连接成总的成绩表,又例如对企业员工的各类信息表按照员工ID号\color{red}{员工ID号}员工ID号进行连接汇总。由此可以看出,在关系型连接中,键\color{red}{键}键是十分重要的,往往用on参数表示。另一个重要的要素是连接的形式。在pandas中的关系型连接函数merge和join中
2020-12-29 22:07:19
203
1
原创 datawhale task5变形
一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:import numpy as nimport pandas as pdpd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]})
2020-12-27 21:45:34
254
原创 datawhale task4 分组
一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别\color{#FF0000}{性别}性别分组,统计全国人口寿命\color{#00FF00}{寿命}寿命的平均值\color{#0000FF}{平均值}平均值依据季节\color{#FF0000}{季节}季节分组,对每一个季节的温度\color{#00FF00}{温度}温度进行组内标准化\color{#0000FF}{组内标准化}组内标准化依据班级\color{#FF0000}{班级}班级筛选出组内数学分数
2020-12-25 19:19:04
129
原创 Datawhale task3 索引
一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列,返回值为Seriesimport numpy as npimport pandas as pddf = pd.read_csv('../data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['Name'].head()0
2020-12-22 21:35:15
212
原创 datawhale第二次打卡pandas基础
第二章 pandas基础一、文件的读取和写入1. 文件读取pandas读取csv, excel, txt文件。import numpy as npimport pandas as pddf_csv = pd.read_csv('./my_csv.csv')df_csv col1 col2 col3 col4 col5 0 2 a
2020-12-19 20:52:06
245
1
原创 datawhale打卡 第一章 预备知识
第一章 预备知识一、Python基础1. 列表推导式与条件赋值(1)[* for i in *]。其中,第一个*为映射函数,其输入为后面i指代的内容,第二个*表示迭代的对象。[i*2 for i in range(5)][0, 2, 4, 6, 8](2)多层嵌套,如下面的例子中第一个for为外层循环,第二个为内层循环:[m+'!'+n for m in ['a', 'b'] for n in ['c', 'd']]['a!c', 'a!d', 'b!c', 'b!d'](3)条件
2020-12-16 23:44:01
228
原创 datawhale打卡文件与系统
1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报
2020-08-09 09:42:01
156
原创 datawhale打卡task8模块、datetime模块
一、模块在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。1. 什么是模块容器 -> 数据的封装函数 -> 语句的封
2020-08-07 10:29:37
192
原创 类、对象魔法方法
类与对象1. 对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。封装:信息隐蔽技术我们可以使用关键字 class 定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。【例子】class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10
2020-08-03 22:23:25
198
原创 python函数与Lambda表达式
函数与Lambda表达式1. 函数还记得 Python 里面“万物皆对象”么?Python 把函数也当成对象,可以从另一个函数中返回出来而去构建高阶函数,比如:参数是函数返回值是函数函数的定义函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串" fu
2020-08-01 23:20:09
169
原创 datawhale python task5打卡
字典练习题:1、字典基本操作字典内容如下:dic = {‘python’: 95,‘java’: 99,‘c’: 100}用程序解答下面的题目字典的长度是多少len(dic)请修改’java’ 这个key对应的value值为98dic[‘java’]=98删除 c 这个keydic.pop(‘c’)增加一个key-value对,key值为 php, value是90dic[‘php’]=90获取所有的key值,存储在列表里list(dic.keys())[i for i
2020-07-29 23:54:48
175
原创 datawhale列表,元组,字符串打卡
列表列表简单数据类型整型<class 'int'>浮点型<class 'float'>布尔型<class 'bool'>容器数据类型列表<class 'list'>元组<class 'tuple'>字典<class 'dict'>集合<class 'set'>字符串<class 'str'>1. 列表的定义列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对
2020-07-24 11:11:30
182
原创 Task4 基于深度学习的文本分类1
Task4 基于深度学习的文本分类1在上一章节,我们使用传统机器学习算法来解决了文本分类问题,从本章开始我们将尝试使用深度学习方法。基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hotBag of WordsN-gramTF
2020-07-23 16:08:51
226
原创 Task6基于深度学习的文本分类3
Task6 基于深度学习的文本分类3基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不
2020-07-23 14:55:29
315
2
原创 Task5 基于深度学习的文本分类2
Task5 基于深度学习的文本分类2在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每
2020-07-23 14:44:56
288
原创 异常处理datawhale打卡
异常处理异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。1. Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivision
2020-07-22 17:22:35
276
原创 nlp新闻文本 task3打卡
Task 2 部分:import pandas as pdtrain_df = pd.read_csv('./train_set.csv', sep='\t')train_df.head() label text 0 2 2967 6758 339 2021 1854 3731 4109 3792 4149 15... 1 1
2020-07-22 01:44:29
228
原创 条件循环datawhale打卡
一、 条件略过二、 循环语句:1. while 循环while语句最基本的形式包括一个位于顶部的布尔表达式,一个或多个属于while代码块的缩进语句。while 布尔表达式: 代码块while循环的代码块会一直循环执行,直到布尔表达式的值为布尔假。如果布尔表达式不带有<、>、==、!=、in、not in等运算符,仅仅给出数值之类的条件,也是可以的。当while后写入一个非零整数时,视为真值,执行循环体;写入0时,视为假值,不执行循环体。也可以写入str、list或任何序列
2020-07-21 23:13:16
209
原创 nlp新闻文本分类 task2
import pandas as pdtrain_df = pd.read_csv('./train_set.csv', sep='\t')train_df.head() label text 0 2 2967 6758 339 2021 1854 3731 4109 3792 4149 15... 1 11 4464
2020-07-20 18:52:17
259
原创 NLP Task1 赛题理解
NLP Task1 赛题理解本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可
2020-07-20 01:25:55
326
原创 变量、运算符与数据类型
变量、运算符与数据类型1. 注释在 Python 中,# 表示注释,作用于整行。【例子】单行注释# 这是一个注释print("Hello world")# Hello world''' ''' 或者 """ """ 表示区间注释,在三引号之间的所有内容被注释【例子】多行注释'''这是多行注释,用三个单引号这是多行注释,用三个单引号这是多行注释,用三个单引号'''print("Hello china") # Hello china"""这是多行注释,用三个双引号
2020-07-20 00:48:57
126
原创 datawhale 综合练习
时序数据掌握不够熟练,只完成了第一题,后序会将二题和三题补全import pandas as pddata=pd.read_csv('端午粽子数据.csv')data.info()cols=[]for i in data.columns: cols.append(i.strip())data.columns=cols<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403 entries, 0 to 4402Data
2020-07-01 14:13:25
339
原创 datawhale第九章 时序数据
第9章 时序数据import pandas as pdimport numpy as np一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑,后面会作出一些说明名称描述元素类型创建方式① Date times(时间点/时刻)描述特定日期或时间点Timestampto_datetime或date_range② Time spans(时间段/时期)由时间点定义的一段时期PeriodPeriod或period_range③ Date off
2020-06-29 12:12:13
1155
原创 datawhale第八章分类数据
第8章 分类数据import pandas as pdimport numpy as npdf = pd.read_csv('./table.csv')df.head() School Class ID Gender Address Height Weight Math Physics 0 S_1
2020-06-27 23:45:53
229
原创 datawhale第七章 文本数据
第7章 文本数据import pandas as pdimport numpy as np一、string类型的性质1. string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节
2020-06-26 23:43:17
479
原创 pandas打卡第六章缺失数据的处理
第6章 缺失数据的处理在接下来的两章中,会接触到数据预处理中比较麻烦的类型,即缺失数据和文本数据(尤其是混杂型文本)Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的import pandas as pdimport numpy as npdf = pd.read_csv('./table_missing.csv')df.head()#观察数据 Scho
2020-06-23 23:33:17
1887
原创 datawhale机器学习—SVM
目录:1、硬间隔(1)SVM-统计学习基础(2)对偶讲解(3)软间隔(4)核函数2、软间隔(1)前言(2)软间隔最大化3、SMO求解SVM4、代码实现[ ]1、硬间隔(1)SVM-统计学习基础最小间距超平面:所有样本到平面的距离最小。而距离度量有了函数间隔和几何间隔,函数间隔与法向量www和bbb有关,www变为2w2w2w则函数间距变大了,于是提出了几何距离,就是对www处理,除以∣...
2020-05-01 23:03:14
249
原创 datawhale机器学习—条件随机场问题
条件随机场一、马尔可夫过程1.定义 假设一个随机过程中,tnt_ntn 时刻的状态xnx_nxn的条件发布,只与其前一状态xn−1x_{n-1}xn−1 相关,即:P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})P(xn∣x1,x2,...,xn−1)=P(xn...
2020-04-29 14:50:07
221
原创 EM算法与聚类应用
反思总结: (1)EM算法分为通俗来说分为E步和M步两部分,E步是通过当前假定的模型参数计算求得当前数据属于每个模型的概率,M步是通过E步求得的数据属于每个模型的概率更新之前假定的模型参数,这样一直循环迭代下去,直到结果趋于收敛为止。 (2)采用迭代次数截止和数据之差小于特定值截止两次得到参数基本没有差别,但是当改变假定初值时,最终得到的参数变化较大,EM算法和初值选择有较大关系。 (...
2020-04-26 23:49:37
2322
原创 datawhale基于高斯分布的朴素贝叶斯分类器及聚类问题
反思与总结: (1)朴素贝叶斯的分类模型公式P(c/x)=P©P(x/c)/P(x),其中P©为先验概率,P(x/c)为条件概率,P(x)对于任何类别来说都相同,因此只需比较P©P(x/c)即可,例子中提到的鸢尾花每个类别个数相同,即每个类别P©都相同,只需比较条件概率即可,例子中假定鸢尾花每个特征服从高斯概率分布,通过公式计算出不同类别下每个样本的条件概率,比较哪个类别的概率大,就是属于哪个...
2020-04-23 21:49:11
587
原创 机器学习算法-线性回归打卡
这次打卡的一点反思总结: 1.调用LinearRegression库比较简单,矩阵公式法主要熟悉了一下numpy的几个矩阵运算公式,计算过程也比较顺利 2.梯度下降法遇到的问题主要是运算过程中整体迭代用np.sum函数时出现了数值过大溢出报错,若用例子中给的np.mean函数则没有问题 3.通过mini-batch迭代方法运算也可将数值过大溢出的问题顺利解决,此部分代码中有展示,以下是...
2020-04-21 14:42:35
150
原创 datawhale二手车task5打卡
Stacking理论:1.stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。简单来说就是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起2.在stacking方法中,我们把个体学习器叫做初级学习器,用于结合的学习器叫做次级学习器或元学习器(meta-learner),次级学习器用于训练的数据叫做次级训练集。次级...
2020-04-04 21:57:11
201
原创 二手车预测task4打卡
通过听小雨姑娘的讲解,深受启发,下面是我对本次打卡的一些探索和总结,话不多说直接上代码:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')def reduce_...
2020-04-01 21:52:00
142
原创 datawhale第三次打卡
话不多说,直接导入代码和相关文档说明:import warningswarnings.filterwarnings('ignore')import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport missingno as msno%matplotlib ...
2020-03-28 20:29:57
191
原创 Datawhale打卡第2次
EDA (Exploratory Data Analysis),也就是对数据进行探索性的分析,从而为之后的数据预处理和特征工程提供必要的结论。通常我们用到pandas库和可视化工具如 matplotlib 和 seaborn 就可以完成了。主要的步骤是:理解问题;读取数据;单变量探索;多变量探索;数据预处理;建立假设,并检验。本次对二手车价格数据EDA的整个过程我用代码记录了下来,下面是我...
2020-03-24 20:52:55
367
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人