- 博客(137)
- 收藏
- 关注
原创 pdf文件合并
在目标文件所在的文件夹下,利用shift加右键,选中Powershell模式,打开jupyter notebook。import PyPDF2# 读入pdf文件pdf1File = open('第一章 片段阅读.pdf', 'rb')pdf2File = open('第二章 语句表达.pdf', 'rb')pdf3File = open('第三章 词语填空.pdf', 'rb')pdf1Reader = PyPDF2.PdfFileReader(pdf1File)pdf2Reader =
2020-10-09 11:34:15
435
1
原创 Keras-CNN、LSTM、文本分类、多分类、词向量
一、本文目的关于如何训练词向量,如何将文本数据组织成Keras的要求,本文不会讲述。本文的目的在于解决经典论文集中的CNN分类模型,如下图所示:从上图中可以看到,每次训练时,filter size的大小是变化的,包括3、4、5。而网上流传的利用Keras构建CNN文本分类模型中,filter size是固定的,因此本文就是要解决filter size变化的情况下的CNN文本分类模型。二、...
2019-12-18 10:44:01
2570
1
原创 训练Doc2Vec
将文本数据表示成list of list的形式:对每一条文本进行分词操作,可能的话,去除停用词,加上自定义词等:训练Doc2Vec,其中参数dm=1表示DM模型,dm=0表示DBOW模型。(此处没有写,dm参数放在Doc2Vec()函数中)...
2019-12-12 10:56:10
1204
1
原创 Python保存数据到CSV文件
利用字符串的形式将多行数据保存到CSV文件。a = np.array([(1,2), (3,4), (5,6), (7,8)])lines = ""for i in a: for j in a: dis = np.sqrt((np.sum(i-j)**2)) lines += "%.2f"%dis + ", " lines += "\n"file = open("result....
2019-12-10 11:37:52
10945
1
原创 Seaborn(三)调色板palette
color_palette()能传入任何Matplotlib所支持的颜色color_palette()不写参数表示默认颜色set_palette()设置所有图的颜色默认的颜色类别指定颜色种类数量可以发现上面两张图的颜色是一一对应的。...
2019-12-07 15:09:00
4847
原创 Seaborn(一)设置整体布局风格
seaborn的5种主题风格darkgridwhitegriddark 深色whiteticks导入包import numpy as npimport seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inline1. whitegrid2. darkg...
2019-12-07 14:32:18
372
原创 Word2016加载MathType
本文以word2016 64位为例,32位同理。Step 1找到MathType安装目录中Office Support>64目录下红色方框标注的文件,将其复制到office2016的安装目录下的Office16>STARTUP,如下图一、图二所示:图一:图二:Step 2找到MathType安装目录中MathPage>64目录下红色方框标注的文件,将其复制到off...
2019-11-22 10:33:04
1458
3
原创 (六)Tensorflow学习——卷积神经网络
深度学习框架-Tensorflow案例实战视频课程 导入相关包import numpy as npimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data加载mn...
2019-11-14 16:26:13
248
原创 (五)Tensorflow学习——神经网络模型架构
以mnist数据集为例,建立双隐层神经网络模型。导入相关包import numpy as npimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data加载数据集print('Download and Extract MNIST dataset')mnist = input_da...
2019-11-14 11:35:35
256
原创 (四)Tensorflow学习——逻辑回归Logistic Regression
以mnist数据集为例,学习逻辑回归分类模型。这是一个十分类模型,利用softmax进行多分类。导入相关包import numpy as npimport tensorflow as tf# tensorflow数据集from tensorflow.examples.tutorials.mnist import input_data导入mnist数据print('Downloa...
2019-11-14 11:30:09
441
原创 (三)Tensorflow学习——mnist数据集简介
导入相关包import numpy as npimport tensorflow as tfimport matplotlib.pyplot as plt# tensorflow自带的一些数据集from tensorflow.examples.tutorials.mnist import input_data加载数据集在该目录下,建立一个空文件夹data,加载mnist数据集时,...
2019-11-14 11:22:39
264
原创 (二)Tensorflow学习——构造线性回归模型
实验在jupyter notebook上运行。一、导入相关包import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt%matplotlib inline # 保证图像直接在notebook上显示,不用显示调用plt.show()二、随机生成x,y数据num_points = 1000vect...
2019-11-13 20:53:40
314
原创 (一)Tensorflow学习——基本操作:创建变量
在tensorflow中使用float32数据格式。import tensorflow as tf# 行向量w = tf.Variable([[0.5, 1.0]]) # 列向量x = tf.Variable([[2.0], [1.0]]) # 矩阵乘法y = tf.matmul(w, x) print(y)创建变量后,需要进行全局初始化。如果直接打印y,是没有值的,需...
2019-11-13 20:15:17
793
原创 (三)利用Wikipedia中文语料训练词向量word2vec——word2vec模型测试
通过前两篇文章,我们得到了word2vec模型:(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库(二)利用Wikipedia中文语料训练词向量word2vec——分词、训练word2vec下面,我们利用word2vec模型进行简单的使用和测试。# 导入包from gensim.models import Word2Vec# 加载模...
2019-11-12 19:55:42
1068
2
原创 (二)利用Wikipedia中文语料训练词向量word2vec——分词、训练word2vec
在前一节,我们学习到了如何下载Wiki中文语料库,并且学会了如何将繁体转换为简体。在这一节中,我们将学习如何训练word2vec,包括分词以及训练两个步骤。所有的处理过程都是在jupyter notebook中进行的。文章目录第一步 jieba分词第二步 gensim训练word2vec第一步 jieba分词import pandas as pdimport codecsimport j...
2019-11-12 19:50:51
907
原创 Python字典排序
对字典进行排序包括两种类型:根据key的大小对字典排序、根据value大小对字典排序。基于key的字典排序from operator import itemgetterd = {"a":8,"b":4,"c":12}print(sorted(d.items(),key=itemgetter(0),reverse=True))输出结果为:[('c', 12), ('b', 4), (...
2019-11-09 13:20:38
203
原创 (一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库
利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体。目录第一步 下载语料库第二步 将下载好的bz2文件转换为txt(text)文件第三步 繁体转换为简体第一步 下载语料库Wikipedia中文语料库链接: https://dumps.wikimedia.org/zhwiki/打开网址后,就会看到如下的...
2019-11-08 17:27:29
1439
原创 win10以管理员身份解压缩WinRAR文件
常用的解压缩软件得属WinRAR,它不会捆绑其他软件或者强制弹出广告,也不会篡改浏览器。问题描述在解压缩WinRAR文件时,有时会出错,要求以管理员身份解压缩,如图所示:解决办法1. 在开始菜单页面找到WinRAR软件打开开始菜单后,可以直接输入关键字WinRAR,就找到了软件。2. 右键选择以管理员身份运行3. 解压缩文件...
2019-11-08 11:08:00
19286
1
原创 Python绘制词云图wordcloud
假设文本内容为如下所示:三支决策聚类理论模型与方法研究基于三支决策的微博中文反语识别研究数据分析的三层与三支属性约简系统研究基于决策粗糙集的模糊多分类三支决策方法与应用研究三支决策空间理论研究面向复杂数据的多粒度三支决策研究三支概念格构建理论与方法三支决策不确定性度量与精准推理研究中医人体健康状态辨识三支决策问题研究直觉模糊信息下的三支决策粗糙集方法及知识获取研究在线流计算背景下的三支决策迁移...
2019-11-07 20:47:32
1678
2
原创 配置以及监测:用GPU来跑Keras
前提条件:你的系统有GPU(Nvidia.因为AMD还没有工作)您已经安装了tensorflow的GPU版本您已安装CUDA并且配置好环境变量。检测第一步from tensorflow.python.client import device_libprint(device_lib.list_local_devices())输出[name: "/device:CPU:0"...
2019-09-30 19:49:11
960
原创 通过gensim,加载预训练词向量,获取embedding_matrix
使用预训练的词向量1. 加载词向量# 加载训练好的词向量模型import gensimWord2VecModel = gensim.models.Word2Vec.load(词向量模型所在路径) # 读取词向量2. 构造包含所有词语的 list,以及初始化 “词语-索引”字典 和 “词向量”矩阵# 获取某一个词的向量表示In[1]: Word2VecModel.wv['申请'...
2019-09-30 09:39:00
9337
1
原创 Keras实现单词级的one-hot编码
这是对英文文本进行处理# 导入相关文本处理包In [1]: from keras.preprocessing.text import Tokenizer# 两个句子示例In [2]: samples = ['The cat sat on the mat.', 'The dog ate my homework.']# 创建一个分词器(tokenizer),设置为只考虑前 1000 个最...
2019-09-27 10:33:55
860
原创 Python存储中文数据到MySQL,对表进行操作
解决办法一共包括两个步骤。步骤1. 创建数据表利用Python创建表格时,需要指定charset='utf8mb4'db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='test', charset='utf8mb4')步骤2. 修改表格这一步需要利用SQL语句,可以在...
2019-09-26 15:35:39
724
原创 DQL语言的学习——常见函数
调用:select 函数名(实参) [from 表];关注点: 1. 函数名 2. 函数功能分类: 1. 单行函数:处理数据 2. 分组函数:做统计使用,又称为统计函数、聚合函数、组函数一、单行函数1、字符函数 concat拼接 substr截取子串 upper转换成大写 lower转换成小写 trim去前后指定的空格和字符 ltrim去左边空格 rtrim去右边空...
2019-09-13 11:12:48
169
原创 DQL语言的学习——进阶5:分组查询
视频学习链接https://www.bilibili.com/video/av59623481/?p=63语法:select 分组函数(计算字段), 分组字段from 表[where 条件筛选]group by 分组的字段[order by 子句]特点:1、可以按单个字段分组2、和分组函数一同查询的字段最好是分组后的字段3、分组筛选 针对的表 ...
2019-09-13 11:10:54
160
原创 DQL语言的学习——进阶4:常见函数
视频学习链接 https://www.bilibili.com/video/av59623481/?p=58调用:select 函数名(实参) [from 表];关注点: 1. 函数名 2. 函数功能分类: 1. 单行函数:处理数据 2. 分组函数:做统计使用,又称为统计函数、聚合函数、组函数一、单行函数1、字符函数 concat拼接 substr截取子串 upper转换...
2019-08-29 17:35:59
210
原创 DQL语言的学习——进阶3:排序查询
视频学习链接 https://www.bilibili.com/video/av59623481/?p=42语法:select 要查询的东西from 表where 条件order by 排序的字段|表达式|函数|别名 【asc|desc】特点:1. asc表示升序,desc表示降序,默认是升序2. order by子句支持单个字段、多个字段、表达式、函数、别名3. o...
2019-08-29 16:31:05
133
原创 Pandas读写MySQL数据
利用Pandas读MySQL数据# 导入相关库import pandas as pdfrom sqlalchemy import create_engine# 初始化数据库连接,使用pymysql模块# MySQL的用户:root, 密码:123456, 端口:3306,数据库:testengine = create_engine('mysql+pymysql://root:1234...
2019-08-23 14:29:34
282
原创 Python3 中文与url格式编码的转换
我们在爬虫时,url链接中含有中文时,会自动被编码为特殊符号,因此我们需要对中文进行编码操作,同时也有可能涉及到对url编码后的中文进行解码操作。中文转换为url格式from urllib.request import quotex = '角色扮演'print(quote('角色扮演'))输出结果为:%E8%A7%92%E8%89%B2%E6%89%AE%E6%BC%94将编码...
2019-08-23 09:32:51
2281
1
原创 Python存储数据到MySQL
首先安装相关包pip install pymysql创建数据库import pymysqldb = pymysql.connect(host='localhost',user='root', password='123456', port=3306)cursor = db.cursor()cursor.execute("CREATE DATABASE test_db DEFAULT...
2019-08-23 09:14:09
3710
2
原创 DQL语言的学习——进阶2:条件查询
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27条件查询:根据条件过滤原始表的数据,查询到想要的数据 语法: select 要查询的字段|表达式|常量值|函数 from 表 where 筛选条件 ;分类:一、条件表达式 示例:salary>10000 条件运算符: > < >...
2019-08-21 16:54:09
145
原创 DQL语言的学习——进阶1:基础查询
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27进阶1:基础查询语法:SELECT 要查询的东西 FROM 表名;特点:①通过select查询完的结果 ,是一个虚拟的表格,不是真实存在② 要查询的东西 可以是常量值、可以是表达式、可以是字段、可以是函数查询方式: 1. 查询表中单个字段2. 查询表中多个字段3. 查...
2019-08-20 16:41:57
149
原创 SQL学习框架
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27本单元目标一、为什么要学习数据库二、数据库的相关概念 DBMS、DB、SQL三、数据库存储数据的特点四、初始MySQL MySQL产品的介绍 MySQL产品的安装 ★ MySQL服务的启动和停止 ★ M...
2019-08-20 16:39:11
1032
原创 SQL基本介绍
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27SQL的语言分类DQL(Data Query Language):数据查询语言 select DML(Data Manipulate Language):数据操作语言 insert 、update、deleteDDL(Data Define Languge):数据定义语言 cr...
2019-08-20 16:38:17
181
原创 MySQL产品的介绍和安装
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27MySQL服务的启动和停止方式一:计算机——右击管理——服务方式二:通过管理员身份运行net start 服务名(启动服务)net stop 服务名(停止服务)MySQL服务的登录和退出方式一:通过mysql自带的客户端只限于root用户方式二:通过windows自带的...
2019-08-20 16:37:04
498
原创 数据库基本概念
视频学习链接 https://www.bilibili.com/video/av59623481/?p=27数据库的好处1.持久化数据到本地2.可以实现结构化查询,方便管理数据库相关概念1、DB:数据库,保存一组有组织的数据的容器2、DBMS:数据库管理系统,又称为数据库软件(产品),用于管理DB中的数据3、SQL:结构化查询语言,用于和DBMS通信的语言数据库存储数据的特点...
2019-08-20 16:35:24
122
原创 Python将两个列表合并为一个字典
key和value个数一样x = [1, 2, 3, 4, 5]y = ['a', 'b', 'c', 'd', 'e']d = dict(zip(y, x))print(d)# {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}key和value个数不一样Python将两个长度不等的列表合并为一个字典时,服从少数原则(相当于丢弃多余的元素)。# ...
2019-08-11 20:52:41
14062
原创 Python可视化库
根据应用场景,可视化库大致可以分为几类:基础的2D,3D图绘制库交互信息可视化库地图可视化库基础的2D,3D图绘制库主要包括了matplotlib和seaborn。matplotlib是最基础的可视化库,适用于大多数的数据结构。seaborn是基于matplotlib的高级可视化效果库,适应于Pandas的DataFrame的数据结构(即表格数据)。交互信息可视化库主要包括P...
2019-08-10 12:00:36
325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人