自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 NLP -Word2Vector

1. 什么是word2vector?我们先来看一个问题,假如有一个句子 " the dog bark at the mailman"。假如用向量来表示每个单词,我们最先想到的是用one hot 编码的方式来表达每个单词,具体来说。the 可以表示为 [1,0,0,0,0]dog 可以表示为 [0,1,0,0,0]bark 可以表示为 [0,0,1,0,0]at 可以表示为[0,0,0,...

2019-05-18 21:50:43 323

转载 使用不同的方法计算TF-IDF值

一. 摘要这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法:用gensim库来计算tfidf值用sklearn库来计算tfidf值用python手动实现tfidf的计算二. 正文使用gensim提取文本的tfidf特征分词import nltk.corpuscorpus = [ 'this is the first document', ...

2019-05-16 20:59:57 1195

转载 NLP实践2 Jieba分词

安装jieba命令:pip install Jieba特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议安装测试import jiebaseg_...

2019-05-14 21:17:34 329

转载 NLP实践 数据探索 CNN和RNN训练文本分类器 (转载)

CNN字符级中文文本分类-参考大牛文章引言本次主要是使用清华大学已有的分类算法进行训练和测试,用了两台不同的笔记本,一台是8G,普通硬盘,一台是16G,i7处理器,T580 Thinkpad进行训练经过对比,发现不同的硬件设备处理效能差别很明显,神经网络的训练需要一台好的机器,否则效率极低。#数据集本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约...

2019-05-13 22:51:25 454

原创 算法梳理(二)逻辑回归

一、逻辑回归与线性回归的联系与区别联系: 逻辑回归与线性回归都属于广义线性回归模型区别:因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。线性回归用于解决回归问题,逻辑回归主要用于解决分类问题。 ...

2019-01-06 21:01:34 398

原创 算法梳理第三期

线性回归梳理机器学习的基本概念:定义:机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析,简单点来说就是在历史数据中找出一定的规律,对其规律建立相应的数学模型,当输入新的数据时,通过模型的的计算输出期望的结果。分类:监督学习:(supervised learning)监督式学习算法由一个目标变量(因变量)和用来预测目标变量的预测变量(自变量)。通过这些变量构建一...

2019-01-05 11:49:28 211

原创 算法实践进阶(一)【任务1 数据预处理】

题目这是我们本次算法实践进阶数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。数据类型转换和缺失值处理(尝试不同的填充看效果)以及及其他你能借鉴的数据探索。代码import ...

2019-01-05 11:28:10 405 2

原创 一周算法实践4 allen

#作业代码 调参学习from __future__ import print_functionimport pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom skle...

2018-12-24 20:39:30 173

原创 一周算法实践3 Allen

导读目标:记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。1.导入包from __future__ import print_functionimport pandas as pdimport numpy as np from s...

2018-12-21 21:35:34 248

原创 一周算法实践二 Allen

一周算法实践二导入相关库读取数据区分训练数据和测试样本用随机森林分类器训练集成梯度下降法训练极端梯度提升下降法训练基于决策树提升下降法训练打印结果导入相关库#导入库 LGBMClassifier 、xgboost#安装命令 pip install xgboost pip install lightgbmimport pandas as pdfrom lightgbm impor...

2018-12-20 21:22:46 256

原创 一周算法实践---金融贷款逾期模型

金融贷款逾期模型1.读取数据import pandas as pddata_all = pd.read_csv('../data/data_all.csv')`2.划分数据集from sklearn.model_selection import train_test_splitx = data_all.drop(['status'], axis=1)y = data_all['st...

2018-12-19 22:21:56 845

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除