
林义孟
文章平均质量分 71
云南省高校数据化运营管理工程研究中心
这个作者很懒,什么都没留下…
展开
-
Python 对数据one-hot编码
目录离散特征的编码分为2种情况:连续变量的离散化处理法1.标签的处理:法2.计算指标/哑变量one-hot编码结合pd.cut,处理连续变量合并():要注意使用merge还是join离散特征的编码分为2种情况:1.我们在进行那些有大小关系的变量离散,小雨,中雨,大雨,{“小雨”:1,“中雨”:2,“雨天”:3},这里面有一定数量的大小关系,这种映射的讲解在法1:...原创 2018-09-25 12:05:08 · 651 阅读 · 0 评论 -
使用webdriver打开本地浏览器--python
webdriver有三种1、firefox浏览器,geckodriver (firefox 47以上版本,需要下载第三方driver,即geckodriver) 2. chrome浏览器的chromedriver 3. IE的驱动IEdriver起因:Selenium调用webdriver.chrome()出错webdirver.chorme()时,却提示PATH路径中没有c...原创 2018-07-30 20:33:42 · 1134 阅读 · 2 评论 -
python学习 文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试
系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupopython学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试 CountVectorizer TfidfVe...原创 2018-07-05 22:14:27 · 1564 阅读 · 0 评论 -
python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理
CountVectorizer TfidfVectorizer 中文处理系列目录 - python学习 文本特征提取(一) DictVectorizer shuihupopython学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer ...原创 2018-07-05 22:12:54 · 5612 阅读 · 0 评论 -
python学习 文本特征提取(一) DictVectorizer
文章系列:python学习 文本特征提取(一) DictVectorizer shuihupopython学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试 DictVectorizer对使用字典储存的数据进行特...原创 2018-07-05 22:04:29 · 1847 阅读 · 0 评论 -
美团点评2018春招自然语言处理方向
宝宝参加了2018美团的线上笔试,现改编题目一道: 美团编程题目简化版小猪佩奇在探寻数字的奥秘,想要知道1到n的正整数排列起来一共有多少位数字。例如:n为11的时候,1234567891011,一共13位,则输出13。n的的大小范围是1<=n<=10^9。 题目改编自:美团点评2018春招 自然语言处理方向职位试卷, 题目改编自:美团点评2018春招自然语言处...原创 2018-05-16 18:33:06 · 3280 阅读 · 0 评论 -
百度AI 开放平台API调用
近来要了解自然语言处理方面的技术,拿百度API做个实验对,进行多次编码尝试最终成功调用。在本人博客百度API使用系列,使用python代码实现。涉及内容如下:1. (一)百度AI 开放平台API调用之AccessToken获取2. (二)百度AI 开放平台API调用之应用实践 代码修改中出现的错误,及最终的方法 错误提示:"error_code": 282004,error_ms...原创 2018-04-18 18:05:22 · 3560 阅读 · 1 评论 -
主成分分析的方差最大,解析主成份为什么可以(二)
PCA最大方差理论+几何意义转载请注明:云南省高校数据化运营管理工程研究中心博客http://write.blog.youkuaiyun.com/mdeditor#!postId=78932615主成份为什么可以 经过主成分在压缩数据之后的数据(主成分得分数据),多个变量变为更少的综合变量,变量个数减少了,还能反映原有数据的信息吗?为什么可以呢?解决以上疑问前我们需要了解PCA理论基础:原创 2017-12-29 16:09:35 · 11457 阅读 · 0 评论 -
LDA基础知识系列 ---- (2)Dirichlet 分布
本节将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭,对称Dirichlet 分布的相关内容。 理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibb原创 2017-12-31 16:36:10 · 1616 阅读 · 0 评论 -
LDA基础知识系列 ----(1)共轭先验分布
理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibbs采样 本节以简单明了的叙述方式,讲述先验概率、似然函数、后验概率、同分布,Beta-Binomial共轭等共轭先验分布内容,对必要的推导,讲述其注意事项,避免跳原创 2017-12-29 21:19:36 · 1734 阅读 · 0 评论 -
PCA主成分分析(入门计算+深入解析)(一)
PCA主成分分析(入门+深入)+最大方差理论+几何意义Principal components analysis转载请注明:云南省高校数据化运营管理工程研究中心博客http://blog.youkuaiyun.com/m0_37788308/article/details/78115209 我们在作数据分析处理时,数据往往包含多个变量,而较多的变量会带来分析问题的复杂性。主成分分析(Prin原创 2017-09-27 17:28:21 · 64219 阅读 · 7 评论 -
PCA主成分python(代码详细备注)(三)
PCA算法+python实现(法一)步步详细解析(法一)步步详细解析 +(法二)scikit-learn快速实现方法1. 编程一步一步实现Software version: Python 2.7.12 |Anaconda 4.2.0 (64-bit)|我们以定义函数的形式来一步一步进行1.1 导入模块:Numpy,Pandas# -*- coding原创 2017-09-27 17:29:54 · 7498 阅读 · 7 评论 -
Beta-Binomial共轭和Dirichlet-Multionmail共轭(LDA基础知识视频)
Beta-Binomial共轭和Dirichlet-Multionmail共轭 l原创 2018-01-05 09:48:45 · 824 阅读 · 0 评论 -
git和码云使用教程(Windows二方法)
本Git和码云入门操作 一方面 简洁明了,忽略对简单的码云注册的演示,只做文字引导;另一方面,重点突出,对git链接码云容易采坑的地方,详细步骤。且本文有两种Git软件链接码云的方法,一种是窗口也代码输入;另一种是界面操作,各有千秋,欢迎“品尝”。 网上的各种Git和码云入门教程长短不一,不懂的时候,看十几篇也会试错,倒腾了一两个半天也没出来。晚上看着实验室大神操作一遍,传授了葵花宝典。随后原创 2018-01-11 12:39:58 · 37859 阅读 · 3 评论 -
Python删除指定行数据
Python小点点儿 按列条件筛选、删除DataFrame的行遇到清洗数据的问题,需要把某一列中为指定元素的数据,整行去除尝试了drop却不能到达理想的效果,isin效果理想。import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c']...原创 2018-12-23 21:26:07 · 6235 阅读 · 2 评论