- 博客(14)
- 资源 (8)
- 收藏
- 关注
原创 机器学习之shuffle
在做机器学习的任务时,需要在运行模型之前将特征转化成词id再转化成模型可识别的二进制文件形式,其中转化成的词id文件最好进行shuffle,打乱各行数据,这样参数能不易陷入局部最优,模型能够更容易达到收敛。
2016-12-21 12:59:35
2984
转载 flask几种参数配置方法
转自:http://heipark.iteye.com/blog/17461871. 直接配置app.config['HOST']='xxx.a.com' print app.config.get('HOST')2. 通过环境变量加载配置export MyAppConfig=/path/to/settings.cfgapp.config.from_envvar('MyAppCo
2016-09-06 10:26:52
635
转载 python的那些事——join()和"+"
”+“:相比join效率低,浪费空间,每次”+“的过程中,每生成一个中间结果,都会复制上一次的结果,开辟一个新的空间,如n个字符串用+进行连接,则每次需要(n-1)+(n-2)+...+1的复制操作,耗时O(n²);join:在一开始的时候就计算并开辟需要的空间开辟,然后一次性将每个字符串放入空间中,避免不必要的浪费。耗时O(n)转自《编写高质量代码 改善Python程序的91个建
2016-07-05 16:03:58
464
转载 linux的那些事(1)
1. apt-getapt-get是某些linux发行版使用的一个“包管理器”(还有别的发行版使用yum等,以及brew等其他平台上的包管理器,工作原理类似)。包管理器的作用是从源(Source)服务器那里下载最新的软件包列表,然后在你需要安装某个软件包(apt-get install)的时候从列表里面查询这个软件包的版本信息、系统要求、翻译、依赖项(该软件正常运行必须安装的其它软
2016-06-27 23:26:03
442
原创 ubuntu下pycharm的安装与配置
1.官网下载pycharm-community-2016.1.4.tar.gz,官网链接:https://www.jetbrains.com/pycharm/download/#section=linux压缩包链接:https://www.jetbrains.com/pycharm/download/download-thanks.html?platform=linux&code=PCC
2016-06-25 10:04:28
648
转载 webfreer去广告
webfreer去广告1.打开webfreer安装目录,找到extension目录下的background文件: 2. 用记事本打开background,找到以下代码段: 修改如下: 打开webfreer,广告去除成功!参考:http://jingyan.baidu.com/article/456c463b63fa3d0a583144aa.htm
2016-04-22 08:24:11
2094
原创 NLTK学习笔记——信息抽取(1)
信息抽取的内容在《Natural Language Processing》第7章,对于文本的信息抽取,命名实体及其关系的识别是至关重要要的,信息抽取分为以下几个步骤: 1. 文本切分,将string类型的文本划分为list类型的句子 2. 句子切分,将每个list类型的句子划分成由单词或chunk组成的list 3. 词性标注,生成由一个list,其组成内容是多个形如(word,labl
2016-03-03 20:37:20
8280
原创 NLTK学习笔记——Classify模块(3)
本节介绍我的分类实战过程。简要记一下题目:应聘者简历上的职位信息常常繁杂且无规律,而一间公司的职位数量是一定的,于是本实战任务就是将简历上的职位进行分类。注:原文是英文的分类实例,而我要做的是中文分类,因此首先要引入结巴分词器对中文分词后方可继续处理。简历职位(25679条)与公司职位数据(32条)分别为:下面参照《NLTK学习笔记——Classify模块(2)》的
2016-03-03 20:20:49
2182
原创 NLTK学习笔记——Classify模块(2)
注:本文为实战过程作铺垫,因为参考原文是英文的,每看一遍都要琢磨一遍单词和语法,因此总结一下原文的过程,以备忘之用。本文主要介绍原文中利用NLTK进行twitter语句分类的过程,在下一节就记录本人的实战过程。参考:http://www.cnblogs.com/wentingtu/archive/2012/04/07/2436583.html首先与NLTK的例子(即通过name判断gend
2016-03-03 20:19:23
2798
原创 NLTK学习笔记——Classify模块(1)
前言:在NLTK中讲分类和标注的是第5、6两章,这里把两个章节整合了一下。本文主要是知识点的笔记,在《NLTK学习笔记——分类和标注(2)》中进行实战的介绍。str2tuple()从表示一个已标注的标识符的标准字符串创建一个这样的特殊元组 print wordlist.tabulate();按词频降序输出所有的词,如:有监督的分类过程官方例子特征:最后一个字母;特征可能值:
2016-03-03 20:16:01
1267
原创 NLTK学习笔记——开篇
本人试过阅读书籍并在书上做笔记,奈何脑容量不足,书上的笔记也是杂乱无章,发现读过之处就好像没读。于是决定开始写NLTK系列的读书笔记。本学习笔记主要用于个人备忘之用,会有诸多内容摘自其他网页或文章,本人会尽量写明出处,如有雷同,还请谅解。本系列的NLTK学习笔记会尽量根据官方文档所标注的12个模块来记录,顺序不完全按照图示顺序,会根据自身的学习情况来定。
2016-03-03 20:13:04
499
原创 《Natural Language Processing》斯坦福视频学习笔记——3.编辑距离
本篇介绍Leventice distance以及它的变种,主要包括:Leventice distance及其复杂度基于权重的编辑距离Needleman-Wunsch算法改进的算法Smith-Waterman算法Smith-Waterman与 Needleman-Wunsch对比具体内容如下:Leventice distance:代价(cost):删除-1,插入-
2016-01-17 16:07:15
724
原创 《Natural Language Processing》斯坦福视频学习笔记——2.text processing
本篇涉及到的文本处理,主要包含以下内容:LemmatizationStemmingPorter Stemming Algorithm判断一个单词是否是句尾单词判断句尾单词的扩展条件具体的笔记内容如下:Lemmatization:使单词、句子还原Stemming:使有相同词根的词还原Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英
2016-01-17 15:07:03
781
原创 《Natural Language Processing》斯坦福视频学习笔记——1.introduction
目前正在学习斯坦福大学的教学视频《Natural Language Processing》,记录下学习过程中的点滴,主要目的是为自己复习之用。本篇是引言部分,主要记录了NLP的现状以及其中的关键技术。已解决:spam detection,POS tagging,Name Entity Recognition(NER)在发展:Sentiment Analysis,Coreference
2016-01-17 14:34:26
1062
rational rose
2014-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人