- 博客(4)
- 收藏
- 关注
原创 python逻辑回归代码实例
# -*- coding: utf-8 -*-"""Created on Tue Feb 6 09:00:31 2018@author: wangqingxin"""import pandas as pdfrom pandas.core import datetoolsimport statsmodels.api as smimport pylab as plimport n...
2018-03-01 15:20:48
1030
转载 impala调优
Impala是Cloudera开发、开源的一个原生于Hadoop的交互式SQL引擎。本身Impala的出现并不是为了替代Hive、Pig等现有的、常用的ETL工具。实用的场景往往于商业智能密不可分,比如对数据进行聚合(Aggregation)、做一些简单的分析统计(比如window function),通过JDBC/ODBC,集成到当今流行的BI工具中,例如Tableau等等。这篇博文主要来探讨下...
2018-03-01 14:30:06
675
转载 Python+条件随机场(crf)+词性标注
本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。 本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效...
2018-03-01 14:27:56
10359
2
转载 基于Python的机器学习实战:AadBoost
目录:1. Boosting方法的简介2. AdaBoost算法3.基于单层决策树构建弱分类器4.完整的AdaBoost的算法实现5.总结1. Boosting方法的简介 返回目录Boosting方法的基本思想:对于一个复杂的任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好. 实际上就是“三个臭皮匠顶个诸葛亮的道理。”(参考:李航 《统计学习方法》)对于分类问...
2018-03-01 14:15:38
285
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人