
数据挖掘/机器学习
文章平均质量分 54
爱知菜
Renjie Wei
展开
-
AWS中所有与数据科学有关的服务一览表(MLS-C01)
AWS中所有与数据科学有关的服务一览表(MLS-C01)原创 2024-03-18 16:39:55 · 681 阅读 · 0 评论 -
TorchServe 简单教程
torchserve是Facebook和AWS联手开发的一款用于机器学习模型部署和调用的微服务程序。网址:https://pytorch.org/serve/Torchserve调用的模型文件是 .mar 文件,pytorch生成的模型文件要使用torch-model-archiver 来转换成 mar文件。$ torch-model-archiverusage: torch-model-archiver [-h] --model-name MODEL_NAME ..原创 2021-10-07 22:17:46 · 1033 阅读 · 0 评论 -
安装 tensorflow 中由于CPU不支持指令集导致的问题
tensorflow从1.6版本开始对CPU要求支持AVX指令集。导致老电脑安装tensorflow的python预编译包时后,在python中import tensorflow会报错(illegal instruction)。解决办法1. 自己编译tensorflow2. github上搜一个repo, 叫 yaroslavvb/tensorflow-community-wheels, 这个repo的iss...原创 2021-08-09 16:31:49 · 1224 阅读 · 0 评论 -
从RNN到UniLM:NLP & DeepLearning技术发展历程。
最近在研究NLG,看了很多资料顺便整理一下收获。使用DeepLearning技术在NLP领域,最初是从RNN开始的。模型RNNRNN的R是recurrent,中文全称循环神经网络。这种神经网络比传统的神经网络的优势是有记忆力。在计算的过程中,除了有输入外,还会把上一次的计算产生的隐藏层也一并输入进来。“一并输入进来”这个过程叫concat,具体做法其实很简单,就是把输入的向量和隐藏层的向量接起来。比如输入向量长度是5, 隐藏层长度是128, 那么RNN的输入层长度就是12原创 2021-08-04 18:22:58 · 359 阅读 · 0 评论 -
nvidia cuda windows下gpu内存管理
mxnet 出现cuo'wuRuntimeError: CUDA out of memory. Tried to allocate这表示显卡内存不足,搜索怎么释放显卡的内存的时候,大多都是linux下的解决方法。windows下可以这样做:打开cmd窗口,输入nvidai-smi查看显卡使用情况如图可以看到下边有个PID表示进程id,然后打开任务管理器,点击详细信息,根据pid找到需要释放的进程结束即可。————————————————版权声明:本文为优快云博主「安娜是个少年」的原创文章,遵原创 2021-06-06 21:29:13 · 956 阅读 · 1 评论 -
Spark Xgboost 分布式运行原理
参考xgboost官网文章:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.htmlParallel/Distributed TrainingThe massive size of training dataset is one of the most significant characteri...转载 2019-12-26 14:43:10 · 884 阅读 · 0 评论 -
机器学习中计算优化的 Ring AllReduce
参考这篇文章:https://blog.youkuaiyun.com/dpppBR/article/details/80445569谈一下我的理解,在GPU的机器学习过程中,传统的做法有类似MapReduce的地方,把数据分成若干个小块,每个小块在一个GPU上训练(Map),然后把训练得到的神经网络参数汇总到一台机器计算参数的平均值(Reduce),最后又会把计算好的参数返还给。这看起来很合理,但...原创 2019-10-16 11:12:32 · 743 阅读 · 0 评论 -
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(4)上一节我们讲到根据一颗树的情况来判断是否有必要进行进一步的挖掘,这里有一个重要的概念叫单路径树,请看下面三张图: 图1 图2 图3它们分别是beer ,chips和 milk 的条件模式 子树,当对最小支持度为3的关联规则进行挖掘时其中图1原创 2013-05-26 15:02:02 · 4475 阅读 · 0 评论 -
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(3)上一节简单讲了下FP树的生成,在这一节我将描述FP树的挖掘过程.首先我们回顾一下要挖掘的特征项及样本空间:items=('chips','eggs','bread','milk','beer','popcorn','butter')sample=[ ['milk','eggs','b原创 2013-05-26 14:58:30 · 3744 阅读 · 3 评论 -
热门搜索引擎的TOP-K算法的python实现(回溯算法遍历trie树)
问题原型:http://blog.youkuaiyun.com/v_july_v/article/details/62794982、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也原创 2013-10-16 11:52:24 · 4604 阅读 · 2 评论 -
社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)
前文说到根据贝叶斯过滤器筛选出的评论将其中被分类为有价值评论的排名前50条拿出来作人工标注,这样就得到了一个小评论样本库。于是我们面对的问题就变成了一个典型的部分监督学习,又称LU学习。LU学习的全称是Labeled Examples & Unlabeled Examples,和监督学习相比,LU学习不仅会把那些已标引的数据用于训练分类器,还会把未标引的数据中的有价值信息挖掘出来加以充分利用。原创 2013-11-03 14:58:21 · 2664 阅读 · 0 评论 -
社交平台舆情分析项目的总结和感想(SELENIUM,NLTK,贝叶斯分类器)(一)
前一段时间做了一个社交平台(比如新浪微博,腾讯微博)上面话题的评论采集和分析的项目,具体技术用到了selenium和python的nltk库。首先是数据采集,这里没有使用这些平台的开放API,而是用到了selenium技术,原因是因为开放API往往有采集频率的限制而且部分平台的API不够完善,而用selenium采集可以解决 网页上的核心数据通过ajax异步加载的问题。然后是数据的预处理,原创 2013-11-02 21:01:41 · 7310 阅读 · 0 评论 -
海量日志数据提取出访问次数最多的那个IP python实现 总结
问题原型: http://blog.youkuaiyun.com/v_july_v/article/details/62794981、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件原创 2013-10-15 16:24:04 · 2743 阅读 · 0 评论 -
从WekaWiki上的一个文本聚类的示例开始(3)
在完成了预处理和特征提取后,下一步就是用 聚类算法 进行文本聚类。在聚类算法中 距离函数的选择很重要,文本挖掘中最好的距离函数就是 余弦距离,但是Weka 3.6.10中 尚不支持 余弦距离,需要自己实现。我们可以在 Eclipse 中创建一个文本挖掘的项目,引入 weka.jar,然后然后实现一个余弦距离的类,它继承自weka中用于计算欧氏距离的类,代码如下:package cn.c原创 2013-10-22 16:18:57 · 4335 阅读 · 1 评论 -
从WekaWiki上的一个文本聚类的示例开始(2)
上一篇文章介绍了一个非常简单地预处理过程,这篇文章将继续演示下一步:用 weka 的 Filter 提取特征。Weka 处理数据的格式是 arff,所以首先我们要把 text_example 转换成 该格式,这里要用到 weka.core.converters.TextDirectoryLoader 这个类。运行下面这行语句。java -classpath $WEKAROOT/weka原创 2013-10-22 11:57:55 · 2544 阅读 · 0 评论 -
mdx member tuple set 区别
member 就是维度上一个节点tuple 是来自不同维度(或者Measure, Measure也可以理解为一个维度嘛)的节点的集合set 即set of tuples 它是tuple的集合, 如果每个tuple的维度只有一个, 那么set 也可以理解成member的集合...原创 2014-05-04 11:53:51 · 1495 阅读 · 0 评论 -
Weka Experimenter(实验者界面) 简解
111原创 2013-09-11 13:45:46 · 3922 阅读 · 0 评论 -
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(3)
在将程序移植到python之前,先来复习一下python的多线程编程的相关知识。请看下面的一段代码:import timeimport threadingimport urllib.requestimport queueclass ThreadUrl(threading.Thread): def __init__(self,q,name): thr原创 2013-06-27 17:29:35 · 1787 阅读 · 0 评论 -
kaggle竞赛: 沃尔玛销量预测
竞赛地址:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting第一名方案:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/discussion/8125基本思路是应用R的forecast包,对每个商店每...转载 2019-02-28 18:06:25 · 7395 阅读 · 0 评论 -
方差分析 概述
方差分析R原创 2015-03-24 12:04:49 · 2435 阅读 · 0 评论 -
Kaggle 上一个用户分类问题
kaggle redhat featurehashing xgboost原创 2017-04-13 00:04:04 · 1985 阅读 · 0 评论 -
python利用K均值做聚类,判断中国足球第几流
python R 聚类原创 2013-04-05 16:49:33 · 4279 阅读 · 3 评论 -
Weka Explorer(探索者界面) 详解(4)logistic回归和回归算法
logistic回归和回归算法原创 2013-09-06 18:16:18 · 19049 阅读 · 0 评论 -
提高 分类器 准确率的几种方法总结(装袋,提升,随机森林)
一、装袋对样本空间 D 进行 放回抽样,得到样本空间的一个子集 Di,由Di得到一个 分类器Mi。不断的重复上述过程,就可以得到一系列分类器 M1,M2,M3....Mi ,在分类时用这些分类器进行投票来决定分类。二、提升和AdaBoost对长度为d的训练样本空间 D 的每一个元组分配一个初始的权限 1/d, 然后开始一个迭代的过程:根据元组的权限来作为抽取概率原创 2013-05-30 12:09:05 · 11204 阅读 · 0 评论 -
概率论几大分布和统计学三大检测简述
二项分布二项分布是一个离散概率分布在n次独立的实验中, 事件A 发生的概率为p(不发生的概率则为1-p),那么最终事件A 发生k(k大于等于0,小于等于n)次的概率为:nCk * p^k * (1-p)^(n-k)其中 nCk 的意思是 组合(n中取k)泊松分布泊松分布是二项分布的一个变形和取极限,它通常被用来描述一段时间内或者一定空间内事件的发生次原创 2013-08-19 17:00:00 · 20304 阅读 · 1 评论 -
从WekaWiki上的一个文本聚类的示例开始(1)
WekaWiki 上有一个文本聚类的示例,简述了使用 weka 进行文本聚类的过程,本系列文章将使用其中的text_example 演示一遍 文本挖掘从 预处理 到 特征提取 再到挖掘的全过程。下载完 text_example 完后,解压,其中有3个文件夹,分别为class1,class2,class3,每个文件夹中各有数篇文章,这就是分类好的样本。class1,class2,clas原创 2013-10-21 16:44:03 · 2242 阅读 · 0 评论 -
高维数据的应对手段: 主成分分析(PCA)简介+numpy实现+weka使用说明
数据挖掘经常遇到大数据的情况,其中的一个表现形式就是数据的维度非常多,为了对维度进行压缩,可以采用一种名叫主成分分析的技术(PCA),下面的链接把PCA的原理解释地非常好:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html在这里我补充几点:投影:某一点在某个向量上的投影等于 这点的坐标 点乘 向量的单位向原创 2013-10-27 23:30:49 · 12047 阅读 · 3 评论 -
支持向量机的实用指导
带配图的doc版可以在这里下载:http://pan.baidu.com/s/13kj2M1.介绍SVM是数据分类的一个有用的技术。虽然SVM被认为比神经网络简单,不熟悉的用户一开始很容易不习惯。在此我们给出梗概。注意本指导不是给SVM研究者的,也不保证能达到高的准确率。同时,我们也不打算解决困难的问题。目的是SVM初学者一个指导让你很快得到一个可接受的结果。虽然用户们不必翻译 2013-10-22 19:55:00 · 1435 阅读 · 0 评论 -
在linux(ubuntu )上安装配置weka
1. 下载java vm。在命令行输入 wget --no-cookie --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F" http://download.oracle.com/otn-pub/java/jdk/7u25-b15/jdk-7u25-linux-i586.tar.gz 注意命令行中参数表示带cookie的原创 2013-09-03 16:11:55 · 8545 阅读 · 2 评论 -
统计学中ROC曲线的认识
ROC 曲线的横坐标表示 一个负的实例被当作正实例的概率(FPR),纵坐标表示一个正的实例被当作正的实例的概率(TPR)。ROC曲线标识了,为了达到某个TPR,伴随而来的该分类器的FPR是多少当把所有的实例都分类成正的以后,TPR为100%,FPR也是100%,这解释了为什么ROC曲线必然过点(100%,100%)。同理,如果把所有的实例都判为负类,那么,TPR为0,FPR也为0,所以原创 2013-06-14 17:48:59 · 8000 阅读 · 0 评论 -
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(5)(selenium登场)
在这一篇文章中,我们将使用 python 一个著名的网页解析库 BeautifulSoup 来实现一个标准的 Handler,并使用 广度优先算法 让爬虫工作起来。未完待续。原创 2013-07-01 11:14:41 · 1917 阅读 · 0 评论 -
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(1)
NCrawler 是一款 .net 上的开源爬虫,虽然它没有arachnode.net那么成熟完善,但是代码量小,设计结构好,很适合大家研读。在NCrawler.Demo项目下的Program.cs文件中,找到Main函数函数开头的一段代码,是打开HTTP协议的限制(对同一个WEB最多同时发起两个连接的限制)ServicePointManager.MaxServicePoi原创 2013-06-26 22:15:21 · 2757 阅读 · 1 评论 -
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(4)
在上一节我们回顾了python 多线程的知识。queue这个线程安全的序列正是python用来实现线程池的关键。我们可以把爬虫需要解析的URL放入这个序列中,供其它空闲的线程获取并使用。线程池的实现:import ThreadPool.dlthreadclass threadpool: def __init__( self,queue,handlers,maxdepth原创 2013-06-29 22:07:05 · 1826 阅读 · 0 评论 -
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(2)
在上一篇中,我们提到了管道这个概念(pipeline),其实所有的管道都实现了同一接口叫 public interface IPipelineStep { void Process(Crawler crawler, PropertyBag propertyBag); }所有爬到的网址都将被 构造 Crawler 时通过构造函数注入的管道 处理。一般来说第一个处理的管道是原创 2013-06-27 10:16:49 · 1976 阅读 · 0 评论 -
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(5)在这一个节我们将谈一谈算法的优化。一 构造树的优化方法:1. 垂直数据格式中,diffset法,这些方法在.《数据挖掘 概念与技术》这本书都有提到但都有缺陷,不善于发现长模式(长模式是什么意思?谁来告诉我?)。总之可能用的比较少。2. 在生成条件模式基的时候,有一种优化算法很实用,叫F原创 2013-05-27 12:00:58 · 2466 阅读 · 0 评论 -
判断关联规则是否可靠-提升度 lift,KULC,IR
在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。关联规则(计算机游戏,游戏机游戏) 支持度为0.4,看似很高,但其实这个关联规则是一个误导。在用户购买了计算机游戏后有 (4000÷6000)0.667 的概率的去购买游戏机游戏,而在没有任何前提条件时,用户反而有(7500÷10000)0.75的概率去购买游戏机游戏,原创 2013-05-28 16:23:25 · 14070 阅读 · 1 评论 -
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(1)程序使用PYTHON3.2实现,要生成每一步树的图片,请安装一个绘图库PIL(Python Image Library)源代码下载地址:点击打开链接打开源代码后可以在sample.py找到样本如下:items=('chips','eggs','bread','milk','beer','pop原创 2013-05-24 15:32:12 · 4628 阅读 · 1 评论 -
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)
详解python实现FP-TREE进行关联规则挖掘(带有FP树显示功能)附源代码下载(2)fptree进行数据挖掘的第一步是生成fptree,具体的生成过程大家在网上和书上都能找到详尽的解释,这里我就不再赘述了。不过大家可能会产生一个问题:为什么要对每一条样本记录按照其中特征项支持度从大到小排序一下,才能生成fp树呢?请看下图:这张图是将我的每一条样本记录按照其中特征项支持原创 2013-05-26 13:40:34 · 7929 阅读 · 2 评论 -
Weka Explorer(探索者界面) 详解(3)决策树算法,分类器评价标准说明
这篇文章中我会通过几个例子向大家介绍一些weka经典的算法和评估算法的手段。原创 2013-09-05 17:38:26 · 16688 阅读 · 0 评论 -
Weka Knowledge Flow(知识流界面) 详解
Weka Experiment(实验界面) 详解原创 2013-09-09 17:37:23 · 8917 阅读 · 0 评论