- 博客(28)
- 收藏
- 关注
原创 种群增量学习进化算法 Population-Based Incremental Learning (PBIL)
缘起两年前,自己的一项工作用到了PBIL算法,当时就发现网上关于PBIL算法的介绍很少。事实上,如果不是导师提及,我也不会选择用这个算法。最后我是在一个同学的硕士学位论文中找到了关于这个算法的准确的中文介绍。但是,两年后当我再想用这个算法的时候,大脑一篇空白,完全忘记了它的原理。于是又重复了一遍两年前的工作,重新去寻找关于这个算法的介绍。为了避免再次发生这种情况,我把我找到关于PBIL的内容介绍搬到这里,并附上源码。种群增量学习进化算法 Population-Based Incremental Le
2020-12-19 09:19:58
2953
2
翻译 机器学习驱动的语言测试
这里写自定义目录标题机器学习驱动的语言测试背景Item Response Theory (IRT, 项目反应理论或潜在特质理论)computer-adaptive testing (CAT,计算机自适应测试)The Common European Framework of Reference (CEFR, 欧洲语言共同参考框架)测试结构和测试形式The Vocabulary Scale 词汇评级特征模型实验The Passage Scale 文章评级模型特征语料库文章难度排名实验文章难度评级实验事后验证实验
2020-06-22 21:49:02
1559
原创 阿里云E-mapreduce 如何提交自己的jar包并运行
源起租用了E-mapreduce服务器,如何运行自己的spark程序。参考官方文档:点spark作业配置, 我只是更详细的描述一下操作步骤。操作步骤一、创建作业1. 作业2. 创建作业3. 输入你平常在虚拟机提交任务时的指令,并做以下修改: 1)只保留“spark-submit”之后的内容 (因为在后台提交时,它会自动加上这句话) 2)jar包的路径 是存在oss的buket中的,选择“选择O...
2018-06-22 16:01:54
1488
原创 阿里云E-MapReduce SSH集群登录及本地查看Hadoop等系统的webUI
源起:终于到了租用云服务器的时候了,想想还有点小激动呢。EMR的官方文档上关于ssh集群登录的操作步骤已经很详细了,而且还有视频,但是实际操作的时候总会遇到一些意想不到的问题,于是我就把我配置的过程记录下来,以供参考。配置步骤:配置过程基本参照EMR的官方文档:SSH集群登录一、SSH登陆集群master节点1. 下载安装 PuTTY,Puttygen 2. 打开puutygen, 点击gene...
2018-06-21 11:22:06
1294
原创 spark 在集群运行时遇到的一些问题
人工导航:1,Exceptionin thread "main"org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcould o...
2018-04-03 17:11:07
4227
原创 python form scapy.all import * 报错
源起:我需要使用scapy包对一些流量文件做处理,但是代码import scapy执行没有问题,代码form scapy import *就会出现问题。错误提示是:Traceback (most recent call last): File "F:/Python_code/getForderName/get_features2.py", line 12, in <module>...
2018-03-12 16:28:02
8473
3
原创 KEEL 的一般操作步骤详细说明
源起实验室一个一位师姐着急赶毕业论文,时间紧张,我就帮她KEEL做了一些小实验。虽然去年用KEEL做过一些实验,但是猛地拿起来还是有些生疏,就在做实验的过程中整理了一下基本的操作过程,以防今后再突然要用的时候浪费时间。正文以做modules 里的Imbalanced实验为例。1,双击打开KEEL的执行jar包2,导入数据:选择Data Management2,选择 Import Data3,选择...
2018-03-08 19:45:04
7192
23
原创 Python sklearn KFold 生成交叉验证数据集
源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档>>> import numpy as np>>> from sklearn.m...
2018-03-06 11:23:40
17752
1
原创 Mahout random forest 随机森林小案例
写在前面菜鸟真的需要耗费大量的时间各种试才能解决问题啊。。。~~o(>_首先介绍一下我尝试的过程,大家可以参考着排排错。1. 我最初用的是mahout最新的0.13版本,想要按照官方给出的案例(Classifying with random forests)测试并学习一下随机森林的用法,但是发现根本没办法按照这个官方文档去做。虽然官方给出的0.13版本API的文档,但是它的测试用例还是
2018-01-24 20:52:16
1740
原创 Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例
源起《Mahout in Action(Mahout 实战)》这本书的第14.6节有一个用朴素贝叶斯对20 Newsgroups 进行数据分类的案例,但是由于该出出版使用的是mahout0.6版本进行的实验,我用目前最新的0.13版本已经不能再重复这个实验了(mahout做了很多改动)。ERROR MahoutDriver: : Try the new vector backed naiv
2018-01-22 21:50:33
996
原创 Hadoop学习过程遇到的问题总结
问题一问题描述:8/01/22 16:52:16 WARN Client: Failed to connect to server: master/192.168.217.128:10020: retries get failed due to exceeded maximum allowed retries number: 10java.net.ConnectException
2018-01-22 21:33:42
4654
原创 Github项目 hadoop-imbalanced-preprocessing 如何运行
源起:hadoop-imbalanced-preprocessing是基于MapReduce实现的随机过采样,随机欠采样和SMOTE算法的程序,它主要解决在大数据环境下类别不平衡问题的数据预处理的问题。该项目直接集成在Mahout项目的代码里面。如果对hadoop 的MapReduce框架和Mahout了解很少的话,会对这个代码很难入手,不知道如何运行它。解决方案:我一开始没有去了解M
2018-01-17 16:40:18
639
原创 Hadoop MapReduce案例word count本地环境运行时遇到的一些问题
问题一加载不到主类原因:我一开始创建的是Map/Reduce Project, 它会直接去我本地安装的hadoop里面寻找相应的jar包。但是由于我一开始将hadoop放在D:\Program Files文件夹下,应为该路径中间有个空格,所以没有找到相应的jar包。解决方案:将hadoop移出D:\Program Files文件夹,直接放到D盘下,然后重新配置环境变量问题二lo
2018-01-08 17:13:04
1508
原创 Hadoop-Eclipse-Plugin 安装
写在前面每次遇到两三天解决不了的问题,我都会在心里说,这个问题要是解决了,我一定要整理出来写成博客。可是问题解决完成之后,就会觉得,原来这么容易就能解决,真不值得一写。其实这一次,我并没有解决所遇到的问题,只是绕过了问题。而且我知道,接下来还会有很多更难更复杂的问题等着我去解决。我不知道在这个过程中我会卡在哪个问题上以至于前功尽弃。我现在的状态几乎等于还有开始,我这样在心里上给自己打预防针
2018-01-07 21:06:32
16044
5
原创 Hadoop 2.8.2 和 Spark 2.1.0 分布式搭建及遇到的一些小问题
分布式搭建下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。安装JDK1. 解压安装包2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径/home/pangying/java/jdk1.8.0_1513. 配置环境变量4. 使配置生效5. 检查是否配置成功安装Hadoop1. 解压安
2018-01-05 10:44:08
786
原创 Hadoop集群活跃节点为0解决方案
Hadoop集群活跃节点为0解决方案问题描述我按照教程修改了Hadoop下的配置文件,然后使用start-all.sh启动整个集群。jps查看每个节点该启动的进程都启动了,可以访问master:50070页面,但是其中的Live Nodes项显示为0, 可是我明明有两个data node服务器。解决思路造成这样结果的原因有很多,如多单纯的copy这样的问题去问度娘,很难快速得到满意的答案。但是也可以
2017-11-14 10:53:17
7587
原创 作者年份 soft computing参考文献格式要求,LaTeX实现
如果你所投的期刊要求使用作者年份作为索引引用参考文献(如soft computing等),参考文献列表不需要序号,且按作者姓氏首字母排序,如图。你可以参考本文的方法实现。 Step1. BibTex首先你需要使用BibTex去存放参考文献,bibliographystyl使用spbasic,‘bibfile’是我的.bib文件的文件名,需要根据自己实际的文件名进行替换。\usepackage[ro
2017-08-16 17:15:20
10193
5
原创 机器学习 Logistic回归 原理Python实现
基本思想回归:假设有一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称为回归。Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类,使用最优化算法寻找最佳拟合参数。Logistic回归优缺点优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 使用数据类型:数值型和标称型Sigmoid函数为了对数据进行预测分类,
2016-11-28 16:40:14
2314
原创 朴素贝叶斯原理及Python实现
朴素贝叶斯分类器优缺点优点:在数据较少的情况下依然有效,可以处理多分类问题 缺点:对输入数据的准备方式较为敏感 使用数据类型:标称型数据算法原理朴素贝叶斯分类器是基于贝叶斯概率理论构建的,即我们希望通过一个已知事务的先验概率(条件概率)去推测该事物的后验概率。 首先我们来回顾一下贝叶斯概率理论原理: 贝叶斯公式说明: 1,事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率
2016-11-22 11:09:41
1326
原创 ID3 决策树 Python实现
算法原理根据信息增益的评判准则,选择一个当前最优的特征对数据集进行分割,递归此操作,直到最后被分割的子数据集只含有一种类型的样本或者用完所有的特征,最后选择该子集中多数的类别最为该子集的最终类别(当然也可以有)。信息增益熵(Entropy):指信息的期望值 熵是一个很玄的概念,人类的成长过程其实就是一个降低熵的过程,就像人刚出生事,大脑内的每一个神经元都是互相连接的,然后随着年龄的增长不断的断掉一
2016-11-17 09:41:34
528
原创 机器学习----K-近邻算法(Python代码详解)
本博文的内容主要是我在自学《Machine Learning in Action》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。 距离采用欧式距离计算公式,计算两个向量点xA和xB之间的距离: d=(xA0−xB0)2+(xA1−xB1)2−−−−−−−−−−−−−−−−−−−−−−−√ d = \sqrt{(xA_0-
2016-10-10 19:56:13
1051
翻译 Covert Communication in Mobile Applications 手机应用中的隐秘通信
原文链接:http://people.csail.mit.edu/mjulia/publications/Covert_Communication_in_Mobile_Applications_2015.pdf原文题目:Covert Communication in Mobile Applications手机应用中的隐秘通信Julia Rubin_, Michael I. Go
2016-07-18 14:05:26
1859
原创 UnicodeDecodeError: 'utf8' codec can't decode byte pytho控制台输入参数编码问题
Python从cmd控制台得到输入参数时,由于控制台的编码格式默认是ascall编码,所以在Python中用utf-8的需求十刃用参数时就会出错。于是我们就会想调用name.encode('utf-8')方法进行编码,但是随之而来的又是一个新的错误:UnicodeDecodeError: 'utf8' codec can't decode byte...这个错误的解决方案也是我从网上找
2016-03-25 11:02:41
766
原创 bootstrap Model 点击确定按钮后 转到新页面
我们在中文文档或是一些教程上看到的Model案例的footer部分大都是这样写的:确定这样子点击确定按钮后,网站就会跳转到一个新的空白页,原因就是 a标签的href="#"属性。解决方法很简单:保存
2016-03-16 15:47:37
5231
原创 JAVA web调用执行python脚本程序的四种方式,回避java.lang.OutOfMemoryError:PermGen space内存溢出问题
我在网上搜到的JAVA调用python程序的三种方式:方式一:调用python函数。可以传入参数,获取返回值。 public static void PythonFunctionTest(){ //python 解释器 PythonInterpret
2016-03-06 19:26:01
5660
原创 JSON字符串转化为JSONOBJECT对象
import net.sf.json.JSONObject; String jsonString=" {\n" + " \"rows\": [{\n" + " \"id\": 1,\n" + " \"pcapName\
2015-12-28 14:14:04
1139
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人