
大数据
joris30
这个作者很懒,什么都没留下…
展开
-
利用matlab的newff构建BP神经网络来实现数据的逼近和拟合
trainlm算法速度比较快,容易过拟合,不利于推广,适合数据集很全时的映射使用;上面描述的是一层隐含层一层输出层的BP神经网络,训练函数是L-M。可以通过norm(T'-T),mse(T'-T)等评估拟合的效果。traingdx适合推广,可以设置goal来提前停止。现在需要通过神经网络来实现P->T的非线性映射。假设P是原始数据向量;T是对应的目标向量;原创 2023-03-08 11:30:55 · 708 阅读 · 0 评论 -
安装hadoop的步骤
1.到apache官网,下载hadoop,选择bin类型,tar.gz,大约300M2.copy到/opt文件下,tar开,tar -zxvfhadoop-3.0.3.tar.gz3.设置符号链接 ln -s hadoop-3.0.3 hadoop4.设置环境变量 在/etc/profile下,添加: export HADOOP_HOME=/opt/hadoop...原创 2018-07-27 07:07:50 · 3455 阅读 · 0 评论 -
hadoop的常见端口
50070:http namenode port50075:http datenode port50090:http 2namenode port8020:50070:rpc namenode port50010:rpc datenode port原创 2018-07-29 07:02:20 · 701 阅读 · 0 评论 -
配置完全hadoop
伪分布是namenode和datanode都在一台机器上;完全节点是分布在不同机器上。对于开发人员而言,为了模拟完全hadoop,可以通过克隆虚拟机来实现多机并发。克隆:完全克隆,不是克隆链接。注意CPU上限、共享文件1克隆出多台后,分别配置主机名和ip,主机名在/etc/hostname上;为了能映射主机名和ip,同时也需要修改/etc/hosts然后 service net...原创 2018-07-29 17:47:10 · 163 阅读 · 0 评论 -
hadoop常用命令
hadoop fs 其实和hdfs dfs命令的区别: hadoop fs: FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you are dealing with different file s...原创 2018-07-29 18:14:34 · 158 阅读 · 0 评论 -
TF-idf进行文本分析和关键词提取的算法
TF-Term Frenquency 词频找到文字中词频,去掉停用词,最后对常见性进行逆排序,找到不常见的词,这样就能找到该文字的关键词idf- inverse document frenquency 逆文档频率TF = 某词出现的次数/该文章的总次数IDF = log(文库的数量/(包含该词条的文章数+1))最后TF*IDF得到排序。比如要找中文库的所有文章,就搜包含...原创 2018-08-12 16:13:02 · 992 阅读 · 0 评论 -
文本分析的相似度
1.数据预处理:数据清洗,停用词必清洗,2.多个句子用分词器进行分词,组合成语料库,语料库是所有句子中的词的合集3.然后对每个句子找语料库出现的次数,形成词频向量(也可以用Word2Vec,Gensim)然后用余弦定理,对两个向量求cos角,从而获得两个向量的相似度...原创 2018-08-12 16:29:08 · 1152 阅读 · 0 评论 -
anaconda的使用
1.在nanconda的prompt中输入 conda list,可显示目前已经安装的包2.如果要安装新包,则可以输入anaconda search -t conda tensorflow,此时会显示相关的各种包,然后挑选对应系统的包的名称,输入anaconda show “该名称的包",会自动产生相应的命令,复制执行即可...原创 2018-08-18 23:26:03 · 239 阅读 · 0 评论 -
anaconda清华的镜像地址
https://mirros.tuna.tsinghua.edu.cn/anaconda/achieve原创 2018-08-18 23:46:01 · 5637 阅读 · 0 评论 -
pandas的数据读取
在anaconda里面的notebook里,可以通过执行不同的cell来进行调试。下面的cell如果要调用上面的cell变量,需要先执行上面cell的语句,通过shift+回车来实现。我们经常需要使用处理类似csv格式的数据,利用pandas可以方便的读取该数据,常用的命令如下:例如读取这样的csv文件:food price egg 1 orange 2...原创 2018-09-28 22:30:06 · 416 阅读 · 0 评论