
大数据计算
阿雅Yage
这个作者很懒,什么都没留下…
展开
-
MapReduce计算反文档频率IDF(Python实现)
一、基本概念 词频(TF,Term Frequency):一篇文章中某个词的出现次数。TF=某个词在文章中出现的次数/文章的总词数,或者TF=某个词在文章中出现的次数/该文出现次数最多的词的次数。 反文档频率IDF:在词频的基础上,赋予每个词的权重,进一步体现该词的重要性。IDF...原创 2019-02-28 16:04:09 · 1127 阅读 · 0 评论 -
计算最长公共子序列LCS(Python实现)
     最长公共子序列参考https://blog.youkuaiyun.com/v_JULY_v/article/details/6110269 一、概念  &原创 2019-02-28 21:29:40 · 2333 阅读 · 0 评论 -
MapReduce工作原理详解(学习笔记)
一、MapReduece的参与者      首先讲讲物理实体,参与mapreduce作业执行涉及4个独立的实体: 客户端(client原创 2019-02-26 11:16:56 · 9323 阅读 · 3 评论 -
隐马尔可夫模型求解中文分词实例(转)
参考: https://blog.youkuaiyun.com/liujianfei526/article/details/50640176转载 2019-03-02 17:10:30 · 1044 阅读 · 0 评论 -
win7下IntelliJ IDEA使用Maven搭建本地spark开发环境及解决执行错误
开发环境:IntelliJ IDEA ULTIMATE 2017.2 运行环境:jdk1.8.0_2,scala-2.11.4 安装jdk和scala 在win7机器上安装jdk和scala,添加环境变量JAVA_HOME和SCALA_HOME,并追加到Path环境变量中:%JAVA_HOME\bin%;%JAVA_HOME\jre\bin%;%SCALA_HOME%\bin; IDEA导入j...原创 2019-04-05 16:34:37 · 658 阅读 · 0 评论 -
大数据、机器学习、算法比赛等中文文档
https://www.ibooker.org.cn/docs/ 发现一个中文社区,其文档包括Storm、Spark、HBase、Flink、Kafka、Scikit-Learn、TensorFlow、Matplotlib、Numpy、Pandas、Xgboost、Kaggle、LeetCode等 ...原创 2019-06-12 09:03:49 · 187 阅读 · 0 评论