
大数据&数据挖掘&算法&AI
wangxin0314
一只站在树上的鸟儿,从来不会害怕树枝会断裂,因为它相信的不是树枝,而是它自己的翅膀。与其每天担心未来,不如努力做好现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdfs常用命令
hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunli原创 2016-02-29 11:20:41 · 765 阅读 · 0 评论 -
Java机器学习库ML之六关于模型迭代训练的思考
我遇到的场景是:样本集有5000万条,接近5个G,那么这样的样本集一次导入训练,我放着一天一夜都没跑出结果,机器性能还特别好,是64位linux有128G内存。针对这样的情况,我想到的是两种思路:1)将样本集分割然后来迭代训练模型,这个对模型结果理论上是没有影响的,一次导入样本集训练,和多次导入样本多次训练同一个模型,最终模型结果应该是一致的;模型保存的针对训练集所训练出来的参数,如y=a...转载 2018-10-10 17:59:04 · 1370 阅读 · 0 评论 -
Opensearch架构及引擎原理
原文出自:https://blog.youkuaiyun.com/fxq8866/article/details/79648204 感谢!开放搜索(OpenSearch)是一款结构化数据搜索托管服务。特点:单应用亿级别文档搜索 ,毫秒级别查询延迟 ,万级别QPS数据的导入与查询导入:实时数据进入import子系统的数据导入模块,之后经过格式转换和数据解析进入到结构化存储系统,然后被impo...转载 2018-07-24 11:52:04 · 1134 阅读 · 0 评论 -
聂再清:人工智能是为了帮助人,而不是代替人
新华网北京11月29日电 以“跨界融合、协同创新”为主题的“2017中国机器人产业发展高峰论坛”今天上午在北京全国政协礼堂成功举行。本届论坛由工信部指导,新华网协同迪曼机器人共同举办,邀请众多专家学者及相关行业数百家企业参与,共同探讨智能机器人跨界融合新话题,共绘中国机器人发展新蓝图。 阿里人工智能实验室北京研发中心负责人聂再清博士在论坛上发表了主题演讲。以下为主要内容实录:转载 2017-12-01 15:24:01 · 609 阅读 · 0 评论 -
数据归一化和两种常用的归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为转载 2017-07-26 13:39:52 · 697 阅读 · 0 评论 -
感知机模型学习笔记及Python实现
最近刚接触李航博士的《统计学习方法》,还是挺赞的一本书,特别适合机器学习初学者的入门。里面主要阐述机器学习中的几大经典模型的理论方面,包括感知机、kNN、决策树、朴素贝叶斯、逻辑回归、SVM等。下面我结合自己的理解先介绍下感知机及其学习算法,然后通过Python实现这一模型并可视化处理。1. 感知机模型 感知机模型如下f(x)=sign(w⋅x+b) 其中, x转载 2017-06-21 11:17:20 · 2345 阅读 · 0 评论 -
如何(高效)判断数据是否线性可分
很多机器学习分类算法,比如支持向量机(SVM),的介绍都说了假设数据要是线性可分。如果数据不是线性可分的,我们就必须要采用一些特殊的方法,比如SVM的核技巧把数据转换到更高的维度上,在那个高维空间数据更可能是线性可分的(Cover定理)。现在的问题是,如何判断数据是线性可分的?最简单的情况是数据向量是一维二维或者三维的,我们可以把图像画出来,直观上就能看出来。翻译 2017-06-20 09:51:05 · 9643 阅读 · 0 评论 -
算法 - 隐马尔可夫模型
几个常用机器学习算法 - 隐马尔可夫模型1先引入一个知乎上看到的例子:假设你的手中有三个不同的骰子。 第一个是我们平常都能见到的骰子(称其为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6; 第二个有4个面(称其为D4),每个面(1,2,3,4)出现的概率是1/4; 第三个有8个面(称其为D8),每个面(1,2,3,4,5,6,7,8)出现的概转载 2017-06-16 15:56:08 · 890 阅读 · 0 评论 -
8个经过证实的方法:提高机器学习模型的准确率
8个经过证实的方法:提高机器学习模型的准确率摘要:本文分享了 8 个经过证实的方法。这些方法用来改善模型的预测表现。它们广为人知,但不一定要按照文中的顺序逐个使用。导语:提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困转载 2017-06-16 14:10:07 · 2994 阅读 · 0 评论 -
【自然语言处理】句法分析 (syntactic parsing) 在 NLP 领域的应用是怎样的?
转自:https://zhuanlan.zhihu.com/p/26812190句法分析 (syntactic parsing) 在 NLP 领域的应用是怎样的?忆臻7 天前文章整理自郭江师兄问题回答(被收录于知乎编辑推荐)!已取得师兄授权!@jiangfeng原问题如下:opinion extraction system,i转载 2017-05-16 18:51:14 · 5520 阅读 · 1 评论 -
数据挖掘-推荐算法入门
寻找相似用户 1.曼哈顿距离:计算速度快,对于Facebook这样需要计算百万用户之间的相似度时就非常有利最简单的距离计算方式是曼哈顿距离。在二维模型中,每个人都可以用(x, y)的点来表示,这里我用下标来表示不同的人,(x1, y1)表示艾米,(x2, y2)表示那位神秘的X先生,那么他们之间的曼哈顿距离就是:我们就可以把结果最小(距离最近)的结果最推荐给转载 2017-05-15 15:28:36 · 731 阅读 · 0 评论 -
推荐算法之皮尔逊算法
皮尔逊公式前言在很多推荐算法的地方,涉及到了很多关于数学的公式,如果简单的应用这些公式,那当然较为的简单,当如果有真正的理解这些公式里面隐含着的道理那就要下一定的苦功夫。我们这里不从皮尔逊的公式讲起,我们从物物的推荐开始。问题这里以音乐的推荐为例子,对于音乐的推荐很多人都在做,比较好解释清楚。给你一首歌曲让你推荐10首相识的歌曲。推荐的数据来源是这样转载 2017-05-15 15:24:57 · 9783 阅读 · 0 评论 -
SpringMVC 使用JSR-303进行校验 @Valid
SpringMVC 使用JSR-303进行校验 @Valid使用注解一、准备校验时使用的JARvalidation-api-1.0.0.GA.jar:JDK的接口;hibernate-validator-4.2.0.Final.jar是对上述接口的实现;log4j、slf4j、slf4j-log4j 二、编写需要校验的bean转载 2016-07-23 15:57:51 · 465 阅读 · 0 评论 -
HIVE和HBASE区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapRed转载 2016-05-18 11:40:40 · 801 阅读 · 0 评论 -
Hadoop-简单的MapReduce案例
Hadoop-简单的MapReduce案例分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:Mapper任务的执行过程详解每个Mapper任务是一个java转载 2016-02-03 16:56:08 · 746 阅读 · 0 评论 -
java 在一段英文文本中计算每个单词出现的次数
java 在一段英文文本中计算每个单词出现的次数目前自己总结了以下方式:1,将文本读出为一个字符串,使用indexof 和 substring 进行递归的搜索切割计算每次找到同一单词的次数,注意排重,每次查找新的单词时候,需要判断这个单词是否已经计算过出现的次数。2,将文本的单词切割并维护到一个MAP中,已单词为KEY 对应的VALUE为这个单词出现的次数,然后启用多线程,结合方法1 进行 查找计算。3.如果文本很大,达到了大数据的原创 2016-02-29 11:13:59 · 6512 阅读 · 2 评论 -
NLP+条件随机场实现解析PRD文档输出测试用例
17年的一个质量团队的算法竞赛题目,要求每个质量团队(测试开发工程师团队)通过算法实现将 PRD文档解析成测试用例,经过大量咨询BU甚至集团的算法大神后,技术栈定格在了 NLP(自然语言处理)结合条件随机场(算法)来解析无图PRD(PRD有一定规则)通过在线算法模型输出测试用例,基本流程:1,要求PRD编写一个功能点一句自然语言(有且只有个一个规则);设计测试用例基本结构为 :P...原创 2019-03-07 14:25:36 · 1337 阅读 · 1 评论