- 博客(43)
- 收藏
- 关注

原创 基于知识图谱推理的关系推演
对于知识图谱的关注可以分为两个方面:知识图谱的构建和基于知识图谱数据结构的应用。知识图谱的构建主要关注如何整合结构化、非结构化的数据,实现用统一的语义数据结构如三元组RDF形式的数据存储。基于知识图谱的应用主要关注如何从这种语义数据结构中挖掘、发现、推演出相关的隐藏知识或新知识或者实现更上层的应用如搜索、问答、决策、推荐等,具体可以参考《三个角度理解知识图谱》。本文主要讲一下基于知识图谱推理的关系...
2018-08-18 12:23:50
13691
原创 Palantir的研究到金融风控(二)
目前人工智能已经深入金融、零售、汽车等行业,其中在金融行业的应用场景比较明确,所以AI在金融行业的发展比较快,应用相对要比其它行业来说要成熟。承接上篇文章Palantir的研究到金融风控(一),这里着重总结一下知识图谱在金融领域的应用:一、知识图谱能帮金融做什么?举几个例子:以股票投研情报分析为例:通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、...
2018-08-18 12:28:17
2158
原创 知识图谱技术
数联未来,数据融合是未来重要的方向,那么对于大数据来说目前主要存在如下几个挑战:1、多源异构数据难以融合转化并映射到同一平台,数据模型的灵活创建、以及数据模型间的关联关系也难以实现;2、数据模式动态变迁困难,当客户新需求、业务新认知时,需要修改数据结构以及业务逻辑,带来扩展性差,对客户响应慢、维护成本高等问题;3、非结构化的数据,计算机难以理解,用户搜索难以返回精确的结果;通过对知...
2018-08-18 12:25:56
1936
原创 基于知识图谱的智能问答
基于知识图谱的相关应用大致可以分为搜索、问答、决策、推荐等几种常见的类别,对于知识图谱的理解,可以参考之前的文章《三个角度理解知识图谱》,本文主要就年初规划的xx智能问答建设方案,介绍一下基于知识图谱的智能问答,主要分为如下几个方面:1、人机对话体系结构2、问答产品知识结构3、典型的智能问答产品4、智能问答的关键技术5、基于知识图谱的智能问答 1、人机对话体系结构...
2018-08-18 12:21:54
13777
原创 从三个角度理解知识图谱
2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越多,对于知识图谱以及相关概念的理解确实也是比较绕。自己在研究大数据独角兽Palantir之后开始接触知识图谱,也算对其有了一定了解,这里从三个角度总结一下怎么去理解知识图谱。几个基本概念:本体、实体、知识库、知识图谱1、本体是概念的集合,是大家都公认的概念框架,一般不会改变如“人”、“事”、“物”、“地”、“组...
2018-08-18 12:19:58
6316
原创 大数据服务入口
这段时间都没有时间写博客了哈,忙于实习,也和同学们一起在做DataAnswer-大数据服务的入口。今天请允许我打个广告:DataAnswer是数据交易/服务入口,集聚了各个数据交易平台和免费的数据源,也为大家提供数据源和数据服务的测评机制,以及大数据视频分析解读和招聘.欢迎需要找数据和数据服务的小伙伴来参观!
2016-07-15 15:52:08
1051
原创 2014.11-2016.4融资事件分析
互联网+时代掀起了一股创业的浪潮,而这股浪潮中对于创业者和投资者来说最重要的当然是融资和投资了。这股浪潮掀起已久,具体的融资趋势、投资市场的情况以及投资机构的情况都是那些蠢蠢欲动者所想关注的。
2016-05-22 12:05:58
709
原创 大数据分析师的卓越之道
大数据时代的数据分析区别于普通的数据分析,这是由大数据的特性所决定的,为了适应大数据的时代的发展,数据分析师也应该转变一些分析的思想和观念。
2016-05-22 11:58:01
1396
原创 最全Python爬虫总结
(1)普通的内容爬取(2)保存爬取的图片/视频和文件和网页(3)普通模拟登录(4)处理验证码登录(5)爬取js网站(6)全网爬虫(7)某个网站的站内所有目录爬虫(8)多线程 (9)爬虫框架Scrapy
2016-05-13 20:19:48
10938
转载 可扩展的时间序列xts
转载自:http://blog.fens.me/r-xts/前言本文是继R语言zoo时间序列基础库的扩展实现。看上去简单的时间序列,内藏复杂的规律。zoo作为时间序列的基础库,是面向通用的设计,可以用来定义股票数据,也可以分析天气数据。但由于业务行为的不同,我们需要更多的辅助函数,来帮助我们更高效的完成任务。xts扩展了zoo,提供更多的数据处理和数据变换的函数。目
2016-05-08 09:59:07
1861
转载 R语言时间序列基础库zoo
转载自:http://blog.fens.me/r-zoo/前言时间序列分析是一种动态数据处理的统计方法,通过对时间序列数据的分析,我们可以感觉到世界正改变着什么!R语言作为统计分析的利器,对时间序列处理有着强大的支持。在R语言中,单独为时间序列数据定义了一种数据类型zoo,zoo是时间序列的基础,也是股票分析的基础。本文将介绍zoo库在R语言中的结构和使用。目录
2016-05-07 20:10:03
18031
原创 拉勾网大数据相关岗位数据爬虫分析
目前,大数据是一个非常热门的话题,受到很多人的关注和追捧,其创造的相关职业也受到大家的青睐。但大数据相关职业究竟是什么样,有怎么样的要求,有怎样的待遇还不为多数人所知,为了更好的了解大数据相关职业要求及其福利待遇进行本次数据分析。
2016-04-09 15:24:41
6977
原创 巨型日志处理系统
本次模拟系统,是利用Hadoop等组件来模拟巨型日志的处理系统,包括Python定时、Flume收集日志、MR处理日志、Sqoop导出数据、Hive的简单统计等
2016-04-09 15:09:01
3116
转载 交叉验证(Cross-Validation)
转载自:http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html详见:http://blog.sciencenet.cn/home.php?mod=space&uid=830496&do=blog&id=676326交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于
2016-03-22 19:31:00
10631
转载 神经网络(优化算法)
神经网络(优化算法)人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。人工神经网络从以下四个方面去模拟人的智能行为:
2016-03-21 22:07:31
12871
原创 R语言获取历史股票数据
本文转载我自己写的文章,我个人网站DataAnswer:http://www.dataanswer.top(大数据博客和大数据问答的网站)上的文章。主要利用python获取股票数据,利用R来作图分析。
2016-03-20 19:00:53
5285
原创 Hbase总结
1、Hbase 是一个分布式的列式数据库:分布式、可扩展、面向列存储、存储松散数据的、向下提供存储,向上提供计算,数据存储与数据计算完美结合的数据库2、体系结构:主从服务器结构说明:一张完整的表可能是不保存在多个HRegion中一台机器一般一个HRegion服务器不涉及数据的直接删除和更新---都是追加,增加一个版本HFile的数量达到
2016-03-19 14:54:43
870
原创 R语言入门总结
1、R的简单语法:数据集:观测 变量记录 字段示例 属性 名义变量有序变量连续变量 数据结构:向量--只能同一类型的数据标量---一个数据,常用来存一个常数数组--维度可以大于2数据框---可以包含多种类型的数据,最常用的数据结构矩阵--只能同一类型数据列表---上面的任何一种结构的数据都可以放入列表中。
2016-03-19 11:29:45
1362
原创 数据分析入门
1、数据问题的处理流程: 一般的数据分析都是先从公司的具体业务问题出发,提出解决什么样的具体的业务问题,然而对于一般的业务问题提出来时都是比较抽象的,如“如何提高xx产品的销售量?”。对于抽象的业务问题,我们首先要做的就是把问题分解成具体的小问题,然后针对各个小问题分别取获取相应的数据来做具体分析。这些具体的数据来源一般包括从上级的邮件、公司的各项业务数据、运营数据、基础设施数据等。针对
2016-03-19 10:20:01
649
原创 ubuntu环境下安装R
1.首先更新sources.listcd /etc/apt/ sudo gedit sources.list 2.更新软件源 deb http:///bin/linux/ubuntu saucy/ deb http:///bin/linux/ubuntu raring/ deb http:///bin/linux/ubuntu quantal/ deb http:///bin/linux
2015-11-25 21:54:10
723
原创 Hadoop2.6.0集群配置
(1)java的jdk安装配置,ssh的免密登录安装配置ssh的免密登录安装配置(2)区分主节点的功能: 130是resorcemanager和namenode—-由下面的配置决定 131是datanode,nodemanager 132是datanode,nodemanager(3)JAVA_HOME内容添加hadoop-env.sh 修改JAVA_HO
2015-11-25 21:46:47
664
原创 ssh免密登录设置
(1)在三台机子中利用root用户创建相同的用户组和用户名:groupadd hadoop adduser -ingroup hadoop hadoop(2)添加sudo文件的写权限,命令是: chmod u+w /etc/sudoers(3)编辑sudoers文件,赋给hadoop用户相同的权限
2015-11-25 21:32:09
978
转载 SQL Server 存储过程
SQL Server 存储过程Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的语句。这样就可以提高存储过程的性能。Ø 存储过程的概念 存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行
2015-05-22 13:28:47
503
转载 java对字符的编码处理
本文转自http://kxjhlele.iteye.com/blog/333211,讲述了java中对字符的编码处理 在java应用软件中,会有多处涉及到字符集编码,有些地方需要进行正确的设置,有些地方需要进行一定程度的处理。1. getBytes(charset) 这是java字符串处理的一个标准函数,其作用是将字符串所表示的字符按照charset编码,并以字
2015-05-22 09:20:31
621
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人