一、DeepDive简介
deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。
二、DeepDive优势
- deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法,分类算法,等用。在DeepDive的联合推理为基础的方法,用户只需指定必要的信号或特征
- deepdive系统可以实现高质量:PaleoDeepDive比志愿者更高质量在提取复杂的知识科学领域和获奖的性能进入实体关系抽取的比赛
- deepdive知道数据往往是嘈杂和不准确的:名字拼错的,自然语言是模糊的,人会犯错误。以这样的不精确性的考虑,deepdive计算校准对于每一个断言它使概率。例如,如果deepdive产生事实的概率是0.9,事实上90%可能是真的。
- deepdive能够使用大量的数据从一个品种来源构建的应用程序使用。deepdive从数以百万计的文件,提取数据的网页,PDF文件,表格和数字。
- deepdive允许开发者用某一领域的知识为了提高结果的质量写简单的规则告知推理(学习)process.deepdive也考虑到用户的反馈,对预测的准确性提高的预测。
- deepdive能够使用数据学习“远亲”相反,大多数机器学习系统需要为每个预测冗长的训练。事实上,许多deepdive应用,尤其是在早期阶段,不需要传统的在所有的训练数据!
- deepdive的秘密是一个可扩展的、高性能的推理和学习机过去几年,我们一直在努力使底层算法尽可能快的跑,技术率先在该项目是商业和开源工具,包括部分Madlib,黑斑羚,从产品Oracle,和低级别的技术,如“HOGWILD!
前两章内容主要引用:https://blog.youkuaiyun.com/u013412066/article/details/68065518
三、DeepDive依赖环境搭建
- java SDK1.8安装参考:https://blog.youkuaiyun.com/u012707739/article/details/78489833
- python2.7安装参考:https://www.jianshu.com/p/6425d18d3e47
四、DeepDive安装
DeepDive安装可以参考:
- https://zhuanlan.zhihu.com/p/53804721
- https://blog.youkuaiyun.com/cx943024256/article/details/79056726
以上两个大神写的文章都非常给力。在java环境和python环境安装完成之后,结合参考这两篇文章的方法,可以成功跑通平台。
其中需要注意的地方(踩坑记录):
- java sdk1.8一定要安装正确,否则后续在调用NLP的jar包时会出现错误(严格按照第三章中的方法配置)
- 在用虚拟机运行时,需要给虚拟机分配足够大的内容(第一次跑给虚拟机分配2G内存,结果出错,报无法开辟内容,后将内存调至16G,成功跑通)。