
数据科学
记录数据科学的各类知识
fa1c4
软件安全研究生, 不定期灌水博主(
展开
-
信息检索和信息抽取的比较
信息检索信息抽取功能从文档集合查找子文档从文本中获取感兴趣的事实信息处理技术利用统计和关键词技术借助自然语言处理技术使用领域与领域知识无关借助领域知识原创 2021-03-11 12:13:45 · 711 阅读 · 0 评论 -
关系抽取与事件抽取
关系抽取概念从文本中识别出两个实体(或多个实体)之间存在的事实上的关系意义搜索引擎发现和关联知识的重要渠道知识库构建与知识关联的基础性手段支持问答系统、推荐系统等应用的有力工具形式化表达二元组<subject, objects> 适合特定领域关系抽取三元组<subject, predicate, object> 适合多类型关系抽取多元组<subject, predicate, object, time>抽取方法规则模式机器学习事件抽取原创 2021-03-11 12:56:31 · 1240 阅读 · 0 评论 -
IPython安装与运行
数据挖掘中会使用到IPython Notebook.在安装python之后(python3), 可以用管理员打开控制台pip install ipython[all]运行, 记得切换到目标文件的文件夹下, 服务端打开时默认显示输入命令时的路径目录ipython3 notebook之后会在默认浏览器中打开一个标签页链接到IPython服务端...原创 2021-03-11 10:03:10 · 480 阅读 · 0 评论 -
scikit-learn安装
控制台输入pip install -U scikit-learn会自动安装Numpy和Scipy(如果之前没装的话)原创 2021-03-11 10:09:02 · 188 阅读 · 0 评论 -
命名实体识别
概念命名实体识别(Named Entity Recognition,NER)任务是识别文本中的人名、地名等专有名称,和有意义的时间、日期等数量短语等,并加以归类.命名实体识别是信息抽取的核心任务, 分为两个子任务判别实体边界判别实体类型内容分类实体类人名地名机构名日期类日期时间数值类货币百分比(注意不包括普通名词, 比如飞机, 公司等泛指名词)指标(同检索的衡量指标)采用Precision / Recall / F-value加以衡量准确率原创 2021-03-11 12:43:08 · 455 阅读 · 0 评论 -
支持度和置信度
找出对于数据集的规则, 可以看作是一种关系的预测, 比如"如果对象执行了动作A, 那该对象可能愿意执行动作B".支持度指数据集中规则应验的次数, 即对于一条"如果对象执行了动作A, 那该对象可能愿意执行动作B"这样的规则, 在特定数据集中被验证的词数.置信度表示规则准确率, 对于特定规则, 在所有相同(与这个特定规则的前提相同)前提假设下的所占比例.说得比较抽象, 直接看代码理解.from collections import defaultdict# 上面"买了苹果又买香蕉"是一种情况,现在原创 2021-03-11 11:20:51 · 586 阅读 · 0 评论 -
数据挖掘的数据准备
数据挖掘在日益爆炸的信息量中挖掘出有价值的信息的技术.挖掘之前先看看数据准备.数据挖掘基本方法分类聚类关联规则异常检测本篇主要总结关联规则以及数据预处理的方法关联规则关联规则(Association Rule),旨在分析事务型数据(事务型数据(Transaction Data)是一类特殊的数据记录, 一条记录往往对应着一个项目(Item)的集合)从而根据一部分项目的存在记录,来判断另一部分项目是否同时存在于事务中.关联规则的基本形式:A → B,A、B均为集合形式指标支持度su原创 2021-03-11 13:49:17 · 767 阅读 · 0 评论 -
<class ‘numpy.int64‘> to int
做数据处理时遇到的bug, 简单记录一下如果dataframe取index作为int类型使用, 会因为这个类型冲突导致bug代码实例import numpy as np# for example, numpy.float32 -> python floatval = np.float32(0)pyval = val.item()print(type(pyval)) # <class 'float'># and similar...type(np.flo原创 2021-12-23 21:35:26 · 6364 阅读 · 0 评论 -
数据科学 - 各类数据集收集 (持续更新
计算机视觉自然语言处理推荐系统原创 2021-12-15 20:45:44 · 4892 阅读 · 0 评论