
21.10-知识图谱-产品开发记录
文章平均质量分 81
知识图谱-产品开发记录
HIT_SunJiankun
人类的差异性来自于认知阶层的差别,人生的进步在于训练、反馈、优化、迭代
展开
-
知识图谱类产品-开题报告构想(一)
知识图谱类产品-开题报告构想整体技术路线是GNN,降低前期语料的爬取成本,化团队力量为自己用,开始日益发现团队力量的重要性,在一个团队中可以相互成就一个产品,形成能力的互补和简历的递进,but像去年那种技术组的过于分裂,导致技术壁垒在团队内部产生的现象一定要注意避免,做到技术的可互通性的同时,也要做好项目的完善工作。1.信息源获取难度以及合法性自然语言处理较为依赖于信息源的获取,本团队不希望将重心放在前期的语料爬取中,虽然这对于结果很重要,但是发展初期的主要方向还是把整个框架能够成功跑出来...原创 2021-11-26 22:52:09 · 2613 阅读 · 0 评论 -
科技立项开题讨论
一、选题方向知识图谱选择优势:领域经验:有以往情感分析处理的成品项目,向知识图谱方向发展更加熟悉与得心应手 产出成果:可以以打造产品为导向,开拓出NLP新系列的产品,若开发出,知识图谱系列产品的所有权选择不确定性:语料库是否需要人工标注,如果需要人工标注,能否获取大量的数据集用来训练出准确的结果 知识图谱的应用能够深入到什么程度,技术难度怎么样2-高速公路交通流选择优势:数据获取:方便直接调取,检索高速公路的相关数据(2)项目基础:有以往的研究经验和报告作为参考(但是感觉原创 2021-11-26 11:50:17 · 377 阅读 · 0 评论 -
文本特征提取——one-hot
独热编码即 One-Hot 编码,又称一位有效编码。其方法是使用 N位状态寄存器来对 N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。 One-Hot 编码是分类变量作为二进制向量的表示。(1) 将分类值映射到整数值。(2) 然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。是一种十分常用的类别处理手段,当特征是离散的,无序的,就可以通过one hot 进行特征数字化,比如一个特征有高、中、低三个值,通过独热编码,就可以分...原创 2021-11-25 09:21:17 · 1815 阅读 · 0 评论 -
文本数据清洗
新闻文本数据中不仅包括了中文字符,还包括了数字、英文字符、标点等非常规字符,这些都是无意义,并且需要处理的数据,清洗的方法使用的是正则表达式。方法一:借助Unicode编码,16进制筛出中文字符匹配规则为:[\u4e00-\u9fa5],\un匹配n,其中n是一个用四个十六进制数字表示的Unicode字符,而4e00-9fa5之间的Unicode编码表示的是20000多个中文字符。具体编码如下:#匹配[^\u4e00-\9fa5]def find_chinese(text): ...原创 2021-11-24 22:59:31 · 6686 阅读 · 0 评论