
机器学习相关笔记
机器学习
爱摸鱼的ZZ
这个作者很懒,什么都没留下…
展开
-
词向量(自存)
词向量数据:百度百科: https://pan.baidu.com/s/1oH0iJ2_sL6LCVdhEqt-aGQ 提取码: 7ffp人民日报: https://pan.baidu.com/s/1VQIM6QvlPITNxxdsSJy_Mw 提取码: 2fid知乎:https://pan.baidu.com/s/1SYO2-pT71ynE7QE9h_dVCA 提取码: wuy3原创 2021-04-02 20:19:51 · 195 阅读 · 0 评论 -
pip install ahocorasick报错
问题:原因:这个包改成了 pyahocorasick,pip无法查找到解决方法:pip install pyahocorasick但是还是不行:原因:Microsoft Visual C++ 14.0 is required.安装链接:https://pan.baidu.com/s/1YCdEj-BTsluLMqvwSehCMA 提取码:kvjb安装成功:...原创 2021-04-01 20:20:56 · 405 阅读 · 2 评论 -
python学习之导入tensorflow模块时的ImportError: DLL load failed解决办法
使用pip install tensorflow命令后,在cmd下进入python环境后运行如下代码:import tensorflow as tfh = tf.constant('Hello Tensorflow!')s = tf.Session()print(s.run(h))发现出现错误提示:ImportError: DLL load failed,如下图所示:解决办法:打开...原创 2020-04-06 13:37:59 · 671 阅读 · 0 评论 -
python学习之正则表达式匹配
元字符:. 匹配除换行符以外的任意字符\w 匹配字母、数字、下划线或汉字\s 匹配任意的空白符\d 匹配数字\b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束限定符:*重复零次或多次+重复一次或多次?重复零次或一次{n} 重复n次{n,} 重复n次或更多次数{n,m} 重复n到m次反义代码:\W 匹配任意不是字母、数字、下划线或汉字的字符\S 匹...原创 2020-04-22 09:16:57 · 503 阅读 · 0 评论 -
Ppython学习之无法import同一目录下的模块
在同一目录下明明存在相应的文件,但是导入时却出现红线,把鼠标放在红线的位置,提示No module named xxx,提示说不存在相应的模块。解决方法:将鼠标放在当前文件夹上,点击右键,找到Mark Directory as,再选择Sources Root点击解决好啦!注:Mark Directory as Sources Root 之后,如果换了一个工程文件,去打包成可执行文件...原创 2020-04-21 21:15:26 · 2803 阅读 · 2 评论 -
python学习之strip()函数
strip() 方法用于移除字符串头尾指定的字符(默认为空格)strip()方法语法:str.strip([chars]);参数:chars :移除字符串头尾指定的字符返回值:返回移除字符串头尾指定的字符生成的新字符串实例:>>> str = "000000 jbjadjaio 000000">>> print(str.strip('0...原创 2020-04-11 21:12:25 · 211 阅读 · 0 评论 -
python学习之os.listdir()函数
os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。它不包括 . 和 … 即使它在文件夹中。语法格式:os.listdir(path),path是需要列出的目录路径例如:import os, sys#打开文件path = "/var/www/html/"dirs = os.listdir( path )#输出所有文件和文件夹for file in ...原创 2020-04-10 11:42:17 · 1122 阅读 · 0 评论 -
python学习之UnicodeDecodeError与UnicodeEecodeError解决办法
1. 提示"UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 205: illegal multibyte sequence”gbk“编解码器无法解码位置205中的字节0x80:非法的多字节序列原程序为: for line in open(label_filepath):解决办法:将open方式改为:f...原创 2020-04-04 22:04:21 · 1809 阅读 · 2 评论 -
python学习之os.path.join()函数
os.path.join()函数:连接两个或更多的路径名组件,用于拼接文件路径1.如果各组件名首字母不包含’/’,则函数会自动加上;2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃,即会从第一个以”/”开头的参数开始拼接,之前的参数全部丢弃。在这个前提下,若出现”./”开头的参数,会从”./”开头的参数的上一个参数开始拼接。3.如果最后一个组件为空,则生成的路径以一个’/’分...原创 2020-04-10 11:04:24 · 470 阅读 · 0 评论 -
python学习之文件/目录方法(未完待续)
os.getcwd() 方法用于返回当前工作目录语法格式如下:os.getcwd(),返回当前进程的工作目录。例如:>>> print("当前工作目录是:%s"%os.getcwd())当前工作目录是:C:\Users\ZXHos.chdir() 方法用于改变当前工作目录到指定路径语法格式如下:os.chdir(path),如果允许访问返回 True , 否则返回F...原创 2020-04-11 15:48:47 · 182 阅读 · 0 评论 -
python学习之安装py2neo的ReadTimeoutError解决办法
pip安装py2neo时出现了pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out.错误提示,如下图:解决方法:设置超时时间pip --default-timeout=100 install ...原创 2020-03-19 15:21:29 · 608 阅读 · 0 评论 -
python学习之Git镜像快速下载
因为要使用pip install keras_contrib命令导入keras_contrib这个包,但是报错无法找到相应的版本:Could not find a version that satisfies the requirement keras_contrib (from versions: )No matching distribution found for keras_contr...原创 2020-04-06 10:55:31 · 850 阅读 · 0 评论 -
python学习之tqdm
tqdm模块是python的进度条库, 主要有两种运行模式:基于迭代对象运行: tqdm(iterator)import timefrom tqdm import tqdm, trange#trange(i)是tqdm(range(i))的一种简单写法for i in trange(100): time.sleep(0.05)for i in tqdm(range(100), desc='Processing'): time.sleep(0.05)dic = ['a'原创 2021-06-27 17:06:01 · 513 阅读 · 0 评论 -
python学习之pip安装.whl文件步骤
1、下载.whl文件到python.exe所在的Scripts目录下,下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/2、 添加环境变量:在系统变量的path下添加Scripts目录的路径并保存3 、 以管理员身份运行 cmd,pip install 文件名.whl例:pip install F:\Anaconda\Scripts\numpy...原创 2020-04-05 14:26:26 · 2894 阅读 · 0 评论 -
jupyter notebook命令模式和编辑模式
编辑模式(edit mode)鼠标点击任何一个cell,出现光标或者直接敲 Enter回车键,进入编辑模式。进入编辑模式后,cell中有光标,cell左侧变为绿色,右上角有铅笔符号。命令模式(command mode)鼠标点击cell区域外的任何位置或者直接按 Esc 键进入命令模式。进入命令模式 后,cell中没有光标,cell左侧变为蓝色,右上角没有铅笔符号。...原创 2020-10-08 20:52:49 · 4866 阅读 · 1 评论 -
python学习之list(set())函数
list(set())函数:对原列表去重并按从小到大排序例如:a = ['f','s',3,3,4,2,'d',4,5,6,1]a = list(set(a))print(a)[1, 2, 3, 4, 5, 6, 'd', 'f', 's']原理:set(a)将列表a转换为集合,集合是一个包含不重复元素的无序序列,然后再使用list将集合转换为列表若要实现不改变原来顺序,则应再增加...原创 2020-04-10 11:25:52 · 24420 阅读 · 2 评论 -
知识图谱学习(一)(笔记整理)
本篇来自于文章《从技术实现到产品落地,“知识图谱”的未来还有多远?》(自己的一些笔记)知识图谱学习(一)一、组成部分知识图谱大致可分为六部分,依次为:知识建模、知识获取、知识融合、 知识存储、知识计算、知识应用二、知识图谱的架构共分为两种:逻辑架构和技术架构-逻辑架构数据层:是逻辑架构的底层,用来存储真实的节点数据与关系数据。模式层:模式层在数据层之上,存储提炼过的数据,通过本体...原创 2019-12-31 14:32:26 · 4070 阅读 · 0 评论 -
neo4j使用之索引
在清除neo4j数据库时发现,删除全部节点后发现还存在一些节点标签怎么也删不掉,其实这些节点是索引通过语句:schema可以查看索引的一些属性根据上图提示的语句可以可视化这些索引:更改为“文本”查看方式,能够得知索引的indexes,从而可以利用CQL语句删除索引:比如我删除以上四个索引的语句依次为:DROP INDEX ON:BNode(uri);DROP INDEX ON: URI(uri);DROP INDEX ON:Class(uri);DROP INDEX ON:Resour原创 2021-05-23 20:22:54 · 3655 阅读 · 0 评论 -
知识图谱学习(二)(笔记整理)
知识图谱的整体架构:构建知识图谱是一个迭代更新的过程,,每一轮迭代包含以下三个阶段:1. 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;2. 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;3. 知识加工:对于经过融合的新知识,需要经过质量评估之后(部...原创 2020-03-27 14:21:39 · 1068 阅读 · 0 评论 -
可复用的本体库
Ontolingua本体库(http://www.ksl.stanford.edu/software/ontolingua/)DAML本体库(http://www.daml.org/ontologies/)还有许多公开可用的商业本体:UNSPSC(www.unspsc.org)RosettaNet(www.rosettanet.org)DMOZ(www.dmoz.org)...原创 2020-03-28 19:28:13 · 1520 阅读 · 3 评论 -
使用neo4j时踩过的坑
一、powershell命令提示符出现“不是内部或外部命令,也不是可运行的程序或批处理文件解决办法:在环境变量path后添加上powershell的路径(C:\Windows\System32\WindowsPowerShell\v1.0),然后重新打开cmd运行命令即可二、输入命令显示Could not find java at C:\Program Files\Java\jdk-10.0...原创 2020-03-21 16:26:38 · 3449 阅读 · 0 评论 -
本体调研
1.1本体概念本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。本体不等同于个体,它是相应领域内公认的概念集合。1.2 本体分类(1)顶层本体:研究通用概念以及概念之间的关系,如空间、时间、事件等,与具体应用无关,完全独立于限定领域,因此可以在较大范围内进行共享。(2)领域本体:研究的是特定领域内概念及概念之间的关系。(3)任务本体:定义一...原创 2020-03-15 20:55:52 · 1416 阅读 · 0 评论 -
利用protégé构建简单本体
1、构建类点击 Entities,进入本体编辑界面;选择 Classes标签,右键点击owl: Thing,选择 Add Subclasses…,在出现的对话框中Name标签后输入类的名字,点击确定;在 Classes页面点击一个类名,在 Protege右侧 Description部分修改跟该类相关的属性值2、构建子类在”人物“上点击右键,选择Add subclass…;在弹出的对话...原创 2020-03-18 10:40:33 · 6052 阅读 · 0 评论 -
任务三:面向中文电子病历的医疗实体及事件抽取
任务记录:2020.03.21导师让了解任务三本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019相关评测任务的基础上进行了延伸和拓展。本任务包括两个子任务:(1) 医疗命名实体识别:于给定的一组电子病历纯文本文档,识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined ca...原创 2020-03-24 18:49:32 · 4072 阅读 · 51 评论 -
面向非结构化数据的知识抽取笔记
实体抽取:关系抽取:其中:例如:构建监督学习:弱监督学习:事件抽取:原创 2020-04-02 11:48:32 · 638 阅读 · 0 评论 -
keras 多输入单输出报错ValueError: Error when checking model input: the list of Numpy arrays that you are
解决方法:将modelll.fit([x_train,x_train], y_train, validation_data=(x_val, y_val),epochs=10, batch_size=64)改成:modelll.fit([x_train,x_train], y_train, validation_data=([x_val,x_val], y_val),epochs=10, batch_size=64)参考博客原创 2020-05-31 15:42:55 · 2537 阅读 · 0 评论 -
word,tag = line.strip().split()报错
原语句:word,tag = line.strip('\n').split()报错:ValueError: too many values to unpack (expected 2)解决方法:改为: v = line.strip('\n').split() word = v[0] tag = v[1]原创 2020-06-03 22:39:00 · 2050 阅读 · 4 评论 -
BERT模型命名实体识别出现的小错误
出现的问题记录1.报错如下:Traceback (most recent call last): File "C:/Users/ZXH/Desktop/BERT-CH-NER-master/bert-master/run_NER.py", line 27, in <module> import optimization File "C:\Users\ZXH\Desk...原创 2020-08-04 15:55:15 · 1060 阅读 · 0 评论 -
from torchcrf import CRF报错
将from torchcrf import CRF改为from TorchCRF import CRF原创 2021-06-27 16:41:09 · 3822 阅读 · 2 评论 -
BERT调研
1. 什么是BRET?BERT(Bidirectional Encoder Representation from Transformers,基于变压器的双向编码器表示),是一个深度双向表示预训练模型,能够更深层次地提取文本的语义信息。2. BERT的特点①双向Transforms当前在NLP领域,Word2vec是使用最广泛的词向量训练工具。但 Word2vec是通过窗口进行工作的,所“...原创 2020-03-12 19:56:24 · 503 阅读 · 0 评论 -
bert模型训练时的一些问题及解决方法
报错:ModuleNotFoundError: No module named 'tensorflow.python.training.checkpointable' 解决办法:将tensorflow-gpu的版本从2.x降到1.13.1pip uninstall tensorflow-gpupip install tensorflow-gpu==1.13.1...原创 2020-04-24 18:20:06 · 3231 阅读 · 1 评论 -
jieba分词工具的使用(自用)
参考链接:https://github.com/fxsjy/jieba特点:1、支持四种分词模式:(1)精确模式:试图将句子最精确地切开,适合文本分析;(2)全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。(4)paddle模式:利用Paddle深度学习框架,训练序...原创 2020-08-04 15:53:04 · 3144 阅读 · 0 评论 -
bert模型中的[CLS]、[UNK]、[SEP]是什么意思?
BERT 的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。同时 BERT 增加了一些有特殊作用的标志位:[CLS] 标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。[SEP] 标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。[MASK] 标志用于遮盖句子中的一些单词,将单词用 [MASK] 遮盖之后,再利用 BERT 输出的 [MASK] 向量预测单词是什么。参考链接...原创 2020-08-04 15:42:10 · 30114 阅读 · 6 评论 -
jupyter启动闪退问题Bad config encountered during initialization No such notebook dir :“文件路径”
Bad config encountered during initializationNo such notebook dir :“文件路径”解决方法:在用户目录C:\Users\(用户名).jupyter下找到jupyter配置文件jupyter_notebook_config.py,将该文件的c.NotebookApp.notebook_dir =“文件路径” 修改为本地存在的目录,或者直接用 # 注释掉,这样jupyter notebook就直接从当前目录启动。...原创 2021-02-01 16:08:03 · 3201 阅读 · 0 评论 -
Neo4j中导入RDF数据
本文主要介绍将RDF数据导入Neo4j的过程。下载neosemantics jar包,将jar复制到neo4j/plugins目录下jar包下载链接注意:jar包必须与Neo4J版本匹配修改配置文件在neo4j/neo4j.conf文件最后一行添加以下内容:dbms.unmanaged_extension_classes=semantics.extension=/rdf重新启动 neo4j但是这时候网neo4j打开web界面失败:解决方法:将上一步的配置语句注释掉,可以打开web页原创 2021-03-16 15:06:07 · 3831 阅读 · 3 评论