- 博客(68)
- 收藏
- 关注
原创 【Pytorch】Pytorch的安装
nvidia-smi(也叫做 cuda toolkit):这个必须有。CUDA是NVIDIA创建的一个并行计算平台和编程模型(用这个来跑深度学习),命令:nvcc -V: nvidia开发的深度学习算子库,用于加速训练(新手阶段不装也行,程序照样能跑)(4):(或者叫torch,两者是一个东西)深度学习框架pytorch是conda里的名字装GPU版本:参照官网torch是pip里的名字。
2024-10-30 16:17:25
663
2
原创 【工具下载】
将from torchcrf import CRF 改为 from TorchCRF import CRF。进入pytorch官网,根据系统、python版本、cuda版本选择下载命令。6.安装matplotlib、pandas、torchkeras。问题:from torchcrf import CRF报错。Ptorch网址:https://pytorch.org。评论:清华源默认装的torch是cpu版的。4.安装ptorch、torchcrf。(2)安装torchcrf。(1)安装ptorch。
2024-10-28 17:38:02
374
转载 在conda创建的虚拟环境中安装jupyter以及使用
4. 将conda环境添加到jupyter的内核中。2. 安装jupyter notebook。6. 删除指定kernel环境。3. 启动jupyter。1. 进入你的虚拟环境。5. 查看有哪些环境。
2024-10-23 09:59:42
1417
转载 【数据仓库】OLTP & OLAP & HTAP
本文探讨了OLTP(联机事务处理)与OLAP(联机分析处理)的核心特征,以及两者在数据处理和实时响应方面的差异。同时介绍了HTAP(混合事务/分析处理)的概念,它是OLTP和OLAP的融合,强调了实时性和决策支持的重要性。文中还提到了不同类型的数据库系统及其在操作型和决策型业务中的应用,以及数据同步问题对时效性的影响。
2024-10-15 14:23:37
174
原创 【数据仓库】数据仓库层次化设计
数据仓库(Data Warehouse),是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。DW保持着所有的从ODS到来的数据,并长期保存,而且这些数据不会被修改。DW中的数据实际存储在分布式文件系统中(如HDFS)。如果想要删除数据,一般会在分布式文件系统中进行操作。而由于效率问题,数据仓库一般只读取数据,不直接对数据进行修改。(1)面向主题(Subject Oriented)操作型数据库的数据组织面向事务处理任务。
2024-09-18 17:34:52
2343
原创 【数据仓库】数据仓库常见的数据模型——范式模型
BCNF 是第三范式的一个扩展和加强。它要求表中的每个决定因素(Determinant)必须是候选键。这意味着在 BCNF 中,任何非平凡的函数依赖关系的决定因素都必须是超键。
2024-09-14 16:57:11
1427
原创 【数据仓库】数据仓库常见的数据模型——维度模型
星型模型的设计思路源自于对多维数据模型的需求,即通过简化数据结构来支持快速的查询操作。例如,一个数据仓库可能同时包含销售和库存的星型模型,这些模型共享时间和产品维度表,从而形成一个星座结构。事实表包含了可度量的数据,如销售额或利润,而维度表则包含了描述这些数据的属性,如时间、地点或产品类型。:星型模型具有较好的查询性能,因为所有的维度信息都存储在维度表中,减少了表的连接操作,查询优化相对容易,能快速处理大量数据。:星型模型的结构简单明了,易于理解和查询,适用于简单的分析需求。
2024-09-14 13:34:40
2132
原创 【知识图谱】3.Protege下载安装
一、Protege1.相关介绍Protégé软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具,目前最新版本是5.5.0(截止到2019-02-26)。Protégé提供了本体概念类,关系,属性和实例的构建,并且屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。2.下载Protege。
2024-09-13 15:42:02
3255
原创 【知识图谱】2.知识抽取与知识存储
知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。
2024-08-22 11:07:47
1071
原创 【知识图谱】1.知识图谱从本体构建到知识表示的流程基本概述
知识抽取是从非结构化或半结构化数据中提取有用信息的步骤。在知识图谱构建中,知识抽取主要包括实体抽取、关系抽取和属性抽取。在构建知识图谱时,首先需要确定领域本体,明确领域内的主要概念和实体,以及它们之间的逻辑关系。知识表示是知识图谱构建的重要环节,它决定了知识图谱的质量和可用性。知识图谱是一种语义网络,用于表示现实世界中的概念、实体以及它们之间的关系。(Ontology)是知识图谱的核心组成部分,它。
2024-08-21 17:00:04
849
转载 【知识图谱】开放开源的知识图谱数据与工具
开放知识库、知识本体构建工具、文本处理基础工具、知识抽取工具、大模型用于知识抽取工具、大规模图谱存储工具、图算法计算工具、知识融合工具、大规模图谱搜索工具、知识表示/推理工具、大规模图谱搜索工具、图谱可视化工具共11个方面
2024-08-21 15:09:31
836
原创 【MySQL】2.MySQL实际操作
1,明确目的;2,获取数据; -- python 爬取 3,数据预处理;3值1转换 (真正工作时有问题就是删) - 缺失值 - 异常值 - 重复值 - 转换 4,数据分析 - 定维度(分析方向) - 定指标(比、率)5,可视化6,撰写报告
2024-08-12 16:29:22
753
原创 【MongoDB】2.MongoDB导入文件
GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片、音频、视频等)。GridFS 也是文件存储的一种方式,但是它是存储在MonoDB的集合中。GridFS 会将大文件对象分割成多个小的chunk(文件片段),一般为256k/个,每个chunk将作为MongoDB的一个文档(document)被存储在chunks集合中。GridFS 用两个集合来存储一个文件:fs.files与fs.chunks。每个文件的实际内容被存在chunks(二进制数据)中。
2024-08-08 14:14:57
1438
原创 【永洪BI】6. 过滤组件和参数组件
注意:在使用参数组件的时候,需要在【设置】中修改参数组件名,因为对于传参类型的组件来说,它是需要被其他组件所引用的,所以明确名称,方便引用。因此起名时要符合他的业务含义。过滤类型的组件所能影响的范围是跟它绑定了相同数据集的组件。之后要对【表格数据】进行一个数据映射的关系,【添加过滤】用法1:搭配表格的【编辑过滤】使用。文本参数的搜索可以用【模糊搜索】用法2:【设置】中的当前校验规则。,就能受到当前参数值的影响。日期筛选组件使用时,记得。注意:表格可以切换为。参数类型的组件,如果。
2024-08-02 11:18:43
1178
原创 【永洪BI】5.数据可视化分析
注意事项:1.明确目标(指标);拖拽维度列【省份】到【颜色】,再增加【省份】到标签,以及【销售额】到标签。点击图标-【设置】-【分析】-【目标线】2.点击左上角+号,点击【新建分析报告】注意:多个种类——将种类拖到【颜色】上。散点图:探究变量之间的线性关系。气泡图:展示三个变量之间的关系。词云:词向量/文本的量化展示。设置】-【分析】-【高亮】3.【组件】-【折线图】4.【组件】-【面积图】(3)南丁格尔玫瑰图。1.点击【制作报告】/【编辑地图列】操作。
2024-07-30 18:04:23
1831
原创 【永洪BI】2.创建数据集
点击“添加过滤”按钮,弹出的过滤条件中设置过滤条件,系统会自动弹出给“地区参数”设置默认值,填写默认值后,在设置的过滤条件中引用刚刚创建的“地区参数”进行过滤即完成带参数数据集的创建,另外点击菜单栏上的“刷新参数”按钮可以更改参数值。 带参数数据集的创建步骤:1、点击菜单栏上的“编辑参数”按钮,在弹出的功能框中点击“+添加”按钮,编辑参数的名称(如这里的地区参数),默认数据类型为“文本”,也可以自己切换数据类型。如果数据量过大,我们出于对性能优化的考虑,会通过参数来过滤出我们需要的数据进行分析。
2024-07-26 15:07:52
1616
原创 【永洪BI】1.添加数据源
Jar文件上传校验,只允许配置为白名单的Jar上传。bi.properties里如果没有配置此属性时,对一些常见的驱动Jar,已默认添加了SHA256值,这些Jar为白名单Jar,可以直接上传。如需上传内置白名单以外的其他Jar,如驱动管理里添加驱动Jar或集群管理中上传产品Jar,需要在bi.properties里通过配置此属性添加需要上传的Jar的SHA256值,多个值用英文逗号分割。初始模板:jdbc:mysql://:3306/
2024-07-25 09:56:44
1093
原创 【2】kettle使用的小细节——输出数据分发和复制
出现的问题:程序运行到 增加序列 组件还有396条数据记录,但是在排序记录中只有 132条数据,即对3条线路进行了分发,各发送了132条数据。也可以在选取计算器组件的时候,右击选择【数据发送】—>【复制发送模式】选择复制以后会节点连接线会产生一个copy的标识。注:Round-Robin:轮询,分发记录。
2024-07-11 10:16:03
926
原创 【深度学习】第5章——卷积神经网络(CNN)
卷积操作就是用一个可移动的小窗口来提取图像中的特征,这个小窗口包含了一组特定的权重,通过与图像的不同位置进行卷积操作,网络能够学习并捕捉到不同特征的信息。(4)池化操作:降采样处理(down-pooling),是对不同位置的特征进行聚合统计。通常是取对应位置的最大值(最大池化)、平均值(平均池化)等;:(0的圈数)在外围边缘补充若干圈0,方便从初始位置以步长为单位可以刚好滑倒末尾位置,通俗地讲就是为了总长能被步长整除。(5)多层处理:一般而言,在图像处理中,一层卷积及降采样往往只学到了局部的特征。
2024-07-09 13:23:24
439
原创 【scrapy】3.网易云爬取歌单(元素列表——表达式后添加)
6、对标签列表进行循环遍历,得到单首歌曲的标签信息。# 从单个的音乐标签中筛选出ID信息。直接运行即可爬取网页云某歌单的歌曲。通过在表达式后面添加 [0]
2024-07-02 13:40:16
444
1
原创 【scrapy】3.XPath解析
示例://a[@class='active' and @href='/home'] 可以匹配同时满足 class 属性值为 "active" 和 href 属性值为 "/home" 的 元素。示例://a[@class='active' or @class='highlight'] 可以匹配class属性为"active"或"class"属性为"highlight"的a元素。//父元素名[@属性名1='属性值1']/子元素名[@属性名2='属性值2']:通过指定父元素和子元素的属性条件来定位元素。
2024-06-28 15:36:23
988
转载 【scrapy】2.第一个scrapy爬虫项目
参考:python爬虫基础小案例, scrapy框架,思路和经验你全都有。_scrapy爬虫案例python-优快云博客一、创建爬虫项目1.查看虚拟环境2.切换已安装scrapy的虚拟环境在python 中的终端中,创建scrapy框架。
2024-06-26 10:08:12
783
原创 【scrapy】1.scrapy爬虫入门
接收Scrapy Engine(引擎)发送的所有Requests请求,从网上下载数据,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。例如://div[@classs], //a[@x]:选择具有 class属性的 div节点、选择具有 x属性的 a节点。,它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。(2)a // b:表示a下所有b,直接或者间接的。,发起爬虫请求,并解析。
2024-06-25 14:35:47
1204
原创 【1】kettle的使用(全网最新版)
Kettle 是一款开源的 ETL 工具,纯 java 编写1、Kettle工程存储方式(1)以 XML 形式存储(2)以资源库方式存储 (数据库资源库 和 文件资源库)2、Kettle的两种设计转换 (transformation ):完成对数据的 基础转换。作业 (job) :控制完成整个工作流。区别:①作业是步骤过程,转换针对数据流。这是最大的区别。②作业的每一个步骤,需要等前面的步骤跑完了才能执行;
2024-06-17 16:02:42
1072
原创 【深度学习】第2章
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果关系是非线性的,即便两个变量具有-一对应的关系,Pearson相关性也可能会接近0。皮尔森相关系数高,相关性高——>去掉特征之间相关性高的&目标值相关性较小的。其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。6.TF-iDF词条权重计算?方差小,相似度高——>去掉相似度较高的。三、特征处理(特征缩放、选择及降维)2.特征值的归一化(规范化)(2)主成分分析(PCA)(3)基于森林的特征选择。
2024-05-29 14:18:49
671
原创 【深度学习】第1章
深度学习是一种实现机器学习的技术,是机器学习重要的分支。机器学习是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析,其基础主要是归纳和统计。分类问题是有监督学习的一个核心问题。准确率是基于较佳的截断值计算的,AUC是基于所有可能的截断值计算的,更加稳健(尤其是面对突变样本)。曲线的位置越高,说明分类器的性能越好。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,输出为一个实数数值。在垃圾短信分类器中,是指预测出的垃圾短信中真正垃圾短信的比例。
2024-05-26 14:16:14
642
转载 4.Python创建知识图,分析并训练嵌入模型(不连接数据库)
最短路径分析的重点是寻找图中两个节点之间的最短路径。衡量一个节点位于其他节点之间最短路径上的频率,或者说衡量一个节点对其他节点之间信息流的影响。具有高中间性的节点可以作为图的不同部分之间的桥梁。具有较高接近中心性的节点被认为更具中心性,因为它们可以更有效地与其他节点进行通信。源节点“gene2”和目标节点“cancer”之间的最短路径用红色突出显示,整个图的节点和边缘也被显示出来。(1)对于知识图谱KG,可以做的第一件事是查看它有多少个节点和边,并分析它们之间的关系。节点中心性度量图中节点的。
2024-05-14 15:42:31
70
转载 2.Python进行对Neo4j 的操作(连接数据库)
注意,定义了node1、node2等,一定要create才能更新进数据库。# 定义nodenode_1 = Node('英雄',name = '张无忌')node_2 = Node('英雄',name = '杨逍',武力值='100')node_3 = Node('派别',name = '明教')# 存入图数据库结果如下:t=N7T8。
2024-05-14 14:21:18
1231
1
翻译 3.手动构建一个简单的知识图谱(Cypher)
采用一个实际的案例来说明Neo4J的查询语言Cypher的使用方法,在实际的生产应用中,除了简单的查询操作会在Neo4J的web页面进行外,一般还是使用Python、Java等的driver来在程序中实现。这条语句的含义就是创建一个标签为Person的节点,该节点具有一个name属性,属性值是John。在关系中,同样的使用花括号{}来增加关系的属性,也是类似Python的字典,这里给FRIENDS关系。这里的关系是BORN_IN,表示出生地,同样有一个属性,表示出生年份。是有方向的,表示是从a到b的关系。
2024-04-27 15:22:11
398
原创 Pandas数据处理(取数/删除NaN)
subset:列表----columns或者index,只删除指定列/行。df.iloc[ 行序 ] [列序 ]列转换为一维数组,然后访问该数组索引处的值。df.iloc[ 行 ] [ '列名' ]#取出某一列,然后根据行序列进行对第n行取值。是标量的快速访问方法,可从 Pandas。#访问行,然后使用列名访问值。df.iloc[ 行序, 列序 ]thresh:阈值,类型为int,1或者columns则是删除列。删除至少有一个NaN的行/列;删除全部都是NaN的行/列。,并且使用起来最简单。
2024-03-29 16:56:09
538
转载 【11】大数据与AI时代用户画像最佳实践
用户画像是指在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。
2024-02-26 15:52:24
983
2
原创 【10】知识图谱实战案例(动手做)
然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,正是。针对性的填充空置,根据这个工作的类别的平均值,最大值和最小值进行填充,填充的时候考虑公司的注册的时间,针对性的去掉重复的数据,数据本省的噪声,去掉完全相同的数据,比如投资数据出现两份。统计特征,比如投资公司的个数,违约的个数等,在本省内的个数和本省外的个数,计算每一个个体与分组之间的偏离距离,计算分组的均值,得到与每个个体的分组。
2024-02-26 11:13:03
5020
原创 【9-1】实验——Neo4j实战操作之命令(继续补充)
停止知识图谱:~/ neo4j-community-3.5.6/bin/进入~/neo4j-community-3.5.6/删除旧的图谱,例如qatest.db。1、工具:neo4j-admin。进入知识图谱配置文件目录。
2024-02-20 16:10:58
804
深度学习第3章实验-回归模型数据集-汽车的燃油效率以其相关因素
2024-07-05
android开发-安卓源码-应用程序app-修改/直接使用-实战练习
2024-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人