- 博客(26)
- 收藏
- 关注
原创 杂谈:*args和**kwargs
杂谈:*args和**kwargs先举一个例子,给一个函数:def func(a,b,c, x, y): print('a = ', a) print('b = ', b) print('c = ', c) print('x = ', x) print('y = ', y)func(1, 2, 3, x= 4, y = 5)# 输出的结果为:a = 1 b = 2 c = 3 x = 4 y = 5若是在函数中func输入:func(1,
2022-05-02 15:13:34
252
原创 关键词提取(3):主题模型:LSI模型
主题模型(1):LSI模型一、LSI是什么?1.SVD二、使用步骤1.引入库2.读入数据总结一、LSI是什么? 在某些情况下,有些关键词并不会显式的出现在文档之中,如:讲动物生存环境的科普文章,通常会介绍狮子老虎等等各种动物的情况,但是在文章中并不会显式的出现动物二字,故在这一种情况下,就需要主题模型。 LSI(Latent Semantic Indexing),也就是潜在语义索引,有时候也叫LSA(Latent Semantic Analysis),也就是潜在语义分析,LSI是基于SVD(奇异
2021-12-03 15:32:04
3306
原创 数据库(1):用sql在数据库中随机选择数据并保存在另一张表中
数据库(1):在数据库中随机选择数据一、问题二、sql语句1.用sql语言进行进行随机取数据2.将文件的数据进行打乱3.从文件a1a_1a1和b1b_1b1中随机抽取数据组成新文件一、问题 本人在进行数据的处理时,就是在一个行数为245条数据excel文件中随机选取200条数据,分别存入到两个excel中,如存到文件a1a_1a1和b1b_1b1中,每个文件100条数据,且数据不能重复,并将文件a1a_1a1和b1b_1b1分别打乱,另存到文件a2a_2a2和b2b_2b2中,在刚开始
2021-11-17 15:26:29
2126
原创 关键词提取(2):TextRank算法
TextRank算法和主题模型一、TextRank算法1.1 PageRank算法1.2 TextRank算法1.3 代码实现二、主题模型1.引入库2.读入数据总结一、TextRank算法 TextRank算法与其他算法不同的地方在于,其他的算法需要基于一个现有的语料库,比如:TF-IDF算法就需要计算每一个词在多个文档中出现;主题模型需要通过对大量文档的学习,来发现隐含的主题。但是TextRank算法可以对单篇文档分析来提取关键词,TextRank算法的基本思想来源于PageRank算法,先介绍Pa
2021-11-11 15:04:37
1811
原创 关键词提取(1):TF-IDF算法
关键词提取(1):TF-IDF算法一、TF-IDF算法二、代码实现1. 对要提取的文本进行处理1.1 加载停用词表1.2 对你要提取的文本进行分词1.3 把要提取文本中除了名词之外的词和一些停用词过滤1.4 算出来剩下的名称的TFTFTF值2.对数据集进行处理2.1 加载数据集2.2 进行IDFIDFIDF值的计算2.3 进行TF−IDFTF-IDFTF−IDF的计算2.5 对数据进行排名,提取前nnn个作为关键词一、TF-IDF算法 TF−IDFTF
2021-11-10 19:11:45
1420
原创 用python把数据导入neo4j中,建立一个简单的知识图谱
使用py2neo包把数据导入neo4j中,建立一个简单的知识图谱一、对数据进行处理二、把数据导入neo4j数据库中1.导入两类属性的节点2.导入关系一、对数据进行处理用的是网上的数据,其中数据的样式为: 先用pandas对文件进行读取path = r'D:/Invoice_data_Demo.xls'invoice_data = pd.read_excel(path, header = 0)invoice_data.shape # 发现文件是35行27列先去抽取第一类属性的节点# 把发票
2021-11-06 15:53:16
9162
9
原创 使用Python读取大容量的数据并存入数据库中
使用Python读取大容量的数据并存入数据库中一、读数据二、连接数据库1.在数据库中建立一个新的表2.将数据写入到数据库中3.检查数据是否正确一、读数据我使用的是第三方包openpyxl进行数据的读取,读取的文件是xlsx格式的,如下:from openpyxl import workbookmain_book = openpyxl.load_workbook(r'D:\final.xlsx')main_sheet = main_book.activerow = main_sheet.max_r
2021-11-05 15:00:28
2210
原创 2021-06-28
隐马尔可夫模型(HMM):马尔可夫模型是关于时序的概率模型,它是由初始概率分布、状态转移概率分布以及观测概率分布确认的。概率模型提供一种描述的框架,将学习任务归结于计算变量的概率分布,在概率模型中,利用已知变量推测出未知变量的分布称为“推断”。概率图模型是一类用图来表达变量相关关系的概率模型,以图为表示工具,最常见的是用一个结点表示一个或者一组随机变量,用边来表示变量间的概率相关关系。概率图大致分为两类:...
2021-06-28 10:32:14
64
原创 2021-06-15
机器学习简介机器学习结合了数据、模式识别、计算机运算。机器学习的分类1.根据应用的目的的不同,主要分为:监督学习、无监督学习、强化学习监督学习:根据原始数据与标签估算未知状态或者数值。如“根据之前的股市的变化来预测明天的股市”,“根据用户之前的购物清单来预测下一次的购物”等等。监督学习的分类:回归(数值预测)、分类(项目选择)、排序/推荐(排序排列)回归:就是预测数值,主要是预测连续数字(例如实数),比如根据现有的气温变化预测明日的气温。 分类:是将输入的数据进行项目分类。
2021-06-15 14:31:08
101
原创 简单的Python+neo4j读取csv文件
frompy2neoimportNode,Graph,Relationship,dataimportpandasaspdimportcsvgraph=Graph('http://localhost:7474/browser/',username='neo4j',password='950516')graph.delete_all()withopen(r'D:\ProgrammingSoftware\pycharm\Documents\data...
2021-06-02 20:38:03
562
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人