- 博客(61)
- 收藏
- 关注
转载 通俗易懂解释知识图谱
通俗易懂解释知识图谱(Knowledge Graph)1. 前言2. 知识图谱定义3. 数据类型和存储方式4. 知识图谱的架构4.1 逻辑架构4.2 技术架构5. 信息抽取5.1 实体抽取(Entity Extraction)5.2 关系抽取(Relation Extraction)5.3 属性抽取(Attribute Extraction)6. 知识融合6.1 实体链接6.2 知识合并7. 知识加工7.1 本体构建7.2 知识推理7.3 质量评估8. 知识更新...
2022-03-30 15:48:24
489
原创 Python:数组添加数据和删除数据
# 行添加,删除数据valid_tmp = np.append(valid_tmp, train_tmp[idx],axis=0) # train_tmp[idx]和valid_tmp维数相同train_tmp = np.delete(train_tmp, idx, axis=0) # 删除train_tmp[idx, :]的数据,idx可以是个list# 列添加删除数据valid_tmp = np.append(valid_tmp, train_tmp[:, idx],axis=1) #
2022-03-24 15:04:51
3676
原创 Scala:dataset,dataframe空值判断和处理
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD
2022-03-23 17:05:44
1341
原创 迁移学习实例
import osimport sysimport cv2from PIL import Imageimport h5pyimport tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom time import timefrom datetime import datetimefrom tqdm import tqdm# from utils import g
2022-03-10 15:45:13
2243
1
原创 安装cv2(opencv-python)遇到的问题
正常安装:pip install opencv-python (如果只用主模块,使用这个命令安装)pip install opencv-contrib-python (如果需要用主模块和contrib模块,使用这个命令安装),推荐安装这个。import cv2 报如下错误:ImportError: libGL.so.1: cannot open shared object file: No such file or directory解决方案:sudo apt updatesudo apt
2022-02-28 10:11:41
3625
原创 python和spark日期前n天的写法
python:day = timedelta(1, 0)end_date = pd.to_datetime(test_start_date)spark:val myc: Calendar = Calendar.getInstance()val dateformat = new SimpleDateFormat("yyyy-MM-dd")val dt = dateformat.parse(end_date)myc.setTime(dt)var end_date_1 = dateformat.
2021-10-11 18:38:30
328
原创 Spark计算两条记录的差diff
var df = spark.sparkContext.parallelize(Array((1, "2014-11-03 10:45:58.0", 1), (2, "2014-10-17 18:25:58.0",2), (1, "2014-10-25 19:17:59.0",3), (2, "2014-10-29 10:19:58.0",2), (1, "2014-11-17 18:25:58.0",4), (2, "2014-08
2021-10-11 18:37:28
990
原创 python:dataframe groupby后agg、apply、transfrom用法
import pandas as pddata = pd.DataFrame({'name':['wencky','stany','barbio','barbio'], 'age':[29,29,3,10], 'gender':['w','m','m', 'w']})# 1 transform可用,agg和apply得到NaN。data["a"] = data.groupby("gender")["age"].a
2021-10-08 13:48:32
1295
原创 python一些小操作
1.两个字典的合并合并后相同的键的值会被覆盖,不同的键则保留下来。x = {'a' : 1, 'b' : 2}y = {'b' : 3, 'c' : 4}z = {**x, **y}print(z)# {'a': 1, 'b': 3, 'c': 4}2.找到数字中出现次数最多的元素 a = [1,2,3,4,5,3,2,2] print(max(set(a), key=a.count)) # 23.获取对象的内存使用量 import sys x
2021-09-10 22:00:42
111
原创 python出现Unknown label type: ‘continuous‘
今天按如下运行逻辑回归:model.fit(X_train, y_train)报错:ValueError: Unknown label type: 'continuous'将代码改为:model.fit(X_train, y_train.astype('int')
2021-09-07 09:25:19
1551
转载 Spark Dataset DataFrame空值null,NaN判断和处理
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD
2021-08-03 11:35:01
1073
原创 Spark DataFrame 添加自增id
方法一:利用窗口函数 /** * 设置窗口函数的分区以及排序,因为是全局排序而不是分组排序,所有分区依据为空 * 排序规则没有特殊要求也可以随意填写 */ val spec = Window.partitionBy().orderBy($"lon") val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show()方法二: 利用RDD的 zipWit
2021-08-03 11:31:18
587
原创 Spark:计算时间差(天数和秒数)
//天数时间差table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()//描述时间差import org.apache.spark.sql.functions._//For $notation columns // Spark 2.0import spark.implicits._table.withColumn("date_diff", (unix_timestamp($"Start
2021-08-03 10:21:39
6409
原创 Spark:获取dataframe某列最大值
// 查询 df 中 "game_size"字段的最大值,同理可以查询其他的统计信息scala> df.agg(max("game_size")).show+--------------+|max(game_size)|+--------------+| 99|>df1.show()+-----+--------------------+--------+----------+-----------+|floor| timestamp|
2021-08-03 10:19:43
3933
原创 python:dataframe保存成csv文件和读取
一、从csv文件读取数据为dataframe函数原型:pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=
2021-08-03 09:45:15
21952
原创 Scala,Spark和IDEA学习笔记
目录1.distinct和dropDuplicates的区别联系2.IDEA下载Git项目3.解决A master URL must be set in your configuration错误4.IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息5.Scala集合:Map、Set、List6.scala使用Range来填充一个集合7.dataframe增加列8.SPARK-SQL内置函数之时间日期类9.Window.partitionBy1.distinct和dropDuplic
2021-07-13 19:20:04
619
原创 python笔记:数组的一些操作
1.对数组求指数和对数参考指数:math.exp() 只能对一个数求指数,不能对数组进行批量求指数numpy.exp()既能对一个数求指数,也能对数组进行批量求指数对数:math.log()numpy.log()作用同上2.数组的最值及其索引参考在list列表中,max(list)可以得到list的最大值,list.index(max(list))可以得到最大值对应的索引但在numpy中的array没有index方法,取而代之的是where,其又是list没有的numpy中还有ar
2020-11-23 21:21:51
770
1
原创 python,pycharm,anaconda,tensorflow安装
python安装参考pycharm安装参考anaconda安装参考tensorflow的CPU安装打开anaconda prompt,用国内的清华源安装pycharm配置anaconda环境python设置解释器位置为anaconda安装路径下的python.exe
2020-11-17 15:45:48
197
1
原创 python:dataframe
相关:Series一些函数用法目录DataFramereindexdroploc和ilocapply排序汇总统计和计算缺失值处理数据合并数据转换:对数据的过滤、清理以及其他的转换操作DataFrame性质:一个表格型的数据结构。它提供有序的列和不同类型的列值。from pandas import DataFrame ## 创建DataFrame ## In [0]:DataFrame({'col0':[1,2,3], 'col1':[4,5,6]})Out[0]:col0 col10
2020-11-16 16:42:30
540
原创 python:series一些函数用法
series性质:一维数组对象,类似NumPy 的一维array。(除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组。)from pandas import Seriesobj = Series([1,2,3,4], index = ['a', 'b', 'c', 'd']) obj输出a 1b 2c 3d 4dtype: int64 obj.index 输出Index(['a', 'b', 'c', 'd'], dtype='obj
2020-11-16 16:41:01
8393
原创 python:pandas之read_csv
导入必要的包import pandas as pdimport numpy as npfrom pandas.api.types import CategoricalDtypefrom io import StringIOdtype:指定整个DataFrame的数据类型或用字典的方式指定各个列的数据类型data = pd.read_csv('diamonds.csv',dtype=object)data.head()out:carat cut color clarity de
2020-11-13 20:04:37
1745
原创 python:装饰器
1.为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print ("hello!") def say_goodbye(): print ("hello!") # bug hereif __name__ == '__main__': say_hello() say_goodbye()但是在实际调用中,我们发现程序出错了,上面的代码打印了两个hello。经过调试你发现是sa
2020-10-12 15:21:35
237
转载 Python多线程介绍及实例
1.进程和线程的概念1.1进程简单的说:进程就是运行着的程序。我们写的python程序(或者其他应用程序比如画笔、qq等),运行起来,就称之为一个进程在windows下面打开任务管理器,里面显示了当前系统上运行着的进程。可以看到,我们系统中有很多的进程运行着,比如qq、搜狗输入法等。这些程序还没有运行的时候,它们的程序代码文件存储在磁盘中,就是那些扩展名为 .exe 文件。双击它们,这些 .exe 文件就被os加载到内存中,运行起来,成为进程1.2.主线程概念而系统中每个进程里面至少包含一
2020-10-09 16:56:31
380
转载 Keras保存和载入训练好的模型和参数
1.保存模型my_model = create_model_function( ...... )my_model.compile( ...... )my_model.fit( ...... )model_name . save( filepath, overwrite: bool=True, include_optimizer: bool=True )filepath:保存的路径overwrite:如果存在源文件,是否覆盖include_optimizer:是否保存优化器状态ex :
2020-10-05 20:26:10
3915
原创 自编码器(Auto Encoder)原理及其python实现
目录一.原理二.为什么要使用自编码器三.代码实现1.原始自编码器2.多层(堆叠)自编码器3.卷积自编码器4.正则自编码器4.1稀疏自编码器四.降噪自编码器五. 逐层贪婪训练堆叠自编码器参考一.原理自编码器由两部分组成:编码器(encoder):这部分能将输入压缩成潜在空间表征,可以用编码函数h=f(x)表示。解码器(decoder):这部分重构来自潜在空间表征的输入,可以用解码函数r=g(h)表示。因此,整个自编码器可以用函数g(f(x)) = r 来描述,其中输出r与原始输入x相近。自编码器(
2020-10-05 20:13:20
20122
2
原创 MySQL的高级应用:视图,事务,索引,主从
目录视图:简单来说,视图就是一条select语句执行之后返回的结果集,所以在创建视图的时候基本工作就落在这条SQL查询语句上.视图是对若干张基本表的引用,它是一张虚表,是查询语句执行的结果,不存储具体的数据(基本表数据发生了改变视图也会跟着改变)视图只用于查询数据,方便查询创建视图 目的是方便茶数据create view 视图名称(推荐以v开头) as SQL查询语句drop view 视图名视图的作用:1.提高了重用性,就像一个函数2.对数据库重构,却不影响程序的运行3.提高了安全性能,可以对不同用户4
2020-09-25 22:49:29
197
原创 python:字典的操作
目录一、遍历1.遍历键keys:2.遍历值values:3.遍历项items:二、添加元素1.直接添加,给定键值对2.使用update方法三、删除元素1.del函数2.pop函数3.clear函数四、排序1.按键排序2.按键反向排序3.按值排序4.获取items排序4.1按items的values排序4.2按items的keys排序一、遍历1.遍历键keys:# keys() 该方法会返回字典的所有的key# 该方法会返回一个序列,序列中保存有字典的所有的键d = {'name':'孙悟空',
2020-09-08 09:51:44
136
原创 sql常用语句
视频视频课件目录数据表的操作查看数据表创建数据表 约束中符号默认为有符号查看数据表的结构数据表中插入数据修改表结构查看表的创建语句1.数据创建创建数据库查看数据库使用数据库显示当前使用那个数据库创建一个数据表 存0 1时使用bit 就行 bit(2)可以存4种 tinyint = bit(8) 2^8 = 256向表中插入数据2.基本查询语句查询3.条件查询语句条件查询4.范围查询in表示在一个非连续的范围内not in不非连续的范围内between ... and ...表示在什么范围之内
2020-08-31 17:29:40
962
转载 transformer理解
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN和LSTM 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。1.Transformer 结构首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构。...
2020-08-31 10:43:03
6958
2
原创 优化算法:粒子群算法,遗传算法,差分进化算法
目录1.粒子群算法(PSO)2.遗传算法3.差分进化算法1.粒子群算法(PSO)整个粒子群优化算法的算法框架如下:step1种群初始化,可以进行随机初始化或者根据被优化的问题设计特定的初始化方法,然后计算个体的适应值,从而选择出个体的局部最优位置向量和种群的全局最优位置向量。step2 迭代设置:设置迭代次数,并令当前迭代次数为1step3 速度更新:更新每个个体的速度向量step4 位置更新:更新每个个体的位置向量step5 局部位置和全局位置向量更新:更新每个个体的局部最优解和种群的全局最
2020-08-25 11:03:44
2108
原创 一天1个机器学习知识点(五)
今天开始陆陆续续更新机器学习的面试题,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,如果大家面试中遇到好的面试题也请分享,一起学习,一起进步!每天都在更新中,记得收藏,每天进步一点点!!一天1道机器学习面试题(一)一天1道机器学习面试题(二)一天1道机器学习面试题(三)一天1道机器学习面试题(四)这部分主要更新集成学习的内容(RF,adaboost,GBDT,XGBoost等)穿越---->深度学习面试!!目录1.特征工程1.1.什么是特征
2020-08-24 11:15:56
1684
原创 判断机器学习算法或深度学习算法优势常考虑的点
效果,准确率,损失函数出发模型可解释性资源:包括时间即训练速度,空间即占用内存对不平衡数据的变现如何对非线性数据的表现如何对缺失值数据的表现如何
2020-08-22 20:32:49
206
原创 python:sort,sorted,argsort,lexsort
Python list内置sort()方法用来排序,也可以用python内置的全局sorted()方法来对可迭代的序列排序生成新的序列目录1.使用sort排序2.使用sorted()排序key参数3.argsort4.lexsort1.使用sort排序用法:list.sort(func=None, key=None, reverse=False(or True))对于reverse这个bool类型参数,当reverse=False时:为正向排序;当reverse=True时:为方向排序。默认为F
2020-08-18 20:43:03
650
原创 数据结构各种排序:冒泡排序,快速排序,归并排序,插入排序,选择排序
目录1.冒泡排序1.1原理1.2时间复杂度和空间复杂度:1.3python实现:2.快速排序2.1原理2.2python实现(递归):3.归并排序3.1原理3.2复杂度3.3 python实现:4.插入排序4.1原理4.2复杂度4.3python实现1.冒泡排序1.1原理参考文章1.2时间复杂度和空间复杂度:参考文章时间复杂度:这个时间复杂度还是很好计算的:外循环和内循环以及判断和交换元素的时间开销;最优的情况也就是开始就已经排序好序了,那么就可以不用交换元素了,则时间花销为:[ n(n-.
2020-08-17 17:12:30
668
原创 python:f/F,format,%的用法
目录一.f/F的用法二.%的用法一.f/F的用法参考文章1.解析变量name = 'zhangs'age = 20res2 = F"姓名:{name},年龄:{age}"print(res2)结果:姓名:zhangs,年龄:202.解析字典one_dict = {'name': 'zhangs', 'age': 18, None: True}res3 = F"姓名:{one_dict['name']}, 年龄:{one_dict['age']} ,None:{one_dict[No
2020-08-12 11:32:37
7837
1
原创 python:去重(list,dataframe)
1.对列表去重1.1.用for或while去重1.2.用集合的特性set()>>> l = [1,4,3,3,4,2,3,4,5,6,1]>>> type(l)<class 'list'>>>> set(l){1, 2, 3, 4, 5, 6}>>> res = list(set(l))>>> res[1, 2, 3, 4, 5, 6]1.3.使用itertools模块的grouby
2020-08-06 17:06:17
1109
原创 python:array,mat,tolist,list
1.对于二维数据>>> from numpy import *>>> a1 = [[1,2,3],[4,5,6]] #获得一个列表>>> a1[[1, 2, 3], [4, 5, 6]]>>> type(a1)<class 'list'>>>> a2 = array(a1) #列表转数组>>> a2array([[1, 2, 3],
2020-08-06 15:13:13
361
原创 python: append、extend、insert、add
1.append将对象作为一个整体,添加到列表末尾,添加后列表仅增加1个元素。该对象可以是任意数据类型a= [1, 2, 'python']b = ['mac', 'linux'] a.append(b) ##a -- > [1, 2, 'python', ['mac', 'linux']]2.extend将一个可迭代对象中的所有元素(N个),逐个添加到列表末尾,添加后列表元素增加N个;通常,可迭代对象为list;为字符串时把每个字符逐个添加到列表末尾;为字典时,将字典的key添加到列
2020-08-02 18:53:16
1563
原创 树的先序遍历,中序遍历,后续遍历(递归和非递归实现)
前序遍历是先访问根节点再访问左子树最后访问右子树(中,左,右);中序遍历是先访问左子树再访问根节点最后访问右子树(左,中,右);后序遍历是先访问左子树再访问右子树最后访问根节点(左,右,中)。---------其实就是根节点的访问顺序1.前序遍历递归实现: def preOrder(self,root): if rooot == None: return print(root.val) self.preOrder(root.left) self.pre
2020-08-02 15:21:32
494
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人