- 博客(78)
- 资源 (2)
- 收藏
- 关注
原创 spark ML实现随机森林分类
开头的环境变量设置要具备,不然spark在windos上寻找python环境会老是出错。例子来自于官网,直接能跑通。
2023-05-25 22:11:21
320
原创 spark-submit上的报错Exception in thread “main“ java.io.IOException: Cannot run program “python3“: Create
主要是因为,一般我们在window上安装好对应的python版本之后,只有python.exe,并没有python3.exe。Exception in thread “main” java.io.IOException: Cannot run program “python3”: CreateProcess error=2, 系统找不到指定的文件。Caused by: java.io.IOException: CreateProcess error=2, 系统找不到指定的文件。
2023-05-19 21:01:19
883
2
原创 Transformer实现以及Pytorch源码解读(五)-多头注意力机制MultiheadAttention
源码总对于num_head的处理有代码冗余的情况。
2022-12-23 18:49:09
3328
原创 Transformer实现以及Pytorch源码解读(四)-Encoder层
至此,数据流在Transormer编码层的流动过程已经清晰,除了MultiheadAttention,其他的代码和层的设置都是pytorch中的基本操作,不再详细追踪底层实现。MultiheadAttention的代码实现在下节中进行分析。
2022-12-23 11:00:52
5556
原创 Transformer实现以及Pytorch源码解读(三)-位置编码Position Encoding——史上最容易理解
位置编码的数学定义如下公式所示:从公式上可以看出,在对位置信息进行编码的过程中主要涉及到两个索引:p和i,其中,p表示,某个单次在一个句子中的位置,该位置用索引表示,索引从0开始;其中的i表示,某个数值,在embedding后形成的向量中的位置,该位置也用索引表示,并且索引从0开始。可以搭配下图进行理解。比如0.03这个元素的p=0并且i=0, 而0.07这个元素的p=1,i=1。从inputs到向量矩阵的表示过程可以参考我前面的博客。
2022-12-22 00:24:33
5041
5
原创 python中的@classmethod方法
(2)主要用来实例化类,可以发现,我们可以在build中进行业务逻辑的处理,然后实例化为不同的对象。因此可以作为构造方法使用。cls这里表示类本身。与self不同,self表示类的实例。(1)该方法不用实例化,可以直接通过类进行调用。
2022-12-20 11:34:15
292
原创 Transformer实现以及Pytorch源码解读(一)-数据输入篇
以词性标注任务为例子,实现Transformer,并分析实现Pytorch的源码解读。
2022-12-20 10:32:32
1403
原创 PyTorch Geometric(PyG)+Cuda+Pytorch安装与使用
pytorch Geometric(PYG),CUDA,Pytorch安装
2022-10-15 21:31:25
1571
原创 回溯算法设计中,核心回溯参数的一致性问题
给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。candidates 中的每个数字在每个组合中只能使用 一次 。注意:解集不能包含重复的组合。示例 1:输入: candidates = [10,1,2,7,6,1,5], target = 8,输出:[[1,1,6],[1,2,5],[1,7],[2,6]]示例 2:输入: candidates = [2,5,2,1,2], target =
2022-06-02 13:28:09
405
原创 Hive报错
主要是因为粗心导致的报错信息Exception in thread “main” java.lang.RuntimeException: com.ctc.wstx.exc.WstxUnexpectedCharException: Unexpected character ‘l’ (code 108) in prolog; expected ‘<’at [row,col,system-id]: [1,4,“file:/home/export/servers/apache-hive-3.1.2-bi
2022-05-25 10:36:17
2819
1
原创 阿里云部署hadoop集群
题记: 好记性不如烂笔头。搞一个稳定的hadoop部署方式,给以后的人生省点打游戏的时间。环境介绍两台阿里云服务器server1,server2,还有一台华为云服务器。准备将两台阿里云服务器器分别记为:master,slave1;将华为云服务器记为slave2。masterip,masterip_分别表示master的公网ip和内网ip;slave1ip表示slave1的公网ip;slave2ip表示slave2的公网ip;第一步:服务器间ssh无密码登录1.1 更改/etc/hosts文
2022-05-23 21:59:13
1165
原创 hadoop在阿里云上主节点没有datanode进程
问题描述用三台服务器组成了一个hadoop集群。我暂且简单的记作master,slave1,salve2。配置和初始化都没有任何问题。在最后用行start-dfs.sh (后来用start-all.sh启动)命令,发现slave1和slave2上都有datanode进程,但唯独master上没有datanode进程,甚至logs下都没有datanode的日志。依据离谱加挖槽。解决办法试了很多很多种办法,更新了所有的配置文件,发现只要再单独的启动一下datanode就行了。。。。。 hadoop-
2022-05-23 19:25:30
760
1
原创 hadoop 在阿里云上dataNode无法启动,并报错:java.net.BindException: Port in use: master:50070 at org.apache.hadoop
报错信息发现hadoop没有启动NameNode和dataNode,并生成如下的报错:java.net.BindException: Port in use: master:50070 at org.apache.hadoop.http.HttpServer2.constructBindException(HttpServer2.java:1344) at org.apache.hadoop.http.HttpServer2.bindForSinglePort(HttpServer2.java:13
2022-05-23 14:39:53
751
原创 QPPTW算法python实现
好记性不如烂笔头。很多学到的东西还是迅速而系统的整理出来才是对自己时间的最大的节约。还记得2019年末的时候整理过这个算法,虽然当时没有完全的明白其精髓,但是至少把使用流程搞清楚了。才过了半年不到,最近想重新的拾起来该算法做点东西。居然忘的一干二净,大致又在上面前前后后耗费了一周,终于形成了代码。算是将这个算法拆解零碎了。也感谢这个过程,让我再一次深入的研究,并加深了理解。问题描述QPPTW全称为:the Quickest Path Problem with Time Windows即带时间窗路径问题
2022-05-13 23:52:45
1066
原创 工具使用——mysql数据的备份(自动化sh脚本)
1.创建备份文件夹的脚本将以下的脚本写入1.sh文件夹basis=/home/dbbackup/backupdaily=/home/dbbackup/backup/dailyif [ ! -d "$basis" ]; then echo "创建文件夹成功,全量备份目录:$basis" mkdir $basiselse echo "文件夹已存在,全量备份目录:$basis"fiif [ ! -d "$daily" ]; then e
2022-04-18 09:08:38
670
原创 Maven项目jar包启动,报错:jar中没有主清单属性
1第一步:idea中指定Main方法具体步骤:file->project structrue->Aritifacts->±>jar->from models with dependencies。截图如下第二步:pom文件中指定主程序入口应该就没问题了<plugin> <groupId>org.apache.maven.plugins</groupId> <art
2022-04-08 15:35:16
1469
原创 列生成算法的python实现_gurobi求解器
问题:Cutting Stock Problem讲解列生成算法的标配问题。可以百度,一百度一大把。模型建立代码实现ref:改代码引用自gurobi官方示例。个人感觉这个实现结构还是非常优秀的。from gurobipy import *TypesDemand = [3, 7, 9, 16] # 需求长度QuantityDemand = [25, 30, 14, 8] # 需求的量LengthUsable = 20
2022-04-02 11:16:31
2218
原创 能看懂的3D Tic-Tac-Toe问题_gruobi求解
问题描述简单来说就是在下面333的立方体中插入14个小球,让球共线的数量最小。那这里再补充解释一下什么叫共线:“三个小球只要同一行,或者同一列,或者同一对角线”问题建模模型是比较显而易见的,主要是辅助决策变量Lines的处理。官方解答意图比较明显,枚举所有的共线情况。但是不知道有没有人看懂了三个for循环里是什么鬼?我是看麻了。。。。。#-*-coding:utf-8-*-import gurobipy as gpfrom gurobipy import GRB# tested
2022-04-01 14:55:10
666
原创 一个linux系统上的gurobi报错
报错信息Traceback (most recent call last):File “”, line 1, in File “/root/.pycharm_helpers/pydev/_pydev_bundle/pydev_umd.py”, line 197, in runfilepydev_imports.execfile(filename, global_vars, local_vars) # execute the scriptFile “/root/.pycharm_helpers/p
2022-03-27 16:31:41
2803
1
原创 百度地图api更改marker的颜色——通过“imageOffset“即“background-position“属性的实现方式
查了下网上更换marker的颜色,大都是通过预先p好几个大小一样颜色不同的图片。但是片源又比较难找,不太好用,想到了直接盗用百度的图源~~~,个人感觉下面的方法比网上的其他方法好用,且可重复使用,减少对后端的请求。1.效果图2 实现过程2.1从百度地图下载下面这幅图具体方法:(1)打开百度地图(2)按F12打开调试模式(3)依次点击工具箱——标记——更换标记。此时本地已经缓存了上面的图片,下载下来就行了。2.2通过icon中的imageOffset属性并配合着图片的大小属性进行设
2021-12-06 13:43:23
6289
2
原创 怎样在北交内永不断网
对,今天想写篇博客怼一下北交傻x的校园网。第一点:每次只能连三个设备。对数量的要求还能理解,但是在同一台设备上退出登录,再登录的时候就会把另一条设备挤下去是什么鬼?第二点:同一个校园内的电脑竟然不在同一个局域网下了…。网络天天修,天天升级,就这?让用远程桌面的孩子怎么办~需求与问题需求:希望实验室电脑和宿舍电脑可以协同办公。问题:本来同一局域网下用window的远程桌面挺欢乐的,但是校园内的很多ip之间已经不在一个局域网里面了(就离谱)。所以可以选择远程的软件teamviewer和向日葵等。但
2021-10-29 09:25:39
928
原创 记一次[pnscan]服务器入侵解决[scan]解决过程
1.发现过程突然发现自己的程序被莫名的终止。随后用top命令查看资源占用情况,发现有一个pnscan占用了大部分的资源。2.难点这个进程的pid在实时刷新,直接用kill-9 +pid的方式无效3.解决办法第一步:ps -aux | grep pnscan第二步:定位到文件后进行删除。第三步:此时发现,木马进入初始程序,疯狂反扑,现在后台进程中多了个[scan]进程,占用cpu资源70%左右。第四步:重复第一步与第二步,将文件删除。此时可以发现,木马病毒刚好在redis的配置文件目录下。删
2021-07-28 10:46:22
829
原创 重新理解协方差与相关系数的关系
理解验证x与y的关系:Backend Qt5Agg is interactive backend. Turning interactive mode on.============================20================================nornalData的均值与标准差: 0.1555043129131784 , 0.6283846654021309[[ 0.41564978 -0.41564978] [-0.41564978 0.415649
2021-05-12 12:07:57
323
原创 sklearn实现决策树并可视化+linux系统
失败的历程pydot+graphviztree.export_graphviz(regr_1, out_file=f)(graph,) = pydot.graph_from_dot_file("./tree.dot")graph.write_png("./tree.png")然后就是一直报错找不到dot文件,一直报,一直报,报到人头铁了都。我甚至取读了pydot.py的源码,报错信息应该来源于一下几行代码:我甚至根据网上的建议改了下面的函数然后就什么卵用都没有~~~~成功的做法p.
2021-01-04 20:29:23
376
2
原创 numpy中好用却不容易想起来的函数
此板块持续更新,有好的建议,直接评论1 、np.cumsum自动累加操作,主要用于累计概率求和等np.cumsum([1,2,3,4,5,6,7])array([ 1, 3, 6, 10, 15, 21, 28])2、np.searchsorted主要用于概率和定位等情况,比如轮盘赌等情况。Find indices where elements should be inserted to maintain order.Find the indices into a sorted arr
2021-01-03 10:41:37
174
1
原创 python中的DataFrame数据结构apply+多进程加速
优化结果原数据处理时间花费: 523.7913863658905原数据分为20份,4进程运行时间(因为我的电脑只有四核):时间花费 282.55076575279236实施过程过程如下,强的一批:import numpy as npimport pandas as pdimport timefrom multiprocessing import Poolimport jsonimport pandas as pdimport datetimedef strToStrp(x):
2020-12-31 20:12:39
1552
原创 一个DataFrame赋值的诡异报错 A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc
DataFrame赋值时报错A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-
2020-12-27 14:08:58
29031
11
原创 python中的常用时间转化
1、DataFrame中的字符串转化为时间戳def strToStrp(x): if x==None or type(x)!=str or len(x)!=19: return None return datetime.datetime.strptime(x,"%Y-%m-%d %H:%M:%S")核心的方法是datetime.datetime.strptime(str,format)第一个参数是字符串,第二个参数是字符串转化为的日期时间格式。例如:datetime.
2020-12-26 10:32:16
282
原创 阿里云服安装mysql报错The server quit without updating PID file (/usr/local/mysql[FAILED]wz9ibvm
###第一步改my.cnf文件注释掉下面两行第二步:用完整的代码启动/usr/local/mysql/support-files/mysql.server start --user=mysql --basedir=/usr/local/mysql/ --datadir=/usr/local/mysql/data
2020-11-19 19:16:38
266
原创 python画三维图和常用二维图
个人做笔记使用,不用每次画图的时候都去找代码了。三维import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmimport mathfig = plt.figure()ax = fig.add_subplot(111, projection='3d')w=[i+1 for i in range(100)]q=[i+1 f
2020-11-06 14:41:14
2165
3
原创 pytorch用nn实现逻辑回归(logistic回归)
import torchimport torchvisionfrom torch import nnimport torchvision.transforms as transformsmnist_train = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())mnist_test = torch.
2020-10-21 11:01:48
3802
原创 pytorch纯手工实现logistic回归
import torchimport matplotlib.pyplot as pltimport numpy as npn_data = torch.ones(50, 2)x1 = torch.normal(2 * n_data, 1)y1 = torch.zeros(50)x2 = torch.normal(-2 * n_data, 1)y2 = torch.ones(50)x = torch.cat((x1, x2), 0).type(torch.FloatTensor)y = .
2020-10-21 10:58:46
3263
stomppy.pdf
2020-05-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人