
python编程
静静_jingjing
重庆理工大学在读研究生萌新一枚~~~还需要多多学习~~希望大家多多指教 自己开心顺利地毕业 欧耶~~~~
展开
-
【模型部署】TF Serving的使用
【模型部署】TF Serving的使用转载 2023-02-28 20:08:02 · 297 阅读 · 0 评论 -
pyspark udf returnType=ArrayType中是不同数据类型
pyspark udf returnType=ArrayType中是不同数据类型然后id_list collect_list之后还能按照第一个位置的元素进行排序。原创 2023-02-22 16:16:21 · 670 阅读 · 2 评论 -
正则表达式教程
带有语法高亮的、支持PHP / PCRE 和 JS 语言、 上下文解释、 备忘单、参考 和 正则表达式社区的正则表达式测试工具。RegExr: 学习、构建 和 测试 正则表达式 Test RegEx。练习网站,很有意思叫编程胶囊。原创 2022-12-14 22:04:05 · 359 阅读 · 0 评论 -
pyspark.sql 的dataframe 添加多列 / df.withColumns()用法
pyspark.sql 的dataframe 添加多列 / df.withColumns()用法原创 2022-12-05 16:44:31 · 1614 阅读 · 0 评论 -
TypeError: Invalid returnType: returnType should be DataType or str but is <‘pyspark.sql.types.Integ
@F.udf(returnType=IntegerType)错了应该是@F.udf(returnType=IntegerType())原创 2022-12-05 15:17:37 · 525 阅读 · 0 评论 -
df真值替换 / df label替换 / df.loc赋值/两列赋值
踩坑记录: loc到某行某列.values 是列表。原创 2022-11-25 15:03:44 · 408 阅读 · 0 评论 -
df 取某两列值不一致的行
df 取某两列值不一致的行必须保证 作比较的这两列的数据类型一样 也就是label 和 groundtruth的数据类型要一样, 不一样的话 df_external[df_external['label']!= df_external['groundtruth']] 就会不起作用!这是我踩得一个坑,记录一下~~~例如我要取df_external的df_external['label']!= df_external['groundtruth'] 的行。原创 2022-11-24 17:42:02 · 425 阅读 · 0 评论 -
【无标题】
因为采用keras的函数式编程方式 在model.summary的时候,由于batchsize未知,所以会出现batchsize为None,batchsize不是一个确定的值所以会报错,在训练的时候给数据了之后batchsize才已知,就不会报错了。关键出错代码是第一个tf.reshape那里。...原创 2022-08-17 13:49:42 · 300 阅读 · 0 评论 -
keras在batch_size前添加维度
keras在batch_size前添加维度因为普通的keras.layer.Permute() 默认是保持第0维(batch_size那维)的,再怎么permute都是第一维到最后一维的shape变换,根本不能在第0维前添加一维。(保持第0维的意思是第0维不参与,给隐藏了)...原创 2022-08-17 13:41:19 · 864 阅读 · 0 评论 -
keras 画 网络结构图
keras画网络结构图原创 2022-08-16 15:19:07 · 719 阅读 · 0 评论 -
keras 自定义padding tf.keras.layers.ZeroPadding2D
keras自定义padding转载 2022-07-29 14:51:09 · 1023 阅读 · 0 评论 -
tensorflow改写torch的AdaptiveAvgPool2d
通过对比pytorch的tensor和tensorflow的tensor可以验证改写成功,只不过精度有点区别。原创 2022-07-19 11:33:54 · 1020 阅读 · 0 评论 -
tf.keras padding=“same“ or “valid“问题
tf.keras padding="same" or "valid"问题转载 2022-07-13 14:03:14 · 244 阅读 · 0 评论 -
并行化节约内存 (Fail-safe, parallel memory reduction)
并行化节约内存参考此链接"""reducing.pyAuthor: Kirgsn, 2018Use like this:>>> import reducing>>> df = reducing.Reducer().reduce(df)"""import numpy as npimport pandas as pdimport timeimport gcfrom joblib import Parallel, delayedfrom fastpr原创 2022-04-11 10:25:38 · 152 阅读 · 0 评论 -
创建文件前判断文件存在与否
import os.path as ospimport pickle save_file = osp.join(self.data_root, "ch7_cached.pkl")if osp.exists(save_file) and not rebuild: print("Using Cached file: {}".format(save_file)) self._data = pickle.load(open(save_file, "rb"))els.原创 2021-08-23 23:48:44 · 226 阅读 · 0 评论 -
拼接tensor code [torch.cat(sele_nei, dim=0)]
import torchsele_nei = []a = torch.tensor([2, 3, 6, 0, 1])[np.newaxis]b = torch.tensor([4, 3, 6, 0, 1])[np.newaxis]c = torch.tensor([2, 3, 4, 0, 1])[np.newaxis]print("a: ", a)sele_nei.append(a)sele_nei.append(b)sele_nei.append(c)print("sele_nei: .原创 2021-08-04 23:13:32 · 155 阅读 · 0 评论 -
使用Movielens-20m创建DGL异质图
数据:codedef add_MG(): """ 根据MovieID_genreID.csv创建MG边 """ # 当加载csv文件的多列数据时可以使用unpack将加载的数据列进场解耦到不同数组中 filename = "data/Movielens-20m/MovieID_genreID.csv" movies, genres = np.loadtxt(filename, delimiter=",", skiprows=1, usecols=(0, 1),原创 2021-07-13 17:44:05 · 563 阅读 · 0 评论 -
dgl.DGLGraph.multi_update_all的理解
来源:dgl.DGLGraph.multi_update_all — DGL 0.6.1 documentation看这个代码自己琢磨了好久,好像看会了,我说说自己的理解。如果有不同想法的请留言评论一起交流。官方给的函数功能的说明是这样的:意思是沿着边发送消息,首先是逐类型的聚合,然后再跨类型的聚合。官方给了这个例子:我理解的是先分别弄follows和attracts的部分,然后再将这两部分合起来。先看关系为follows部分,涉及到的节点都是user类型,沿着边0--&g.原创 2021-07-12 20:48:54 · 1253 阅读 · 1 评论 -
双向RNN--(GRU)输出什么?
import torchEmbedding = torch.nn.Embedding(num_embeddings=2,embedding_dim=3)GRU = torch.nn.GRU(input_size=3,hidden_size=2,num_layers=1,bidirectional=True)inputs = torch.randint(0,2,(2,3)) # embedding层需检查张量内部具体值的大小,并确保它们的值在有效范围内[0, num_embeddings-1]p.原创 2021-06-05 23:16:36 · 4210 阅读 · 4 评论 -
pytorch笔记---CNN(高级)
减少代码冗余: 封装成 函数/类GoogleNet将Incetion Model单独拿出来看因为它不知道哪种尺寸的卷积核的效果比较好,所以它将各种尺寸的卷积核都包含在内,作为候选。将来哪种尺寸的卷积核效果好的话,它的权重就会比价大。经过每种尺寸的卷积核后,应保证除了C不一样外,其他维度一致。尤其是W,H1×1的conv就是为了改变通道数(卷积后的某位置上的值是相同位置上值信息融合的结果)network in network各分支代码实现沿着通道拼接到一起.原创 2021-06-01 23:19:54 · 131 阅读 · 0 评论 -
pytorch学习笔记---CNN
在做全连接的时候,图像所有行都给拉平成一行,使得俩个距离比较远的值实际在图上上可能是离得比较近的,所以全连接不能保留原始空间信息,丧失原始空间信息。下采样Subsampling后 通道数不会变,W,H会变。Subsampling的目的是减少元素数量,降低计算量每一个filter的channel和原始输入的channel一致filter的个数和输出通道的个数一致torch.Size([1,5,100,100]) 1是batch,...原创 2021-06-01 20:31:40 · 240 阅读 · 0 评论 -
pytorch学习笔记--多层的模型
多分类 注意最后一层不做softmax激活 因为交叉熵loss里包含softmax这一步了view(-1, ) -1是指自动算值一轮训练 就进行一轮测试每10个epoch输出一次 if epoch%10==9 : ...原创 2021-06-01 10:16:30 · 164 阅读 · 0 评论 -
pytorch学习笔记---基础
学习视频:《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibilivisdom 深度学习可视化工具随机梯度下降可以跨越鞍点N个样本随机选一个计算loss,计算出梯度就开始更新权重梯度下降可以并行计算,每个样本计算loss时W是一样的,随机梯度下降样本间的W是有依赖关系的,下一个样本的待更新的W是上个样本更新后的W,所以他不能并行计算。 梯度下降 ...原创 2021-05-31 16:19:16 · 175 阅读 · 0 评论 -
tf.reduce_sum(tensor, axis=-1)
一个很好的介绍的博客:彻底理解 tf.reduce_sum() - 简书 (jianshu.com)代码举例:sess = tf.Session()tensor = [[[ 1 , 2 , 3 , 4], [ 5 , 6, 7 , 8], [ 9 , 10, 11, 12]], [[ 13, 14 ,15 ,16], [ 17 , 18 ,19, 20], [ 21, 22 ,23 ,24]]]import numpy as npc= tf.reduc.原创 2021-05-24 10:40:26 · 1900 阅读 · 0 评论 -
numpy.random.permutation(x.shape[0])
numpy.random.permutation(x.shape[0]) 可以用于随机打散训练数据,同时保持训练数据与标签的对齐numpy.random.permutation(length)用来产生一个随机序列作为索引,再使用这个序列从原来的数据集中按照新的随机顺序产生随机数据集。length 为训练数据的个数example:import numpydata_x = [[1,2,3], [4,5,6], [7,8,9]]data_y = [1,2,原创 2021-05-20 16:20:17 · 885 阅读 · 1 评论 -
安利一门Python超级好课!
安利一门Python超级好课!扫码下单输优惠码【csdnfxzs】再减5元,比官网还便宜!https://marketing.youkuaiyun.com/u/qq_39321513/e/109原创 2021-03-31 19:44:14 · 85 阅读 · 0 评论 -
module ‘community‘ has no attribute ‘best_partition‘ [已解决]
先试一下安装这个包 python-louvainpip install python-louvain如果还是不行的话,把community包卸载,只安装python-louvain这一个包,这个包里面有community库pip uninstall communitypip install python-louvain之后我发现community包就可以正常使用了...原创 2021-03-11 11:20:33 · 692 阅读 · 0 评论 -
jieba自定义词典进行切分
用jieba进行分词时,人名总是切分不出来,比如‘袁今夏’可能会被分成 袁、今夏 或者是袁今、夏,所以我需要提供一个人名表(roles_name.txt),用jieba依据这个表来分词,这样的话“袁今夏”会当成一个整体被分出来jieba.load_userdict('../roles_name.txt')default_mode = jieba.lcut(file, cut_all=False) # 精确模式roles_name.txt 截取了部分...原创 2021-03-09 19:19:24 · 987 阅读 · 0 评论 -
用python分析《锦衣之下》中的社交网络(一)
我有一个社交网络分析的作业,想仿照这篇Python实现《都挺好》社交网络分析做一个《锦衣之下》的社交网络分析。之所以选锦衣之下是因为我简直太喜欢看这部剧了哈哈哈~~嗝~ 咳咳····本来想着下载个原小说对当数据来着,简单粗暴省时省力,但是后来我发现它和电视剧的出入有点大,我又对电视剧更加熟悉,所以我就舍弃了原小说,改用剧情介绍的数据。这只是我作业的第一步,我打算弄一点写一点博客,劳逸结合当放松一下,哈哈,加油~爬取的对象网页是这样的:链接:https://www.juqingba.cn/zjuqin原创 2021-03-06 11:50:14 · 461 阅读 · 2 评论 -
networkx画有向图和无向图
代码和结果如下所示:from matplotlib.font_manager import FontPropertiesimport matplotlib.pyplot as pltimport networkx as nxmyfont = FontProperties(fname=r"C:\Windows\Fonts\STXINGKA.TTF",size=20) #fname指定字体文件 选简体显示中文# 定义图的节点和边nodes = ['0', '1', '2', '3', .原创 2021-03-03 15:41:20 · 9775 阅读 · 4 评论 -
垃圾邮件分类(trec06c数据集)特征分词、特征向量化、模型训练
目录得到全量数据集得到采样数据集模型训练全部代码:结果已完结原创 2020-12-31 16:30:48 · 9853 阅读 · 11 评论 -
垃圾邮件分类(trec06c数据集)数据处理-特征提取
垃圾邮件分类(trec06c数据集)数据处理-1目标:我要提取 发件人(From)、收件人(To)、邮件主题(Subject)、邮件正文(zhengwen) 作为邮件特征,然后输入到线性分类模型中进行训练首先是这四个特征提取的部分发件人收件人邮件主题邮件正文获取 标签--路径 对照表把这一部分的全部的代码放这儿:~~~~~~~~~~~待更新~~~~~~~~~~~~~~~~~~~~~~~~~~~原创 2020-12-31 11:52:01 · 19143 阅读 · 13 评论 -
python爬虫爬取安居客房源信息
爬取安居客房源信息Xpath插件的安装爬取重庆花溪附近的房源信息(进入正题啦~)代码代码的问题 & 运行时可能出现的问题结果数据处理部分(写给我自己哒~)Xpath插件的安装链接:https://pan.baidu.com/s/1T3V11Ev8dPODa2fCRbeuCg提取码:qvzf将这个安装包解压缩打开谷歌浏览器的扩展程序 ----> 打开开发者模式 ----> 点击加载已解压的扩展程序 ----> 选择解压的文件夹看下图操作就会出现这个浏览器导原创 2020-12-24 22:38:05 · 8341 阅读 · 20 评论 -
直方图和核密度函数放在一张图上
直方图和和密度函数放在一张图上,有两种方式,1.使用pandas自带的工具绘制 2. 使用seaborn库绘制1.使用pandas自带的工具绘制要想放在一张图上 需要先把直方图标准化#导包import matplotlib.pyplot as pltimport numpy as npimport pandas as pd # 数据加载data = pd.read_csv('D:/Download/bankpep.csv')data.head()# 客户年龄分.原创 2020-12-10 08:44:10 · 2860 阅读 · 0 评论 -
df.groupby(‘user_id‘).agg(set)
直接上代码import numpy as npimport pandas as pd#定义一个数据框df = pd.DataFrame({ 'user_id': [1, 2, 3, 4, 1, 2, 3], 'class_type': ['Krav Maga', 'Yoga', 'Ju-jitsu', 'Krav Maga', 'Ju-jitsu','Krav Maga', 'Karate'], 'instr原创 2020-11-30 19:17:38 · 1389 阅读 · 0 评论 -
[python] groupby()之后的数据如何显示
直接取groupby后的数据会得到一个地址,看不到里面的数据需要知道groupby返回的是一个迭代器(key, keyvalue),需要for循环提取直接上代码说明import numpy as npimport pandas as pd#定义一个数据框df = pd.DataFrame({ 'user_id': [1, 2, 3, 4, 1, 2, 3], 'class_type': ['Krav Maga', 'Yoga', 'Ju-jitsu', 'Krav原创 2020-11-30 17:22:36 · 24886 阅读 · 12 评论