
Python
文章平均质量分 51
Icy Hunter
如果我真的存在,也是因为你需要我
展开
-
将doc中的表格转为df的python程序
【代码】将doc中的表格转为df的python程序。原创 2024-06-17 14:30:50 · 329 阅读 · 0 评论 -
python使用os批量读取、删除、修改、保存文件的操作
由于在日常数据处理中,我们可能需要批量对文件进行操作,接下来将详细介绍如何使用python的os对进行批量删除、修改、保存文件的操作假设我需要对文件夹A的文件进行操作,先编点数据:A文件夹中有这么些文件。其中txt文件内容编点:别的就空着了。原创 2024-03-15 12:59:27 · 896 阅读 · 0 评论 -
使用Python读取markdown文件并统计字数
因为大数据的大作业是整理这个学期所学的东西,还要求最低字数不低于3000字,不然就不及格,并且要求用md文件格式,我写好了之后,就是翻来覆去不知道咋统计这个字数,下来VScode统计字数的插件,发现对中文的字没用,并且我感觉代码应该不会被算到字数里吧,因此网上搜了好久,未果,于是才想起来,为啥这东西不能自己来做呢?原创 2022-12-23 22:26:00 · 1992 阅读 · 1 评论 -
python的print输出在控制台并且将输出内容保存为文件
深度学习log日志还是蛮重要的,print出来还不够,还得保存一下,目前找到的最方便的就如下所示了。原创 2022-12-02 21:05:15 · 3337 阅读 · 5 评论 -
python的一些函数或者用法
python的一些函数或者用法1.读取txt文件2.map函数3.zip函数1.读取txt文件 import codecs result = [] with codecs.open("文件名.txt", "rb", 'utf-8', errors='ignore') as txtfile: for line in txtfile: line = line.replace("\r", "") # 去除\r line =原创 2022-03-02 11:09:37 · 1053 阅读 · 0 评论 -
python的re库的一些用法和理解
python的re库的一些用法和理解1 re.sub()2 re.findall()3 re.compile()1 re.sub()这个函数可以用来替换字符串中的制定字符# coding: utf-8import retexts = "dawdada"text1 = re.sub('a', "%", texts)text2 = re.sub('d', "", text1)print(text1)print(text2)运行结果不仅如此,re.sub()还能够匹配到制定的模板之后,将原创 2022-02-27 12:00:22 · 2028 阅读 · 0 评论 -
pandas一些常用函数以及操作的使用和理解(持续更新)
pandas库的一些用法1.创建DataFrame2.dataframe.columns(更改列名)3.dataframe列索引、行索引4.dataframe存、读存csv文件1.创建DataFrameimport pandas as pdimport numpy as npf = pd.DataFrame(np.arange(20).reshape(4, 5), index=["c", "a", "d", "b"])print(f)结果2.dataframe.columns(更改列名)原创 2022-02-11 00:08:51 · 6951 阅读 · 0 评论 -
关于pytorch模型保存与调用的一种方法及一些坑。
报错一:RuntimeError: Error(s) in loading state_dict for lstm_model:Missing key(s) in state_dict: “lstm.weight_ih_l0”, “lstm.weight_hh_l0”, “lstm.bias_ih_l0”, “lstm.bias_hh_l0”, “lstm.weight_ih_l1”, “lstm.weight_hh_l1”, “lstm.bias_ih_l1”, “lstm.bias_hh_l1”, “原创 2022-01-29 16:29:37 · 2117 阅读 · 0 评论 -
python实现因子分析及用于综合评分且配上碎石图(实例分析)
由于感觉因子分析不是很懂,因此又通过python把因子分析(factor analysis)案例(matlab实现)这题又给打了一遍。这里加上了碎石图,用来选择辅助选择因子个数,但是我感觉这里没啥用吧。这里可能由于数据标准化的方式有些不同,因此计算出来的数值和之前那个不太一样,但是综合评分的排名还是一样的。数据的话我上传到资源里了,因为有一次聚类数据太大了,博客里放不了,因此就想着试试上传资源了。数据链接:https://download.youkuaiyun.com/download/qq_5278547原创 2022-01-27 22:48:06 · 4750 阅读 · 2 评论 -
K-Means聚类及调用sklearn库代码实现
K-Means聚类又叫做K均值聚类,即将n个样本分到k个类中,每个样本到其所属类的中心的距离最小。由于每个样本只能属于一个类,因此也是属于一种硬聚类。基本原理:输入k值,代表将总样本分到k个类中。开始随机选择k个样本点作为聚类中心。将所有样本点之外的点计算到各个聚类中心的距离(欧式距离等),选择最近的样本中心然后合并成一类。根据划分好的k类,各自计算出新的聚类中心,即到当前类各个样本点距离最短的点(注意此时的聚类中心就不一定是样本点了)再次进入3计算新聚类中心的各类(注意此时一开始被规定的聚类原创 2022-01-26 13:14:24 · 3015 阅读 · 0 评论 -
基于词向量使用Pytorch常规自编码器对句子进行向量表示与降维
其实句子建模进行向量化表示,应该使用递归自编码器比较合理,即基于句法树或者误差最小的原则词两两之间进行重构,重构后的再继续与剩下的进行重构,道理大概都懂,但是理论和实际还是有差距的,因为我目前还没有找到实例,找了些论文里面说的也是模模糊糊,因此我还无法使用递归自编码器实现句子建模,但是我发现许多实例是对手写数字图片进行自编码器的降维,因此我斗胆有了以下思路:1.使用jieba切词然后使用word2vec训练词向量,每个词词向量维度v为1282.计算每个句子词数多少,然后根据数量分布取每句的词数d为11(原创 2022-01-23 10:56:53 · 1522 阅读 · 0 评论 -
使用jieba对新闻标题进行切词,然后使用word2vec训练词向量及相似词计算的一个小例子
这个主要是我想记下来方便以后用的时候好直接copy这个例子就是跑流程的,里面的参数都是随便设的,效果不怎么好,但是流程总得跑通吧。首先是停用词表见https://blog.youkuaiyun.com/qq_52785473/article/details/122639365?spm=1001.2014.3001.5502然后是数据2022-1-21-21.csv文件如下(例子里就使用了新闻标题):时间,新闻标题,URL,新闻内容(01月21日 00:03),30万股民沸腾!5家中企获准免费仿制新冠口服药,原创 2022-01-22 17:38:20 · 784 阅读 · 0 评论 -
常见的停用词表
复制到csv文件用pandas直接读即可0我们】【","!会这一进一步的日月""""#$%&'()*+","---................................/.一.数.日///0123456789:://::;<=>>>?@ALex[\]^_`expsubsup|}~~~~~·××××ΔΨγμφφ原创 2022-01-22 16:25:38 · 1110 阅读 · 0 评论 -
4000+股票从上市到现在的数据(最高价、最低价、换手率等)以及其他大量的金融数据
通过学长的引荐发现了个好东西aksharehttps://www.wenjiangs.com/doc/akshare-stock里面有大量免费的金融数据,直接调用接口就好了需要安装终端输入下面代码运行就好了,如果有bug请参考上面链接里的安装指导吧pip install akshare -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com --upgrade下面直接上代码,运行运行一下就懂了原创 2022-01-21 13:21:21 · 1061 阅读 · 0 评论 -
XPath学习用于爬虫,感觉比beautifulsuop好用一点
XPath就是通过树结构来定位元素获取标签下的文本是用text()还有最大的优点是能够直接通过谷歌浏览器的开发者工具直接复制XPath路径例如想要获得“加粗”这两个字在当前页面的XPath路径首先打开谷歌浏览器打开csdn的创作界面,然后按F12右边出现框框的左上角的箭头点击一下之后再去点击“加粗”就会发现左边的框框跟着定位到了这个元素所在的html层此时只需要单击右键选择XPath路径复制即可我选择完整XPath路径复制结果如下/html/body/div[1]/div[原创 2022-01-20 23:12:17 · 973 阅读 · 0 评论 -
sklearn回归模型流程(以SVR为例)
当有很多模型可以选择,而又不太确定哪个模型比较好的时候,就直接一个一个试过去好了。写了一个我认为的回归模型一般需要的过程。其中有归一化、反归一化、均方误差、拟合曲线、预测曲线等,还有什么需要稍微改改就好了吧。代码如下:# coding: utf-8import numpy as npfrom sklearn import svmimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.preprocessing im原创 2022-01-19 11:49:14 · 5375 阅读 · 5 评论 -
pyinstaller打包torch出现OSError: could not get source code、pkg_resources.DistributionNotFound
记下主要怕以后自己忘记首先打包先建一个虚拟环境,就装上打包的python需要的包,这样打包起来错误可能会少点,而且速度也会快些,大小也可能小些,如何创建可以参考我的另一篇博客https://blog.youkuaiyun.com/qq_52785473/article/details/122543935?spm=1001.2014.3001.5501如何导包的时候,也尽量用什么导什么例如需要用pandas的读文件功能from pandas import read_csv即可这样可能对打包的性能也有所提升打包原创 2022-01-18 00:34:57 · 6161 阅读 · 9 评论 -
Anaconda创建虚拟环境+Pycharm使用Anaconda创建的虚拟环境
首先需要下载anaconda然后在搜索栏中搜索Anaconda Prompt(anaconda)点击进入进入到envs目录然后输入以下命令:conda create -n to_pack python=3.7创建一个名为 to_pack且python版本为3.7的虚拟环境输入y表示同意能进去,这样就算创建完成了。通过路径也能直接找着这个文件下面将环境配给pycharm。打开pycharm然后单击设置settings找到python编译器配置的地方,点击右边的齿轮出现列表中的原创 2022-01-17 17:31:10 · 18757 阅读 · 5 评论 -
解决pip网速太慢而安装失败的问题
增长响应时间即可pip --default-timeout=1000 install 包名原创 2022-01-15 23:14:58 · 445 阅读 · 0 评论 -
python的py文件打包exe可执行文件(传参+读取文件)
python打包成可执行文件用pyinstaller即可完成但是如果需要考虑传参和读取文件,就显得不是那么丝滑了。(找了蛮久才解决的)下面将展示如何完成打包后的exe文件实现能够传参+读取文件首先在同一目录创建两个文件test.txt的内容如下:aaaa.py的内容如下:import osimport syspath = os.path.dirname(os.path.dirname(os.path.realpath(sys.executable))) # 使得打包后能够获得运行时得原创 2022-01-15 20:18:40 · 7752 阅读 · 3 评论