
python科研数据处理及绘图
文章平均质量分 85
对遇到的实际数据进行数据处理方式的笔记总结,使用python,origin,excel绘制科研论文中常用的数据图形,并对图像的创作过程进行步骤详解,最终直接封装,方便需要时直接调用
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【科研建模】Pycaret自动机器学习框架使用流程及多分类项目实战案例详解
对pycaret的使用流程进行梳理,并详细介绍了基于多分类预测的案例原创 2025-01-21 19:03:50 · 422 阅读 · 0 评论 -
【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理
在进行项目背景介绍时,有时需要使用到有关标准进行背书,因此查询某一行业领域的标准信息就是第一步操作。该项目以海上风电相关标准的查询为例进行介绍,分别采用了get和post方式对于网页信息的爬取,借助集合获取两种查询平台结果的异同处理原创 2024-12-29 15:32:02 · 320 阅读 · 0 评论 -
【科研笔记】中国知网高级检索与专业检索针对同一检索内容返回的结果对比
对中国高级检索和专业检索的结果进行对比原创 2024-08-08 09:14:41 · 839 阅读 · 0 评论 -
【科学文献计量】中国知网(CNKI) 文献素材库生成软件详细使用说明
介绍中国知网(CNKI)文献素材库生成软件的使用过程原创 2024-07-24 09:06:47 · 236 阅读 · 0 评论 -
【python科学文献计量】关于中国知网检索策略的验证,以事故伤害严重程度检索为例
对中国知网检索文献的策略进行验证,在核实过后,发现两种策略下载的数据集内容一致原创 2024-06-03 09:05:14 · 414 阅读 · 0 评论 -
【科学文献计量】利用python将中国知网文献导出的文件整理为文献引用格式+摘要正文,并写入到Word中
利用python将中国知网文献导出的文件整理为文献引用格式+摘要正文,并写入到Word中要求:一级标题为文献数据集介绍;二级标题为文献的引用格式;正文为摘要信息。并对Word进行相应的排版布局原创 2024-04-22 09:07:34 · 711 阅读 · 0 评论 -
【科研笔记】知识星球不可选择内容爬虫
为了解决知识星球中内容不可复制粘贴的问题。进行自动化脚本的开发原创 2024-04-04 11:02:35 · 900 阅读 · 0 评论 -
【科研笔记】Word中同行插入表格和图片(表格和图片放置在同一行)
实现同行多表格和图表的排版设置原创 2024-03-25 10:03:58 · 1603 阅读 · 0 评论 -
【科研建模】Industrial Accident Causal Analysis(Gold prize)
基于数据建模发现:从事故级别来看,一般事故级别的轻微风险很多,但潜在事故级别的严重风险也不少。由于有许多 TFIDF 特征与身体的某个部位相关,具有很高的重要性,特别是许多特征与手有关,如手、左手和右手,因此认为手工作业中的错误与事故的发生和严重程度有关。两者的两个事故的水平被认为不严重的水平下降的第一个和最后一个星期,但严重的水平没有多大变化。有了更详细的信息,如工厂的加工数据(如 CNC、电流、电压)、天气信息、员工的个人数据(如年龄、行业经验、工作表现),我们就能更正确地阐明事故原因。原创 2023-12-05 16:56:30 · 1512 阅读 · 0 评论 -
【科研绘图】将echarts中的散点地图和热力地图融合到同一个地图上
实现散点地图与热力地图的融合原创 2023-10-18 10:47:02 · 536 阅读 · 0 评论 -
【科学文献计量】ChatGPT的api使用及实现上下文处理
本文介绍了基于ChatGPT API 的使用实例,包括模型的选择、max_token设置、以及实现GPT根据用户输入的上下文进行理解后回答的实例原创 2023-10-13 11:08:10 · 410 阅读 · 0 评论 -
【python科研数据处理】将编号的指标删除后,重新排序问题解决([‘1.1‘,‘1.3‘,‘1.4‘,‘2.1‘,‘2.4‘]转化为[‘1.1‘,‘1.2‘,‘1.3‘,‘2.1‘,‘2.2‘])
对于指标删除后,编号重新排序问题的解决原创 2023-08-23 22:11:39 · 173 阅读 · 0 评论 -
【科研总结】职业安全事故严重程度(国内人体损伤程度鉴定标准+国际IOGP-456报告)
事故严重程度通常是按照事故造成的损失来衡量,一般包含3类,人员伤亡、财产损失和环境污染。其中环境污染这个指标具有明显的滞后性和难估性,在研究中通常采用前两个指标。)发布的IOGP-456:Process safety − Recommended practice on Key Performance Indicators。依据国际石油与天然气组织(原创 2023-06-02 12:30:33 · 757 阅读 · 0 评论 -
【科研文献处理】将Web of Science下载的纯文本文件数据导入到Endnote软件中
在文献预览窗口没有显示摘要信息,可以选择打开。点击左上角的Edit菜单栏,选择【Output Styles】中的正在使用的样式,比如这里默认的是Numbered样式,如下然后进入到具体的设置页面,点击【Bibliography】下面的Templates选项,在中间界面中找到【Journal Article】,在下面一行鼠标点击最后面,此时再点击右上角的【Insert Field】按钮在弹出的窗口中勾选Abstract,如果需要显示其它的内容也可以根据需求勾选,如下。原创 2023-04-10 16:03:38 · 1739 阅读 · 0 评论 -
【科研订阅】逐步详解订阅本领域重要的期刊,使其推送新的论文和摘要信息
本文就是以RSS为依据,借助Feedly软件进行期刊发表最新文章的订阅,并实现手机端和网页端的同步。文中详细讲解了关于Gooly play的下载,Feedly软件的下载安装与使用,期刊RSS信息的获取方式。 注意:需要外网连接或者企业学校内网原创 2023-03-28 11:47:12 · 520 阅读 · 0 评论 -
【python科研绘图】多分类多字段箱型图或者小提琴图绘制
1 图形结果 2 数据准备 3 单字段箱型图或者小提琴图绘制 4 两分类单字段箱型图或者小提琴图绘制 5 两分类多字段箱型图或者小提琴图绘制 6 多分类多字段箱型图或者小提琴图绘制原创 2022-12-01 18:57:09 · 1253 阅读 · 0 评论 -
【科研主题检索】借助多方翻译软件,融合给出的研究主题对象的翻译结果确定检索式
0 需要使用到的界面 1 以造船或者造船厂为研究对象 1.1 中国知网翻译 1.2 维基百科查询 1.3 百度百科查询 2 总结归纳关键词 2.1 造船(船舶建造) 2.2 造船厂 3 查询检索词的有效性 4 检索式确定原创 2022-11-25 15:18:47 · 189 阅读 · 0 评论 -
【科研数据处理】[实践]类别变量频数分析图表、数值变量分布图表与正态性检验(包含对数正态)
对论文中统计分析使用的类别变量和数值变量相关的知识点进行复现实操原创 2022-06-29 17:08:52 · 1362 阅读 · 0 评论 -
【科研数据处理】[基础]类别变量频数分析图表、数值变量分布图表与正态性检验(包含对数正态)
对论文中统计分析使用的类别变量和数值变量相关的知识点进行梳理原创 2022-06-29 16:51:27 · 1681 阅读 · 0 评论 -
【python科研数据处理】FuzzyWuzzy模糊匹配在多字段中一一对应匹配的场景应用中拓展(优化)
FuzzyWuzzy字符串模糊匹配算法拓展(优化)1 问题:2 问题解决3 函数完善1 问题:之前在python实现vlookup字符串模糊匹配及在实战中的应用(FuzzyWuzzy库)一文中详细介绍了FuzzyWuzzy的使用,以及封装了模糊匹配的函数,在今天的测试调用中发现了一个问题如下仔细的观察可以发现,这里明明两个字段的数据不是相似或者相同,最后结果竟然匹配上了,原因就是在于之前的那个算法是基于待匹配字段的全部内容(df2),也就是说匹配时是拿左侧的字段的逐一元素(df1),与右侧的待匹配的全原创 2022-04-21 16:22:34 · 1489 阅读 · 0 评论 -
克拉克松Clarkson Research情报网注册登录及进行数据查询(以世界造船厂分布为例)
克拉克松Clarkson Research情报网注册登录及进行数据查询步骤梳理(以世界造船厂分布为例)1 克拉克松介绍2 克拉克松情报网3 账户注册登录4 信息查询1 克拉克松介绍Clarksons Research is a global market leader in the provision of data and intelligence across shipping, trade, offshore and energy克拉克松研究公司是一家在航运、贸易、离岸和能源领域提供数据和情报的原创 2021-11-23 10:51:22 · 9084 阅读 · 8 评论 -
【数学建模】统计领域的逻辑回归(分类变量相关性检验、优势比OR、包含分类变量的多元逻辑回归)
统计领域的逻辑回归0 指导方针1 分类变量之间的相关性检验1.1 分类变量相关性的示例1.2 列联表分析1.3 信用风险建模案例1.3.1 制作两分类变量交叉表并求解交叉频率1.3.2 相关性判定1.3.3 p值与𝛼 显著性水平1.3.4 卡方检验1.4 优势比(Odds Ratios)2 一元连续变量逻辑回归2.1 逻辑回归模型由来2.2 衍生变量生成2.3 数据采样与划分2.4 模型创建2.5 模型预测3 模型表现优劣的评估3.1 一致对于非一致对3.2 ROC曲线与AUC面积3.3 阈值调整与评估指标原创 2022-04-03 16:10:38 · 2373 阅读 · 0 评论 -
【python科研绘图】绘制饼图同时显示实际数值和占比情况,最后直接封装为函数调用
绘制饼图同时显示实际数值和占比情况,最后直接封装为函数调用1 需求1 需求在做论文进行分析结果时候,经常用到饼状图,除了显示占比情况和标签外,还想要尽可能多的表现出饼图中的内容,于是就可以加上实际数值和图例,...原创 2022-04-01 21:10:00 · 4662 阅读 · 0 评论 -
【python科研绘图】绘制同y轴双侧柱状图,且y轴位置在坐标为0的位置,左右x轴均为正值
绘制同y轴双侧柱状图,且y轴位置在坐标为0的位置,左右x轴均为正值1 背景2 问题解决手动反爬虫:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/122371273 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息本文为付费内容,禁止转载1 背景同y轴双侧柱状图前面已经绘制完成后,而且这个专题的图片就是同y轴双侧柱状图,类型如下但是存在一个问题就是没有办法完成x轴左侧的刻度变成原创 2022-01-07 20:04:44 · 1424 阅读 · 0 评论 -
【python科研数据处理】将Endnote自动搜索的所有pdf文件,全都移动指定文件夹中
将Endnote自动搜索到的全部pdf文件,全都移动指定文件夹中1 背景2 问题解决手动反爬虫,禁止转载:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/122370892(优快云博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 背景在进行期末考试周后,面对最后一门功课,需要提交至少80篇SCI参考文献,因此最快下载文献的方式就是通过Web of S原创 2022-01-07 19:47:43 · 1620 阅读 · 0 评论 -
【科研数据处理】逐步讲解Word2019中公式居中以及编号靠右设置
Word2019中公式居中以及编号靠右设置1 准备2 设置编号靠右对齐3 公式居中手动反爬虫,禁止转载:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/122354070(优快云博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 准备针对于Word为2019版本,新建一个空白的Word文件,如下然后任意插入两三行公式,操作步骤如下。然后在公式框原创 2022-01-06 22:40:59 · 2771 阅读 · 0 评论 -
基于DataFrame两字段使用pyechaerts绘制网络关系图,并封装函数直接调用
基于DataFrame两字段使用pyechaerts绘制网络关系图,并封装函数直接调用1 背景2 数据准备3 图形绘制全部代码4 注意要点5 补充数据手动反爬虫,禁止转载:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/121160765(优快云博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 背景在进行数据可视化的过程中,有时会发现涉及到多字段的相原创 2021-11-05 13:01:03 · 404 阅读 · 0 评论 -
Word中插入Endnote设置指定期刊参考文献样式(逐步操作讲解插入期刊和网页文献)
Word中插入Endnote设置指定期刊参考文献样式1 Endnote设置指定期刊参考文献样式2 Word中插入指定文献2.1 插入论文2.2 插入网页1 Endnote设置指定期刊参考文献样式首先查看Endnote软件中的输出文献格式中是否有Safety Science的期刊文献格式。查看方式如下,选择输出样式的下拉菜单,目标期刊是以S开头,就拖动滚动条到S附近,如果存在就不需要在进行设置,显然自带的501种输出样式中没有我们想要的期刊格式因此就需要自己指定。此时退出当前样式选择的窗口,点击End原创 2021-10-15 11:34:12 · 2816 阅读 · 0 评论 -
【科研数据获取】根据Excel表个中的企业/公司信息批量获取经纬度坐标,并进行地图可视化
批量获取企业/公司的经纬度坐标,并进行地图可视化1 需求2 实现途径3 需求逐步实现1 需求在做项目的时候,老板或者项目答辩时候甲方最喜欢看到的就是可视化结果,尤其是涉及到地图可视化。很多时候会遇到企业/公司的数据,想要做地图可视化,必不可少的就是要获取它们具体地址:第一种就是像查户口一样精准一下具体的城镇街道,还有一种就是经纬度信息,前一种属于文字内容往往用于管理方面,第二种数字信息多用于数据处理与分析。2 实现途径获取地理信息数据,自然需要使用到地图的功能,这里直接采用百度地图的拾取坐标系统,原创 2021-06-22 09:09:03 · 2043 阅读 · 0 评论 -
【科研数据获取】将仅支持在线浏览的国家标准下载到本地并保存为pdf文件
将仅支持在线浏览的国家标准下载到本地并保存为pdf文件1 需求2 需求解析3 需求实现5 文件使用小技巧本文声明: 文章的梳理只是为了方便自己进行标准的下载,研究学习之用,方便保存代码,不用作其它用途。1 需求有时候在写文章或者做项目的时候,经常需要一些国家的法律法规作为支撑,因此对于很多搞管理的小伙伴对于国家标准全文公开系统就会很熟悉,特别是一些最新更新的法规标准,但是有些强制性国家标准仅支持在线阅读,有时候不再电脑前面或者断网工作是需要用到这些标准,于是就有了想把文件下载到本地需求2 需求解析原创 2021-06-21 10:40:26 · 6853 阅读 · 0 评论 -
【科研数据生成】生成指定正负相关的多列多行数据,并增强变量之间的相关性
生成指定正负相关的多列多行数据1 需求2 需求解析3 需求实现4 相关性增强1 需求在做研究中,可以会对某一现状或者是自己要做的模型前提有一个假想的情况,因此就需要生成指定正负相关的多列多行数据进行验证,具体的需求也是来自一位学医的朋友,如下2 需求解析要求:生成三列数据,疾病感知与健康素养成负相关,疾病感知与自我效能成负相关已有的条件:知道对应变量的均值和标准差需求解读:很显然疾病感知建模时候是因变量,其余变量就是自变量,这三个变量具体均需要来自调查问卷,所以为了方便被调查填写,一般都是设置原创 2021-06-21 08:54:10 · 810 阅读 · 0 评论 -
【科研数据处理】DataFrame中标记空值为0,非空值为1
DataFrame中标记空值为0,非空值为1测试数据如下,可以自己指定,由于在数据处理过程中遇到了需要进行非空的处理处理的思路是较为简单的,可以先填充然后在针对非填充的数值再进行替换,需要使用到fillna()的方法,然后就是apply()函数的使用了同理对于非时间的转化也是一致还有一种方式,我自己较为常用的,就是如论如何都可以对单元进行字符串转化,最后空值也会有字符串的表现形式,然后判断如果不等于这个形式就标记为1,是这个形式就标记为0,比如时间非时间的数据,对应的空值的字符串的形式是不原创 2021-06-11 16:07:41 · 1835 阅读 · 1 评论 -
【数学建模】线性回归残差检验、影响点分析、多重共线性问题及问题总结
线性回归检验1 背景需求2 残差分析3 python实操4 强影响点问题5 共线性问题6 线性回归问题总结1 背景需求之前进行了线性回归模型的创立,并进行了预测,但是存在一个问题,为什么模型之后的得分提高了,背后是因为什么?最开始数据是右偏的,最后进行了调整,取了对数,整个模型的得分就上去了。也就是说线性回归对正态分布的数据会有很好的表现,但是不是正态分布的时候,模型得分不是很好这时候我们再来回顾一下多元线性回归的前提条件,有了之前的实际操作,熟悉一遍流程之后再回来看看要进行的前提,这样会有一个更容原创 2021-05-02 11:22:04 · 1193 阅读 · 2 评论 -
【数学建模】二手房房价影响因素分析(描述性统计+推断统计综合应用、线性回归预测分析)
线性回归1 背景与目标方针2 python代码实现2.1 单变量回归2.2 多变量回归2.3 变量筛选方法1 背景与目标方针前提背景前面有了描述性统计对数据的分布和占比有所了解,并且确定了有关的字段之间是相关联的,那么接下的任务就是找到这个关联的式子,得到我们熟悉的那个等式:y = f(x)函数等式关系目前遇到的函数等式关系,可以归纳为三类:y=β1xy = \beta_{1}xy=β1x 直线关系y=β1x+β2x2y = \beta_{1}x + \beta_{2}x^{2}y=β1原创 2021-05-01 16:51:43 · 3416 阅读 · 1 评论 -
【数学建模】随机抽样的三种方法(简单随机抽样、分层抽样、系统抽样),自定义封装函数直接调用
随机抽样的三种模型(简单随机抽样、分层抽样、系统抽样),自定义封装函数直接调用1 抽样方法2 抽样函数3 python实操3.1 简单随机抽样3.2 分层抽样3.3 系统抽样4 总结1 抽样方法具体的抽样方法有三种。即简单随机抽样、分层抽样和系统抽样。有些时候抽样不是一次性就可以完成的,就需要我们安排多次数据的抽取,比如在全国范围内选择一定数量的用户作为试点调查,无法直接一次性就完成了,故需要分阶段进行。那么关于抽样的选择可以按照下图进行简单随机抽样:顾名思义就是简单随机抽,给定个数值或者比例,就按原创 2021-05-01 12:46:06 · 5075 阅读 · 0 评论 -
【推断统计学】参数估计、单/两样本T检验、单/多因素方差分析,卡方检验
推断统计学1 核心要点2 参数估计3 参数估计的python实现4 假设检验5 假设检验python实现1 核心要点之前在描述性统计中介绍了变量的类别,通过描述性统计分析可以发现变量之间会存在差异,那么这些差异是不是有意义呢?就需要用到推断统计学的知识了。那么对于推断统计学中,先把方针明确就少走弯路了。主要针对变量的两种类别(分类和连续)掌握下表关系,那么推断统计学也就不迷糊了灵魂问题:如何判定两个变量有关系?假定以一个分类一个连续变量为例,性别和身高。我们要判断这两个变量之间是不是有关系,那么原创 2021-04-30 17:45:52 · 782 阅读 · 0 评论 -
【描述性统计学】描述性统计分析与可视化,以及python代码实操
描述性统计分析与可视化1 变量的度量类型2 针对变量类型逐个击破2.1 名义变量2.2 连续变量2.2.1 连续数据的位置2.2.2 数据的分散程度2.2.3 偏态与峰度3 描述统计总结与实践3.1 描述统计总结3.2 python实现3.2.1 加载数据3.2.2 数据清洗3.2.3 单分类变量计数3.3.4 单分类变量分析及可视化3.3.5 单连续变量描述3.3.6 多分类变量表分析与可视化3.3.7 分类+连续变量分析及可视化3.3.8 多连续变量分析及可视化4 总结4.1 分类变量4.2 连续变量原创 2021-04-26 21:55:08 · 1137 阅读 · 0 评论 -
【数据处理】python求解线性规划步骤详解(scipy和pulp使用),并封装求解过程直接调用
python求解线性规划步骤详解1 需求2 前提准备3 线性规划的三种问题形式3.1 约束条件为不等式约束3.1.1 调用scipy模块进行python代码求解3.1.1.1 内点法求解3.1.1.2 单纯形法求解3.1.1.3 修正单纯形法求解3.1.2 调用pulp模块进行python代码求解3.1.2.1 准备工作3.1.2.2 确定要解决的问题3.1.2.3 构造决策变量3.1.2.4 构造目标函数3.1.2.5 确定约束条件3.1.2.6 模型求解3.1.2.6 模型求解参数输出3.2 约束条件原创 2021-04-01 22:55:36 · 1205 阅读 · 0 评论 -
【python科研数据处理】pandas添加一行一列汇总,并自定义列名和行标签
pandas添加一行一列汇总,并自定义列名和行标签1 实际需求2 一步到位3 数据与实战手动反爬虫:原博地址 https://blog.youkuaiyun.com/lys_828/article/details/114819165 知识梳理不易,请尊重劳动成果,文章仅发布在优快云网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息本文为付费内容,禁止转载1 实际需求在处理数据的时候发现:往往要对一行或者一列的数据进行汇总,这时候就有了按行求和或者按列求和的需要,同时也要定义一下行名(标签名)和列原创 2021-03-15 09:53:26 · 3475 阅读 · 4 评论 -
【python科研绘图】双y轴并列柱状图+折线图+数据表结合,并封装图形绘制函数
双y轴并列柱状图+折线图+数据表结合1. 论文原图2 数据准备1. 论文原图这种图形包含了数据的对比(并列柱状图),还可以表示严重度(折线图),最后还能清晰地将对应的数据展示出来(数据图表),整体图形呈现了很丰富的信息,使用python制作的图形如下2 数据准备需要知道每年的事故数量,伤亡人数即可,其中RCAN就是伤亡人数和事故数量的商值。数据呈现如下:...原创 2021-03-11 21:55:23 · 3274 阅读 · 1 评论