- 博客(55)
- 资源 (5)
- 收藏
- 关注
原创 sql学习笔记(三)
问题:编写解决方案,找出与之前(昨天的)日期相比温度更高的所有日期的 id。2. 此时需要一个日期比较函数datediff()来找出相差一天的日期。1. 先把表与自身进行关联,这样就可以进行横向的比较。今天在力扣看到一个sql题,比较有意思,分享一下。没有具有相同 recordDate 的不同行。原题目:197. 上升的温度。id 是该表具有唯一值的列。该表包含特定日期的温度信息。现有表:weather。
2025-03-04 14:32:51
168
原创 sql学习笔记(二)
'on'是最常用的连接条件关键字,用于显示指定连接的字段。'using'是一种简化的连接条件关键字,用于连接两个表中国同名的字段。如果你需要连接两个表中同名的字段,并且希望结果中只显示一次该字段,使用'using'更简洁。如果你需要连接不同名的字段,或者需要更复杂的连接条件,使用'on'。'on'是更通用的选择,而'using'是一种简化的语法,适用于特定场景。
2025-03-03 17:12:58
463
原创 一个强大的LLM微调工具 LLaMa-Factory:手把手教你从零微调大模型
LLaMa-Factory项目定位是微调工具,目标是整合当前主流的各种高效训练微调技术,适配市场主流的开源模型,形成一个功能丰富,适配性好的训练框架。本次记录基于自身使用llama-factory,简单记录从环境部署到训练及推理的过程。
2025-01-03 16:46:08
2008
原创 python-字符串中大写字母转小写,小写字母转大写
但是如果想把字符串中的大写字母转成小写,小写字母转成大写,上面两个函数就不再适用了,如下代码,函数ord是用于返回一个字符的unicode编码,大写字母A-Z比小写字母a-z小32,利用大小写字母的unicode编码进行转换,chr函数则是把相应的unicode编码转换为字符。
2024-11-08 19:32:41
937
原创 python-斐波那契数列
这个数列的特点是,除了第一个和第二个数外,任何一个数都是前两个数的和。在计算机科学中,斐波那契数列用于算法设计,如斐波那契堆(Fibonacci heap)是一种高效的数据结构,用于图算法和优先队列。斐波那契数列因其独特的性质和广泛的应用而闻名,它不仅是数学上的一个有趣现象,也是自然界和人类文化中的一个重要模式。斐波那契数列在自然界中频繁出现,例如在植物的叶序和花的排列中,以及在动物的繁殖模式中。F(n) = F(n-1) + F(n-2),对于 n>=2,其中 F(n) 表示数列的第 n 项。
2024-11-07 16:49:57
542
原创 hivesql学习大纲
DML(数据操作语言):INSERT, SELECT, UPDATE, DELETE等。- DDL(数据定义语言):CREATE, DROP, ALTER, TRUNCATE等。- DCL(数据控制语言):GRANT, REVOKE等。- 记录个人项目中使用HiveSQL的经验。- 描述几个实际的Hive应用案例。- 分析案例中的HiveSQL使用。- 收集和回答学习过程中的常见问题。- 常用HiveSQL命令和示例。- Hive与传统数据库的区别。- 简述Hive的用途和特点。
2024-10-24 23:58:37
545
原创 pymysql.err.DataError:1366, “Incorrect string value“问题解决
报错1366,主要是处理emoji时,编码问题造成的,在mysql8里面,字符集默认就是utf8mb4,已经支持emoji,python3默认就是utf8,utf8mb4时utf8的超集,mb4是most bytes 4的意思,专门用来兼容四字节的unicode,处理emoji时需要字符集支持unicode,utf8mb4是没问题的,但是uft8不可以。都修改完之后,再运行程序,问题解决。通过网上资料查询,最终解决了问题。
2023-07-28 18:00:05
4420
原创 MacBookPro 安装cx_Oracle,并配置环境
本机系统:macOS Monterey 版本 12.5Anaconda版本:Anaconda3-2022.10-MacOSX-x86_64.pkgpython版本:3.9.13mac下安装cx_Oracle比较简单,直接打开终端。
2022-11-22 10:26:50
2593
原创 应用时间序列--前序
时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为四种类型。(1)、趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不相等。1、时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。
2022-10-24 23:44:42
719
原创 MySQL数据库中时间戳及时间戳的格式转换
结果如下,需注意的是:Times列为我数据库中的时间戳数据,可看到其为13位数,并且为字符串格式,在使用from_unixtime()函数时,需把其转换为数字,并且改为10位数,才能进行转换,date1默认的日期格式便是date2中指定输出的日期格式;时间戳是指格林威治时间自1970年1月1日(00:00:00 GMT)至当前时间的总秒数。date_format:不填写的话,默认为 "%Y-%m-%d %H:%i:%s"格式。常见有10位(单位:秒)和13位(单位:毫秒)。
2022-09-07 14:33:04
47594
原创 python学习笔记之explode()函数
详情可查看官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html。函数作用:将类列表的每个元素转换为行,实现列转行的功能,可处理列表、元组、Series等类型。Step2:将被explode的列的元素,变为list like。Step1:构建测试数据。......
2022-08-26 14:16:18
6784
6
原创 sql日期格式转换
现数据库导入一批数据的日期格式为(01-1月 -19 06.44.44.000000000 下午)如图:为方便我们进行操作,需要把此日期格式进行转换:转换后效果如下:
2022-08-24 15:10:00
6874
原创 unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS
unable to extend temp segment by 2048 in tablespace DATA_ANALYSIS
2022-08-24 15:08:46
396
原创 python中@staticmethod静态方法小解
背景开始看到python中staticmethod方法时也不是很理解,上手敲一敲发现带不带@staticmethod,没啥明显区别,就上网搜一搜资料,简单整理记录下。先看没有使用staticmethod时,要先实例化对象,才能调用其方法,否则便会像第二张图一样报错;再来看使用staticmethod方法时此时可以发现,方法run的参数并非是self参数,改成self参数后如下会报错,此时的run方法不能访问类的属性;小结python中@stati.
2022-05-24 17:41:39
1371
3
原创 Oracle中时间相减得到天、时、分等
背景:数据库中有两个字段如下:现在想通过这两个字段得到分钟数,通过观察两种日期格式为:'年月日时分秒',我们需要先把字符串转换成日期格式,使用to_date函数,对应的字符串格式为'YYYYMMDDHH24MISS',转换如下:此时把time_out和time_in都进行转换并相减,结果如下:select TIME_IN,TIME_OUT,(to_date(TIME_OUT,'YYYYMMDDHH24MISS')-to_date(TIME_IN,'YYYYMMDDHH24MIS
2022-05-04 11:55:31
17111
原创 dataframe直接写入数据库
背景:在用python做一些分析任务时,尤其是一些定时任务,经常需要把数据结果写入到数据库中,方便他人使用,以往经常使用的方法是遍历每条数据,然后插入到数据库中,现在记录另一种方式,"to_sql",把dataframe直接存入数据库实现方式:对于mysql库import pymysql as psqfrom sqlalchemy import create_engine# username、passwd 数据库账号密码# 192.168.3.10 1540 数据库的ip和端
2022-04-20 10:05:12
5258
原创 python使用smtplib库实现自动发送邮件
需求场景:很多时候我们需要对服务器上的某些任务的运行状况进行预警,或者跑出结果来需要第一时间拿到结果,此时在可以链接外网的情况下,我们便可以利用python的smtplib库实现自动发送邮件。实现代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@File : email_test@Time : 2022/01/13 14:17:31@Author : Wang Yu'''import smtplibf
2022-01-13 15:11:17
739
原创 pycharm使用小技巧-插入代码/默认模板
每次用pycharm写代码的时候前面几行代码都要重复写,作为一名新生代民工,对于这种重复性工作当然是能省略就省略的了,未设置前,我们新建一python文件都是空白的,如下图而设置好之后的样子如下,新建之后便是我们想要的模板设置步骤如下,先找到Preferences,然后按照如下右图的步骤,在第三步的地方写上自己需要的内容便可。...
2022-01-06 01:00:24
1262
15
原创 python学习笔记之读取word文件库docx
前面记录了两篇python操作pdf的文章,今天整理下python操作word文档的库docx,我遇到的需求是提取word中的文字内容,并匹配一些特定字符串,接下来先安装:pip install docx # 经过测试,我直接安装docx,后续也能正常使用# 在网上查找资料的时候,看网上很多人写的是要安装 python-docxpip install python-docx所以当我们遇到问题是,第一种安装方式如果行不通的话,就按照第二种方式来,我们是以结果为导向,以解决问题为目标。接下来
2021-12-23 11:18:49
1679
原创 记一次Oracle数据库去重数据,rowid,row_number(),partition by
问题描述因为周末几天的数据库出了点问题,在补充几天数据的时候,忘记更改了日期,导致补充到数据库的数据多了一些重复数据,如下图所示:解决办法经过资料查找,用到了rowid, row_number(), partition by,rowid是Oracle数据库特有的,是一串随机生成的字符串,用来表示特定的某一行,如下图,rid作为每一行的唯一id标识:此时再用row_number() 结合partition by 添加一列排序列,然后作为条件筛选rid,如下:select ..
2021-12-21 11:17:14
1280
原创 jupyter notebook 报错信息 ModuleNotFoundError: No module named jupyter_nbextensions_configurator
问题描述平台:windows 10专业版, anaconda3在启动jupyter notebook时,有报错信息,如下:ModuleNotFoundError: No module named jupyter_nbextensions_configurator虽然,jupyter lab 打开还能继续用,但出现报错信息始终是个隐患,于是经过查找资料,找到了以下解决方案解决办法python -m pip install --user jupyter_contrib_nbexte..
2021-12-16 12:48:00
6460
4
原创 python读取json文件报错“AttributeError: ‘str‘ object has no attribute ‘read‘”
遇到问题:在使用python包json,load文件时,报错:AttributeError: 'str' object has no attribute 'read'import jsondata = json.load("社区图层_wgs84_修正街道ID.geojson",encoding='utf8')具体问题如下截图解决办法:import jsonwith open("社区图层_wgs84_修正街道ID.geojson",encoding='utf8') as f..
2021-12-15 14:06:55
5697
原创 python学习笔记之读取pdf文件库pdfminer(二)
上一节中介绍了抽取PDF文本及表格的库pdfplumber,今天介绍另外一个PDF解析库:pdfminer安装pip install pdfminer3k# 或者利用国内镜像源来获取pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfminer3k注意:python2中是pdfminer,python3中是pdfminer3k读取PDF文本在网上搜了一圈的资料,实现代码如下:from pdfminer.pdf
2021-12-10 16:45:50
4239
原创 python学习笔记之读取pdf文件库pdfplumber(一)
python现在处理word、Excel、pdf等文档有很多的库,今天学习一个处理pdf的库:pdfplumber,主要学习提取文本内容和表格。安装pip install pdfplumber提取文本 extract_text()import pdfplumber# 打开一PDF文档,比如打开《浪潮之巅》pdf = pdfplumber.open('浪潮之巅.pdf')# 提取第一页的本文内容text = pdf.pages[0].extract_text()print(tex
2021-12-07 14:56:21
3095
1
原创 python可视化之matplotlib散点图(二)
散点图的语法为plt.scatter(),其参数和折线图的参数设置基本一致import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.figure(fi
2021-11-29 15:35:40
412
原创 python可视化之matplotlib折线图(一)
python可视化学习笔记之matplotlib,先从最基本的折线图开始学习记录。1、最基本的折现图import matplotlib.pyplot as plt# 数据x = [1,2,3,4,5,6,7,8,9,10]y = [2,3,5,4,6,8,12,13,14,15]plt.plot(x,y)plt.show()但平时在我们的使用过程中通常会调整图的各种格式,比如,颜色、线条形状、透明度、大小、标题等等,接下来对折线图的各种格式进行调整,翠花,上酸菜~2、设.
2021-11-28 20:57:15
2489
原创 python爬虫之以腾讯招聘为例,爬取动态页面
以腾讯招聘网站为例,打开网站,搜索“python”,返回页面如下:把鼠标光标放在我们要查询的岗位上,然后右键--->检查,点击network,然后刷新,其中XHR返回的便都是动态链接,其中不同于以往的网站,我们所要查找的数据不在response中,而是存放在preview中,如下图:此时再查看齐请求链接,链接较长,其中有很多的参数,具体的参数都存放在Query String Parameters中,如下:其中,timestamp为时间戳,10位表示秒(1970年1月1日 0时0..
2021-11-24 00:57:40
1983
原创 python爬虫之利用pyquery爬取当当网图书信息
初学爬虫, 根据课程学习python爬虫,老规矩,先不管三七二十几,先敲了再说。需求:爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。分析:打开当当,搜索python书籍,然后右键,检查网页元素,找到network,然后刷新整个页面,就会返回请求的页面数据,找到左边的红框内的请求链接,然后打开右边的response模块,检查下面返回的内容是否有我们需要的信息,发现没问题,就可以继续往下进行。寻找图片:把鼠标放在网页的图片上直接右键,然后...
2021-11-19 16:49:40
5911
1
原创 python学习笔记之内建函数 isinstance()
描述:isinstance()函数用来判断一个对象是否是一个已知的类型,类似于type()isinstance() 与 type() 的区别: type() 不会认为子类是一种父类类型,不考虑继承关系。 isinstance() 会认为子类是一种父类类型,考虑继承关系。判断两者类型是否相同,推荐使用isinstance() 。示例:a = 123isinstance(a,int)>>> Trueisinstance(a,st...
2021-11-11 17:48:06
648
原创 一元线性回归-最小二乘法推导过程
设一元线性回归方程为,数据样本点为,要想使这n个样本点落在一元线性回归方程附近,不妨设误差为,使得没一个样本点落在一元线性回归方程上,因此有恒成立,所以回归直线应满足的条件是:实际值与回归估计值之间的误差平方和最小,即:此时令,原问题就转换成求解二元函数极小值问题,分别对求偏导:令上两式等于零,即最终求出两个数值,一元线性回归方程也就拟合出来了。...
2021-11-07 18:54:33
5380
原创 anaconda3 安装geopandas,以及依赖包shapely、gdal、pyproj、fiona
版本号:Windows 10专业版anaconda3 python 3.8.8开始时的报错信息没有保存下来,pip install 和conda install 都同样安装报错,好像是如下报错信息:conda install geopandasCollecting package metadata (current_repodata.json): doneSolving environment: failed with initial frozen solve. Retrying ..
2021-11-05 13:25:50
4238
15
原创 python实现一元线性回归详细步骤
#建模、预测和可视化# 导入相关包import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split # 切分训练集和测试集的函数import matplotlibimport matplotlib.pyplot as pltmatplotlib.rcParams['font.sans-serif'] = ['Sim
2021-10-29 00:32:40
5940
2
原创 python学习笔记之-展平函数ravel和flatten及两者的区别
ravel()和flatten()是将多维数据展平为一维数据,功能相同,区别在于一个是复制操作,一个是引用操作。ravel()展平数据后,修改后面的数据会影响前面的数据,而flatten()展平数据后,不会影响前面的数据。代码如下:import numpy as npa = np.arange(15).reshape(3,5)a>>> array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10,
2021-10-27 15:44:06
5144
2
原创 异常值&离群点检测算法---箱线图四分位检测
一、四分位距检测法介绍在数据处理的过程中,异常值的检测和处理是一个较小的分支,检测的方法也有很多种,本文只介绍其中一种:四分位距法,虽然常见但功能强大。这种方法是利用箱线图的四分位距(IQR)对异常值进行检测,也叫Tukey`s test。其提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR 或QU+1.5IQR。QL:下四分位数,表示全部观察值中有四分之一的数据取值比它小; QU:上四分位数,表示全部观察值中有四分之一的数据取值比它大; IQR:四分位间距,是上四分位数.
2021-10-25 15:48:56
14161
5
原创 python pd.read_html读取数据不完整
问题:有一个较大的表格数据存在了html中,打算用read_html直接取出来这部分数据,但后来发现read_html读取的数据不完整,后来检查html的table都没有任何问题解决办法:pd.read_html的默认解析器为 'lxml' ,添加参数flavor='bs4'便可解决...
2021-10-21 10:18:42
1869
原创 python取整的几种常见方式-向上取整、向下取整、四舍五入取整、int()取整、“//”整除取整
python使用中会遇到几种取整的情况,现在整理一下,以供以后学习参考。一、向上取整,所有小数都是向着数值更大的方向取整,不论正负。math.ceil()import mathmath.ceil(0.4)>>> 1math.ceil(1.8)>>> 2math.ceil(-1.8)>>> -1二、向下取整,所有小数都是向着数值更小的方向取整,不论正负。math.floor()math.floor(1.8)
2021-10-15 00:34:37
28398
2
原创 查看局域网内所有的主机名、MAC地址和IP地址
查看局域网下所有的IP(base) wangyudeMacBook-Pro:~ wangyu$ arp -a? (169.254.193.118) at 0:e0:4d:71:f3:e7 on en7 [ethernet]? (172.16.10.1) at 3c:e5:a6:cd:34:54 on en0 ifscope [ethernet]? (172.16.10.1) at 3c:e5:a6:cd:34:54 on en7 ifscope [ethernet]? (172.16.10.1
2021-09-28 11:07:29
15108
原创 python 中“if __name__==‘__main__‘: ”作用和原理
脚本里面经常能看到这句 “if __name__=='__main__':” ,对这段代码的理解一直比较模糊,今天有空,查看了一些资料,先记下以作日后查看。一、实现效果首先看这段代码的实现效果,大家都知道我们的python代码既可以作为脚本单独运行,也可以被其python脚本 import 调用,而 “if __name__=='__main__':” 的作用便是控制这两种情况下执行代码的过程,举例:新建文件:test_a.py#!/usr/bin/env python# _*_ enc
2021-09-10 15:17:42
334
SMOTE:synthetic minority over-sampling technique.pdf
2021-10-05
python如何写接口
2022-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人