- 博客(161)
- 资源 (1)
- 收藏
- 关注

原创 爬虫如何解决cookie过时的问题
在爬虫的过程中,会面临cookie失效的问题,当然不能每次手动去复制粘贴,所以就需要自动解决cookie可能还会遇到反重的手段,进行了js加密,该如何处理https://www.bilibili.com/video/BV1y4411w7DX?p=13中13节,实现66ip网站的爬取。...
2020-12-23 18:45:37
2520
1
原创 mysql在cmd中出现中文乱码
因为mysql默认的是utf-8格式,cmd默认的是gbk格式,所以就会出现中文乱码;由于msql服务器的格式没有权限改动,所以只能改变cmd的格式网上方法很多,但是我发现方法陈旧,对于目前的win10没有,下面方法大家可以试试,亲试有用:win+R —— regedit粘贴下面路径:计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Command Processor在右侧新建一个字符串格式重启即可...
2021-07-08 19:48:48
575
转载 Mysql数据库的安装--三分钟搞定
下载免装版解压,用管理员身份运行 cmd# 进入解压后的bin文件夹cd D:\QMDownload\SoftMgr\mysql\mysql-8.0.23-winx64\mysql-8.0.23-winx64\bin# 如果cd后无反应,回车后再输入D:安装初始化该行的最后一行是密码修改初始密码# 123456是修改后的密码alter user 'root'@'localhost' identified by '123456'将bin文件的目录添加到系统的全局变量在bin的
2021-02-22 19:02:10
332
原创 graphviz中文乱码问题解决
在网上找了一堆方法,由于我是用anaconda安装的graphviz,在安装目录下找不到对应的文件夹,所以不知道如何修改源码。。。。找到一种用程序修改的办法:graph = graphviz.Source(dot_data.replace('helvetica','"Microsoft YaHei"'), encoding='utf-8')这样保存的决策树就不会出现中文乱码的情况了这里替换成为了微软雅黑,可以替换成其它字体参考文章:https://blog.youkuaiyun.com/qq_402126
2021-01-20 17:15:41
965
1
原创 pandas如何指定某一列为索引
大部分情况可以如下:# 以年这一列作为索引df1 = pd.DataFrame(df).set_index('年')但是,有时候数据没有表头,即发生了缺失:# 指定第一列为索引df1 = pd.read_excel(df,index_col=0)
2021-01-07 10:35:20
14912
转载 pandas如何删除行或列
本文是转载文章,仅作为记录,防止优秀文章的丢失https://blog.youkuaiyun.com/qq_18351157/article/details/105785367请大家前往原创作者博客,多多支持文章目录删除行删除列删除多行多列# age state point# name# Alice 24 NY 64# Bob 42 CA 92# Charlie 18 CA 70# Dave 68 T
2021-01-07 10:29:53
2048
原创 pandas如何提取某个单元格的值
方法:print(df_t.iloc[[0],[0]])print('***************')print(df_t.iloc[[0],[0]].values)print('***************')print(df_t.iloc[[0],[0]].values[0][0])结果: 排名年 2012***************[[2012]]***************2012
2021-01-07 09:54:53
2321
转载 python 中vlookup的实现方法
本贴主要是作为一个记录,防止优质博客的丢失请大家多多关注原帖:https://blog.youkuaiyun.com/htuhxf/article/details/84571404https://stackoverflow.com/questions/25493625/vlookup-in-pandas-using-join主要方法是使用merge或者map或者apply+lambda文章目录mergeapply + lambdamerge的详细介绍merge执行左合并,这将使用sku列作为要联接的列:I
2021-01-06 10:35:00
1157
转载 python实现多表合并的操作
本文转载自:https://blog.youkuaiyun.com/weixin_38131197/article/details/101481993本贴仅是记录,防止原创作者删帖,请大家前往原创作者博客多多支持原创。 通过python实现Sql中的表连接操作 一、merg实现表连接 数据准备: import pandas as pdi
2021-01-04 14:18:07
4627
原创 python爬虫的一些高级应用小技巧
该博文会持续更新session()session.headers.update()#注意,小括号中是字典的形式urlencode()、urldecode()、quote()urlencode函数,可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=2这样的字符串,比如:import urllib.parsevalues={}values[‘username’]=‘01张三’values[‘password’]=‘df123?’url=“http://ww
2020-12-25 15:45:11
304
原创 python中self、__int__、__name的理解
在学习python的过程中,对于self 和__int__的理解有点晕,看程序的时候,有时有,有时又不用,所以今天就仔细的解决一下这个问题。关于self,记住:python中self不是关键字,你可以换成任何其他的,但是这是该行业的习惯写法定义类(class)的时候必须要用,一般的函数或者方法是不必用self的self在定义的时候必须用,调用类的时候不需要用,默认自动传入self指的是实例对象本身,而不是类本身关于 int,记住:__init__方法的第一参数永远是self,表示创建的类
2020-12-25 10:17:57
2036
1
原创 正则表达式的学习
最近在学习爬虫的时候,需要用到正则表达式对数据进行一个提取。看了网上不少的博客和视频,发现这东西讲解的都不是很通俗易懂,有点绕,尤其是理解元字符部分,文字版本也不是很懂(可能是个人太愚钝)个人的看法是,不懂的时候多动手,边练边看更容易懂学习的网址就是:元字符讲解的博客:https://www.cnblogs.com/maplethefox/p/11056072.html菜鸟教程https://www.runoob.com/python3/python3-reg-expressions.html
2020-12-23 18:38:36
134
原创 smtplib添加excel附件,收到附件发现是bin格式的文件
在网上找了一些办法,基本上都是格式或者写法上的导致的并且错误的主要行是集中这段命令的第四行,part = MIMEBase('application','octet-stream')part.set_payload(open("abc.xls","rb").read())encoders.encode_base64(part)part.add_header('Content-Disposition','attachment', filename ='abc.xls')message.attach
2020-12-23 10:20:59
653
1
原创 抠取头发丝(用PS cc)
文章目录抠头发丝:简单粗暴,效率高扣除头发丝:粗中有细学着学着就来劲了,干脆把问题都解决掉证件照上面肯定是用不上,但是平常生活中如果需要(女生),或者是时候展现男朋友才华的时候到了。下面只介绍操作过程,想要P的更好,必须 慢工出细活,且举一反三所有图片,均来自网络抠头发丝:简单粗暴,效率高方法是:先分别导入,然后,点击左侧菜单栏有个【移动工具】,鼠标左击不松,将小姐姐托拖入风景图中,然后Ctrl+T调整图片大小调整好以后,点击右上角的勾即可选用背景橡皮檫勾选【保护前景色】和点击 【
2020-12-22 14:31:13
609
1
原创 给寸照换底色(抠头发)
突然需要用到蓝底照片(奈何只有白底),到打印店去打印,老板说要10块钱调整,奈何我这科研攻坚过程中的养成的犟脾气,回到宿舍自己拿PS弄(软件电脑有,一直闲置,终于能用上了),网上找了一圈,发现没有一个完整的教程,要么软件版本不对导致的命令位置不同(分cc版和cs版本),要不就是改完白边严重,不知道怎么修改。东拼西凑,自己琢磨,以下是PS CC版做的。魔法棒工具调整容差Ctrl+j 复制图层会发现背景颜色变成了格子红色RGB:255 0 0蓝色RGB:67 142
2020-12-21 23:14:27
797
2
原创 UserWarning: mkl-service package failed to import, therefore Intel(R) MKL initialization ensuring it
在pycharm中如恶化解决这个问题:UserWarning: mkl-service package failed to import, therefore Intel® MKL initialization ensuring its correct out-of-the box operation under condition when Gnu OpenMP had already been loaded by Python process is not assured. Please instal
2020-12-21 16:39:03
7402
原创 一直 connecting to console
处于一直加载状态:可以参考这两篇博客,感谢博主提供的解决办法, 大家有问题可以先看看对应博客下的留言https://blog.youkuaiyun.com/qq_41153943/article/details/100188221https://blog.youkuaiyun.com/weixin_44612441/article/details/105354195基本思路就是:打开cmd通过输入%PATH%查到环境变量的路径然后再复制到系统环境变量中,或者复制到setting中或者系统的环境变量中去。亲测,复制到
2020-12-21 16:03:51
1662
原创 conda安装库存在的问题
这是错误:xmlrpc.client.Fault: <Fault -32500: “RuntimeError: PyPI’s XMLRPC API has been temporarily disabled due to unmanageable load and will be deprecated in the near future. See https://status.python.org/ for more information.”>在此之前,我已经添加了永久的添加了清华的数据
2020-12-21 15:30:12
2176
4
原创 如何解决联想电脑F1-F12快捷键带来的烦劳
最近入手了联想的小新电脑,然而,当我习以为常的用其他软件的一些快捷键时,发现联想系统已经占用了,如:按F1就是声音,即使是其它按键与F1组合的快捷方式也是声音:解决办法如下:Fn + F1 即可解决,这样或许对习惯快捷键的朋友还是会觉得很麻烦,所以也可以直接暴力:进入BIOS的方法就不多说了,进入之后把HotKey Mode改成disable就好了。或者下载驱动至于办法可以去网上找找,很多...
2020-12-21 15:26:17
2402
1
原创 带你入门VASP的干货网站
从零到入门,在没有大佬指导的情况下,走这条路是多么的痛苦,没有经历过,就无法理解到里面的辛酸,对于一个小白,跨领域+跨学科,或许这是对我就是一次心灵上的磨练吧。历经一年多的学习,从网上一点一点的获取,真的太不容易了,为了避免更多的人走我同样的路,我将我在学习过程中收获很多的国内网站分享出来。祝明天的你会更好。一个做声子计算的网站:https://phonopy.github.io/phonopy/论坛,干货帖子特别多:http://bbs.keinsci.com/forum.php获取分子结构:
2020-12-17 11:23:59
4409
2
原创 pycharm中断点的使用
设置好断点后,按如下方法进行运行:step over:IDE就会让当前的程序执行完当前行的代码。 如果该代码里面有函数调用,执行 不会暂停在函数里面 ,而是直接运行完所有的函数里面的代码, 暂停在 下一行代码。step into:IDE就会让当前的程序执行一步当前行代码。 如果该代码里面有函数调用,执行 就会暂停在函数里面 。resume program:直接运行到断点处,但不运行断点行(即颜色标记行)...
2020-12-15 15:00:13
1084
原创 爬虫项目①
代理池的一个应用流程:爬虫模块:采集代理IP·从代理IP网站上采集代理IP·进行校验(获取代理响应速度,协议类型,匿名类型),·把可用代理IP存储到数据库中代理IP的校验模块:获取指定代理的响应速度,支持的协议以及匿名程度·原因:网站上所标注的响应速度,协议类型和匿名类型是不准确的·这里使用httpbin.org进行检测数据库模块:实现对代理IP的增删改查操作·这里使用MongoDB来存储代理IP检测模块:定时的对代理池中代理进行检测,保证代理池中代理的可用性.·从数据库读取所有的代
2020-12-15 14:12:06
311
原创 sublime如何解决不能交互的问题
如果是pycharm用户,可能不会太习惯,因为用起来没那么方便思路是装插件:sublimeREPLCtrl + Shift +P 输入install ,选中下图第一个等待一小会在弹出的框中输入:sublimeREPL等待安装结束安装结束后,既可以按下面的流程找到了:上图所示的:是当你已经写好程序了,你点击,即可运行当前的文本内容也可通过更改热键来运行这个功能{ "keys": ["f5"], "caption": "SublimeREPL: Python - RUN cur
2020-12-10 15:37:33
1068
原创 PPT母版中更改了页码后,但是应用了该母版的幻灯片没有发生变化
之前在每张幻灯片中做了 当前页数/总页数 的幻灯片编号由于总页数发生了变化,于是想修改母版,但是母版修改完以后,幻灯片的总页数还是没有变化。解决办法:【插入】——【页眉页脚】先将幻灯片编号的构去掉,点击全部应用。然后再勾上,点击全部应用即可。...
2020-12-09 22:15:34
6069
5
原创 字符串格式之间的转换
int(x [,base ]) 将x转换为一个整数long(x [,base ]) 将x转换为一个长整数float(x ) 将x转换到一个浮点数complex(real [,imag ]) 创建一个复数str(x ) 将对象 x 转换为字符串repr(x ) 将对象 x 转换为表达式字符串eval(str ) 用来计算在字符串中的有效Python表达
2020-12-08 18:02:14
963
转载 selenium如何解决页面跳转的问题
该文转自:白月黑羽教python,大家可以多关注from selenium import webdriverwd = webdriver.Chrome()wd.implicitly_wait(10)wd.get('http://cdn1.python3.vip/files/selenium/sample3.html')# 点击打开新窗口的链接link = wd.find_element_by_tag_name("a")link.click()# wd.title属性是当前窗口的标题栏
2020-12-08 10:42:24
13295
1
转载 selenium中的子元素和后代元素的理解
本文转载自:白月黑羽教python系列,大家可以关注id 为 container 的div元素 包含了 id 为 layer1 和 layer2 的两个div元素。这种包含是直接包含, 中间没有其他的层次的元素了。 所以 id 为 layer1 和 layer2 的两个div元素 是 id 为 container 的div元素 的 直接子元素而 id 为 layer1 的div元素 又包含了 id 为 inner11 和 inner12 的两个div元素。 中间没有其他层次的元素,所以这种包含关系也
2020-12-08 09:17:08
2073
原创 安装selenium及其配置
在cmd中打开anaconda安装pip install selenium然后可以试运行,如果出错,因该是没有安装或配chromedriverfrom selenium import webdriverbrowser = webdriver.Chrome()browser.get(‘http://www.baidu.com/’)chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。有两个下载地址:1、http://chromedriver.storage.goog
2020-12-07 15:31:02
100
原创 Anaconda can not spawn a new process with your current configured python interpreter (C:/Anaconda3/p
Anaconda can not spawn a new process with your current configured python interpreter (C:/Anaconda3/python.exe)Make sure your interpreter is a valid binary and is in your PATH or use an absolute path to it, for example: C:\\Python27\\python.exePackage Co
2020-12-07 14:18:37
1069
1
原创 针对sublime text3中用matplotlib无法作图的解决办法,亲测有效
找了很久,目前大多数是text2,但是在text3中已经没有.py那个文件了,下述方法亲测有效。在自己编译python的环境中添加上:“shell”: true问题即可得到解决{"cmd": ["D:\\Anaconda3\\python.exe", "-u", "$file"],"encoding":"cp936","file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)","selector": "source.python","shell"
2020-12-07 09:54:09
2340
原创 项目:英国电商
文章目录数据集来源字段解释项目需求数据清洗数据分析数据集来源数据集来自UCI加州大学欧文分校机器学习库:https://archive.ics.uci.edu/ml/datasets/online+retail该数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易信息。该公司主要销售礼品,拥有许多批发商客户。字段解释InvoiceNo:发票编号。为每笔订单唯一分配的6位整数。若以字母’C’开头,则表示该订单被取消。StockCode:产品代码。为每个产品唯一分
2020-09-13 12:34:25
2207
原创 linux中如何判断两个字符串相等
if [ "$var1" = "$var2" ]必须注意的点:if 与 [] 之间要有空格[] 与“”之间要有空格“” 与 =之间要有空格
2020-08-11 23:14:03
3423
原创 Process finished with exit code 0
在Pycharm中运行爬虫,出现了上述这个问题,结合网上的方法都没有用(编译器、编译器)等等。你需要注意你的语句是否有格式上的错误:我的就是这样:开始我用的是前面一种,pycharm也没有标红,无论我怎么试用网上的方法都没有用。后来发现main前后似乎短了点,前后各补上一个下划线后再运行,问题解决...
2020-07-19 13:15:48
590
原创 常用的数据资源网(免费)
如果你想做数据分析,但是手上又缺乏数据,则以下网站可以帮到你:新手数据集这些网站的数据质量较高,不需要怎么清洗,适合数据新手1、中国统计信息网:http://www.tjcn.org/2、国家统计局:http://www.stats.gov.cn/3、中国产业信息网:http://www.chyxx.com/data/4、美国政府公开数据:https://www.data.gov/5、世界银行:https://data.worldbank.org/6、百度数据开放平台:https://ope
2020-07-17 20:42:08
2620
原创 如何通过局域网远程控制桌面
本来可以通过win下自带的远程桌面连接来进行局域网控制桌面,但有时也会遇到一些问题导致连接不上,网上试了很多方法还是没有效果,可能是系统的原因。故为了简单,采用第三方软件进行连接。http://dl.radminchina.com/Radmin_CN.zip...
2020-07-17 20:00:44
556
原创 VASP计算警告、错误记录并解决
http://www.error.wiki/VASP问题①:{ 0, 0}: On entry toPZSTEIN parameter number 4 had an illegal value{ 4, 0}: On entry toPZSTEIN parameter number 4 had an illegal value{ 5, 0}: On entry toPZSTEIN parameter number 4 had an i
2020-07-17 11:08:27
12163
2
转载 如何通过XRD计算晶格常数
https://wenku.baidu.com/view/3e4ab3c70508763230121203.html
2020-07-09 20:16:42
11316
表面催化计算.pdf
2020-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人