qq_42896149-优快云博客

原创 python pandas to_sql 中Could not reflect: requested table(s) not available in Engine

问题Could not reflect: requested table(s) not available in Engine我在点击链接这里看到了一个答案可能是数据库里面存在了这个表。我的数据库里面确实存在一个表。就是表名大小写和我要写入的有点差异我把原来的表删掉。再重新运行就没问题了...

2021-11-04 11:35:32 2339 2

原创 window中类似于nohup的后台运行命令

在windows中将命令设置为后台运行，类似于linux中的nohup命令start /min 命令start /min jupyter notebook欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdow...

2019-08-10 10:53:03 16285 2

原创分布式爬虫没有push redis-key 但是却启动起来了

在我们改写一般的scrapy爬虫为scrapy-redis爬虫的时候，可能会遇到没有push redis-key，但是爬虫却起来原因其中一个重要的原因可能就是start-requests方法被重写了，因为如果重写了之后，会默认最先调用这个方法，解决办法：将start_request方法名改一下，改为parse解析方法，因为默认的解析函数就是这个函数，当我们push redis-key之后，爬...

2019-07-12 11:07:41 393

原创横向合并mysql表

将多个带有相同字段的mysql数据表进行横向合并我现在想做的就是将相同id和code的字段进行横向合并，因为左右表都可能不全，所以左连接右连接都不符合我的要求只能用全连接，变成如下的效果，缺的地方为null我的步骤如下，如有大佬有更好的方法，请留下你的脚印，小弟我不胜感激– CREATE TABLE test11 as– SELECT * FROM test a left join...

2019-06-27 12:36:01 1942

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表，但是我需要统计出这个库中所有的记录数当然，如果有功夫的话，可以每个表查出来，然后相加，这也忒那个啥了，问了好多大佬，才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了，哈哈哈哈哈哈哈在my...

2019-06-04 14:45:12 278

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表，但是我需要统计出这个库中所有的记录数当然，如果有功夫的话，可以每个表查出来，然后相加，这也忒那个啥了，问了好多大佬，才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了，哈哈哈哈哈哈哈在my...

2019-06-04 14:45:12 661

原创 mysql查询整个库中所有的记录数

因为一个微博数据库中包含了很多个表，但是我需要统计出这个库中所有的记录数当然，如果有功夫的话，可以每个表查出来，然后相加，这也忒那个啥了，问了好多大佬，才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了，哈哈哈哈哈哈哈在my...

2019-06-04 14:44:27 507

原创 matplolib种横坐标斜着显示

在matplotlib种，有时会出现，横坐标太多，全是黑的，我想显示部分怎么实现，横坐标斜着显示如何实现import matplotlib.pyplot as pltimport matplotlib.ticker as tickerfig,ax = plt.subplots(1,1)plt.xticks(rotation=120) # 设置横坐标显示的角度，角度是逆时针，自己...

2019-04-23 17:29:49 20587

原创 window下安装docker和splash

因为最近要js逆向破解，太难找，所以选用splash来尝试能否获取数据，屁话不多说，直接开始安装docker的连接，来源于这篇博客启动docker服务来源于这篇博客这其中有几个坑，一个是docker在window下只有限制，window10 64位专业版和教育版，对应我们这种事家庭版的要注意选择版本，在安装docker的连接里面有，注意就好，下好之后就一直next就好，我没有更改安装路径，...

2019-04-09 14:15:12 548

原创关于vi中清空文本内容的命令

删除日志文件，如果整个删除话，我用jupyter的话，就必须要重启，挺麻烦的，所以找到了vi中清空文本的方法命令来源于------>>时空穿梭们我用的是先gg定位到首行，让后dG删除全部，d是删除，shift+g是行尾（就是G）...

2019-04-03 11:05:41 13962 1

原创 pandas中Series的apply函数

闲来无事浏览源码发现了一个特别有意思的函数Series中的apply()函数和大多数apply函数一样，这个函数传入的参数也是一个函数，目的是对传入的series的值进行批量的处理，不用我们手动写函数来处理举个例子：我有一个series，大概样子是这样的我想要做的就是只要这些日期中的年，我们都知道直接split，之后取第一个就好，达到的结果是这样如果按照常规的方法def...

2019-03-29 16:46:27 6362

原创 matplotlib中的直方图和条形图

小学的东西，但是已经感觉还给了老师，虽然是小学的，但是不知道就是不知道，记录下，留给自己看先来看看百度百科的解释吧卧槽？？？？直方图是什么jb鬼，我再找找维基百科在这里稍微看图片标签大概能看懂意思了总结：1 、条形图是通过纵坐标的长短或者说是高低来数据的多少，横坐标表示的类型，纵坐标表示的这个类型的数据有多少2 、直方图横坐标是组距，纵坐标是频率，通过横坐标乘上组距可以得到对...

2019-03-26 15:24:54 661 1

原创微博爬虫搭建为分布式

为了实现微博数据一天一千万+的数据量，分布式爬虫是必须的，之前又提到过，但是没有写，现在来补全废话不多说，分布式爬虫的有点相信大家都知道，就不多说了，在将普通的爬虫改为分布式，只需要改两点即可，非常简单，不要被吓到第一个：将单价爬虫继承的类改为分布式爬虫类，from scrapy_redis.spiders import RedisSpiderclass TagWeiboSpider(R...

2019-03-25 10:39:33 350

原创 python写入csv文件出现空行

来源于https://blog.youkuaiyun.com/pfm685757/article/details/47806469在当中有多个参数，encoding=‘utf-8-sig’ 是为了解决写入中文的时候乱码的问题newline=’'是解决后面多个换行的问题，默认有一个换行，将这个改为空字符之后，换行问题不会出现...

2019-03-14 16:20:26 1757

原创关于pandas中df进行叠加

来源于这位大佬的博客 http://www.cnblogs.com/lorenshuai724005/p/9681420.html因为读出来的每一个都是一个df，我的想法就是把所有的df叠加起来，看过很多描述的都没能获得我想要的效果，感谢上面那位大佬的分享也实在是牛比，再外面加上一个列表，用来接收就可以了，完美的解决了我的问题加上后的如图所示：以上。哇贼开心= 。=...

2019-03-06 17:03:02 2537

原创完整的微博千万级数据量思路过程

单日千万级微博爬虫介绍：我也不喜欢说废话，来救直接上，项目要求爬微博，**存成四张表**，分别是用户信息表，用户和用户关系表，微博信息表，微博和微博关系表，改为分布式爬虫可实现单日1000+的数据量，直接开始干把准备：首先你的准备好几百个微博账号，并获取cookie,楼主借鉴网上很多大神的方法，也是通过访问手机端拿到cookie，http://weibo.cn,比较简单，并且验证码是...

2019-02-28 15:13:43 998

原创 dataframe中的loc,iloc,ix的比较

这三个第一次看，会了，下一次又忘了 - 。 - 我咋这么蠢，记录一下最大的区别是 iloc里面的行标签只能是数字，就是默认的那个0，1，2，3，问题：如果是根据索引来的，那我重设置索引了之后，是不是还是可以用iloc呢来进行索引呢？答案是不可能的多说无益：直接上代码import pandas as pddf = pd.read_excel('11ts.xls')df1 = d...

2019-01-17 15:10:32 1464

原创提取 / 删除符合满足某一个条件的dataframe

最近在搞数据分析，遇到图中的问题，我想将没有找到该记录这些行都给删掉，但是在dataframe中查找drop方法，完全没有我想要的方法，后来想到，我删不掉，我提取出来总可以吧，记录下，供自己查看import pandas as pddf = pd.read_excel('11ts.xls')df1 = df.dropna(axis=0, how='all') # 用来删除缺失数据返回...

2019-01-17 10:30:14 4545

原创 jupyter中显示行号

没有行号不好定位行号显示：view下的toggle line numbers 点一下就显示啦 = =

2019-01-16 11:32:43 5373

原创利用python做数据分析书中的数据集

利用python做数据分析的数据集参考这个项目，很全免费https://github.com/wen-fei/PythonForDataAnalysis

2019-01-08 13:43:40 5128 3

qq_42896149的博客

原创 python pandas to_sql 中Could not reflect: requested table(s) not available in Engine

原创 window中类似于nohup的后台运行命令

原创分布式爬虫没有push redis-key 但是却启动起来了

原创横向合并mysql表

原创 mysql查询整个库中所有的记录数

原创 mysql查询整个库中所有的记录数

原创 mysql查询整个库中所有的记录数

原创 matplolib种横坐标斜着显示

原创 window下安装docker和splash

原创关于vi中清空文本内容的命令

原创 pandas中Series的apply函数

原创 matplotlib中的直方图和条形图

原创微博爬虫搭建为分布式

原创 python写入csv文件出现空行

原创关于pandas中df进行叠加

原创完整的微博千万级数据量思路过程

原创 dataframe中的loc,iloc,ix的比较

原创提取 / 删除符合满足某一个条件的dataframe

原创 jupyter中显示行号

原创利用python做数据分析书中的数据集

管理员一键清理c盘垃圾

空空如也