- 博客(20)
- 收藏
- 关注
原创 python pandas to_sql 中Could not reflect: requested table(s) not available in Engine
问题Could not reflect: requested table(s) not available in Engine我在点击链接这里看到了一个答案可能是数据库里面存在了这个表。我的数据库里面确实存在一个表。就是表名大小写和我要写入的有点差异我把原来的表删掉。再重新运行就没问题了...
2021-11-04 11:35:32
2274
2
原创 window中类似于nohup的后台运行命令
在windows中将命令设置为后台运行,类似于linux中的nohup命令start /min 命令start /min jupyter notebook欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdow...
2019-08-10 10:53:03
16007
2
原创 分布式爬虫没有push redis-key 但是却启动起来了
在我们改写一般的scrapy爬虫为scrapy-redis爬虫的时候,可能会遇到没有push redis-key,但是爬虫却起来原因其中一个重要的原因可能就是start-requests方法被重写了,因为如果重写了之后,会默认最先调用这个方法,解决办法:将start_request方法名改一下,改为parse解析方法,因为默认的解析函数就是这个函数,当我们push redis-key之后,爬...
2019-07-12 11:07:41
360
原创 横向合并mysql表
将多个带有相同字段的mysql数据表进行横向合并我现在想做的就是将相同id和code的字段进行横向合并,因为左右表都可能不全,所以左连接右连接都不符合我的要求只能用全连接,变成如下的效果,缺的地方为null我的步骤如下,如有大佬有更好的方法,请留下你的脚印,小弟我不胜感激– CREATE TABLE test11 as– SELECT * FROM test a left join...
2019-06-27 12:36:01
1870
原创 mysql查询整个库中所有的记录数
因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...
2019-06-04 14:45:12
253
原创 mysql查询整个库中所有的记录数
因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...
2019-06-04 14:45:12
609
原创 mysql查询整个库中所有的记录数
因为一个微博数据库中包含了很多个表,但是我需要统计出这个库中所有的记录数当然,如果有功夫的话, 可以每个表查出来,然后相加,这也忒那个啥了,问了好多大佬,才知道可以一次查出来的select sum(table_rows) from information_schema.tables where TABLE_SCHEMA = 'weibo';暴露了我不喜欢大写的习惯了,哈哈哈哈哈哈哈在my...
2019-06-04 14:44:27
457
原创 matplolib种横坐标斜着显示
在matplotlib种,有时会出现,横坐标太多,全是黑的,我想显示部分怎么实现,横坐标斜着显示如何实现import matplotlib.pyplot as pltimport matplotlib.ticker as tickerfig,ax = plt.subplots(1,1)plt.xticks(rotation=120) # 设置横坐标显示的角度,角度是逆时针,自己...
2019-04-23 17:29:49
20405
原创 window下安装docker和splash
因为最近要js逆向破解,太难找,所以选用splash来尝试能否获取数据,屁话不多说,直接开始安装docker的连接,来源于这篇博客启动docker服务来源于这篇博客这其中有几个坑,一个是docker在window下只有限制,window10 64位专业版和教育版,对应我们这种事家庭版的要注意选择版本,在安装docker的连接里面有,注意就好,下好之后就一直next就好,我没有更改安装路径,...
2019-04-09 14:15:12
500
原创 关于vi中清空文本内容的命令
删除日志文件,如果整个删除话 ,我用jupyter的话,就必须要重启,挺麻烦的,所以找到了vi中清空文本的方法命令来源于------>>时空穿梭们我用的是先gg定位到首行,让后dG删除全部,d是删除,shift+g是行尾(就是G)...
2019-04-03 11:05:41
13832
1
原创 pandas中Series的apply函数
闲来无事 浏览源码 发现了一个特别有意思的函数Series中的apply()函数和大多数apply函数一样,这个函数传入的参数也是一个函数,目的是对传入的series的值进行批量的处理,不用我们手动写函数来处理举个例子:我有一个series,大概样子是这样的我想要做的就是只要这些日期中的年,我们都知道直接split,之后取第一个就好,达到的结果是这样如果按照常规的方法def...
2019-03-29 16:46:27
6314
原创 matplotlib中的直方图和条形图
小学的东西,但是已经感觉还给了老师,虽然是小学的,但是不知道就是不知道,记录下,留给自己看先来看看百度百科的解释吧卧槽????直方图是什么jb鬼,我再找找维基百科在这里稍微看图片标签大概能看懂意思了总结:1 、 条形图是通过纵坐标的长短或者说是高低来数据的多少,横坐标表示的类型,纵坐标表示的这个类型的数据有多少2 、直方图横坐标是组距,纵坐标是频率,通过横坐标乘上组距可以得到 对...
2019-03-26 15:24:54
622
1
原创 微博爬虫搭建为分布式
为了实现微博数据一天一千万+的数据量,分布式爬虫是必须的,之前又提到过,但是没有写,现在来补全废话不多说,分布式爬虫的有点相信大家都知道,就不多说了,在将普通的爬虫改为分布式,只需要改两点即可,非常简单,不要被吓到第一个:将单价爬虫继承的类改为分布式爬虫类,from scrapy_redis.spiders import RedisSpiderclass TagWeiboSpider(R...
2019-03-25 10:39:33
325
原创 python写入csv文件出现空行
来源于https://blog.youkuaiyun.com/pfm685757/article/details/47806469在当中有多个参数,encoding=‘utf-8-sig’ 是为了解决写入中文的时候乱码的问题newline=’'是解决后面多个换行的问题,默认有一个换行,将这个改为空字符之后,换行问题不会出现...
2019-03-14 16:20:26
1721
原创 关于pandas中df进行叠加
来源于这位大佬的博客 http://www.cnblogs.com/lorenshuai724005/p/9681420.html因为读出来的每一个都是一个df,我的想法就是把所有的df叠加起来,看过很多描述的都没能获得我想要的效果,感谢上面那位大佬的分享也实在是牛 比, 再外面加上一个列表,用来接收就可以了,完美的解决了我的问题加上后的如图所示:以上。哇 贼开心= 。=...
2019-03-06 17:03:02
2489
原创 完整的微博千万级数据量思路过程
单日千万级微博爬虫介绍: 我也不喜欢说废话,来救直接上,项目要求爬微博,**存成四张表**,分别是用户信息表,用户和用户关系表,微博信息表,微博和微博关系表,改为分布式爬虫可实现单日1000+的数据量,直接开始干把准备:首先你的准备好几百个微博账号,并获取cookie,楼主借鉴网上很多大神的方法,也是通过访问手机端拿到cookie,http://weibo.cn,比较简单,并且验证码是...
2019-02-28 15:13:43
937
原创 dataframe中的loc,iloc,ix的比较
这三个第一次看,会了,下一次又忘了 - 。 - 我咋这么蠢,记录一下最大的区别是 iloc里面的行标签只能是数字,就是 默认的那个0,1,2,3,问题:如果是根据索引来的,那我重设置索引了之后,是不是还是可以用iloc呢来进行索引呢?答案是 不可能的多说无益:直接上代码import pandas as pddf = pd.read_excel('11ts.xls')df1 = d...
2019-01-17 15:10:32
1436
原创 提取 / 删除 符合满足某一个条件的dataframe
最近在搞数据分析,遇到图中的问题,我想将没有找到该记录这些行都给删掉,但是在dataframe中查找drop方法,完全没有我想要的方法,后来想到,我删不掉,我提取出来总可以吧,记录下,供自己查看import pandas as pddf = pd.read_excel('11ts.xls')df1 = df.dropna(axis=0, how='all') # 用来删除缺失数据 返回...
2019-01-17 10:30:14
4510
原创 利用python做数据分析书中的数据集
利用python做数据分析的数据集参考这个项目,很全免费https://github.com/wen-fei/PythonForDataAnalysis
2019-01-08 13:43:40
5060
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人