
Python
小白鸽
啥都会一点,啥都不精的半吊子程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas 数据统计
最近有个客户需求私有化部署,但不需要大数据. 需要将数据统计改造,查了下,发现pandas和SparkSql比较像. 所以采用pandas做数据统计改造. #读数据库 import pandas as pd import pymysql conn=pymysql.connect(host='xxx.xx.xx.xxx',port=3306,user='username',passwd='...原创 2017-12-21 11:08:23 · 1964 阅读 · 0 评论 -
pandas 从dataframe A剔除 dataframe B包含的行
最近有一个需求每10分钟,将统计当天每个项目下检测下载升级数据,然后将统计结果插入数据库。 假设第一次统计结果为A.txt, 10分钟后,统计结果为B.txt, 但是只有少数项目的统计改变,大部分还是原样,那没必要把所有B的统计结果更新到数据。 只更新变动那行。 去stackoverflow,找到一种方法,比较符合预期。 result = pd.merge(dataframe_b,原创 2018-01-17 10:35:44 · 6310 阅读 · 0 评论 -
scrapy爬取小说(一)
最近想学习scrapy爬虫,先爬小说练练手。 安装scrapy pip install scrapy 新建novel项目 scrapy startproject novel 目录结构如下: 打开chrome查看网页源码 在命令端运行 scrapy shell https://www.booktxt.net/6_6453/ 输入 response.css("div#list dd a...原创 2019-02-18 19:23:39 · 740 阅读 · 0 评论 -
scrapy爬取小说(二)
根据上一章目录分析 今天继续分析每一章内容 chrome打开https://www.booktxt.net/6_6453/5235604.html分析 终端命令 scrapy shell https://www.booktxt.net/6_6453/5235604.html 输入命令 response.css("div.bookname h1::text").get() response原创 2019-02-19 11:14:09 · 1378 阅读 · 0 评论 -
scrapy selenium解析淘宝
淘宝页面是JS动态页面,需要selenium模仿chrome访问淘宝. 新建项目 scrapy startproject taobao cd taobao scrapy genspider example www.taobao.com 结构图下图: 安装selenium,并下载chromediver pip install -U selenium 编写middleware.py文件中Tao...原创 2019-02-28 18:29:27 · 869 阅读 · 0 评论 -
scrapy爬取小说(三)
根据上章scrapy爬取小说(二) 爬取的小说的章节是乱序的,所以需要章节排序。 使用Item和Pipeline对最终结果排序 修改items.py文件 import scrapy class NovelItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2019-02-20 10:43:59 · 1632 阅读 · 0 评论 -
Pandas使用技巧
记录常用的pandas操作 import pandas as pd #读csv文件 data= pd.read_csv(r'D:\station_choose.csv',encoding='gbk') #读excel文件 data= pd.read_excel(r'D:\前1000查询线路.xlsx',encoding='gbk') #查看列数和行数 data.shape #查看类型 d...原创 2019-04-23 15:10:05 · 337 阅读 · 0 评论