Python
谷曰十鑫
同济经管
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取B站视频弹幕生成词云
效果预览以B站UP主可乐三太火影1-720集解说视频2020-08-07弹幕爬取为例,生成词云代码# -*- coding: utf-8 -*-# @Time : 2020/8/8 22:11# @Author : 马拉小龙虾# @FileName: B站弹幕.py# @Software: PyCharm Community Edition# @Blog :https://blog.youkuaiyun.com/weixin_43636302import requestsimpor原创 2020-08-09 00:41:56 · 1213 阅读 · 0 评论 -
爬取上交所和深交所的年报问询函到Excel
注意事项需要安装一些包,如pdfminer、pdfminer3k、pdfplumber等;pdfminer不能解析上交所问询函,使用解析功能更为强大的pdfplumber可以解析,但是内容上可能会出现个别字重复的现象;pdfminer3k、pdfplumber可能存在不兼容问题导致程序无法运行,解析上交所年报用到pdfplumber,如果不能运行,根据提示看是否安装了pdfminer,或者尝试卸载pdfminer3k重新安装pdfplumber;解析深交所年报用到pdfminer3k,如果安装了仍然原创 2020-08-07 00:43:51 · 3048 阅读 · 9 评论 -
Pycharm设置模板,自动生成作者、时间、版本等基本信息
效果预览每次新建代码文件自动生成以下基本信息实现过程点击:File→setting→CodeStyle→File and Code templates→Python script输入以下代码:# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : 马拉小龙虾# @FileName: ${NAME}.py# @Software: ${PRODUCT_NAME}# @Blog :https://blog.csd原创 2020-07-16 20:33:34 · 1924 阅读 · 0 评论 -
Python更改文件名、文件夹名,删除文件、文件夹
# -*- coding: utf-8 -*-# @Time : 2020/7/16 20:16# @Author : 马拉小龙虾# @FileName: rename2.py# @Software: PyCharm Community Edition# @Blog :https://blog.youkuaiyun.com/weixin_43636302import os,sys# import glob# from pathlib import Pathimport shutil原创 2020-07-16 20:24:12 · 1190 阅读 · 0 评论 -
爬取汽车之家所有汽车参数配置
效果预览汽车之家参数配置的页面无法右键查看网页源代码,不太好爬取,网上相关教程方法比较复杂,这里采用了两步走的爬取方法。即先获取所有车型的网页,再分别解析,逐步拆解。代码实现第一步,导入相关库import bs4import requests as reqimport reimport jsonimport csv第二步,下载出所有车型的网页def mainMethod(): li = [chr(i) for i in range(ord("A"), ord("Z")原创 2020-07-07 19:56:16 · 6594 阅读 · 2 评论 -
Python小程序解决不规则转置问题
情景引入如上图,一家上市公司只有一行数据,对应多次财务违规年份,想要变成纵向的数据,即一次财务违规对应一行数据,一家上市公司有多行数据的形式(如果有多次违规),如下图所示:实现过程一、先根据“,”将违规年份进行分列二、编写Python程序,思路是逐行进行处理,在每一行中判断单元格中的违规年份是否为空,不为空则新建一行,将该年份写入作为一行新的数据,具体代码如下:import csv...原创 2020-04-20 23:26:23 · 946 阅读 · 0 评论 -
用Python写猜数字小游戏
预期效果1、程序随机生成一个100以内(含100)的正整数2、将用户输入的答案与随机生成的整数进行比较,给出提示“猜大了”、“猜小了”或者“猜对了”3、用户可重复输入,直到猜对为止。4、该游戏可反复执行多次,每次游戏结束后,询问用户是否继续游戏,用户输入“是”,则游戏继续开始,重复步骤1-3;用户输入“否”,则整个程序结束。实现过程import randomx=random.ran...原创 2020-03-21 18:45:26 · 6857 阅读 · 4 评论 -
Python中文乱码问题总结汇总
读写文件with open('maoyan_result.txt', 'a', encoding='utf-8') as f: f.write(json.dumps(content, ensure_ascii=False) + '\n') f.close()f= open('news6', 'w', encoding='utf-8-sig', newline=...原创 2020-03-04 17:55:05 · 970 阅读 · 0 评论 -
Python爬取、查询新冠肺炎地级市数据,matplotlib数据可视化
预期效果1.爬取截至最新时间,中国所有城市累计或者新增确诊、疑似等数据2.根据弹出的对话框选择想要查询的项目(如累计确诊、新增疑似)前N名城市,生成统计图。代码实现import jsonimport requestsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport csvu...原创 2020-02-13 00:50:59 · 4181 阅读 · 0 评论 -
爬虫爬取新冠肺炎统计数据,matplotlib数据可视化
每日新增疑似和湖北省内外确诊对比import jsonimport requestsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npurl="https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5"resp=requests.get(ur...原创 2020-02-12 18:43:56 · 4958 阅读 · 2 评论 -
爬取新冠肺炎疫情地图数据,pyecharts绘制地理分布图
效果预览爬取最新截止日期各个省累计确诊数据,并绘制地理分布图代码实现#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport requests#装了anaconda的可以pip install pyecharts安装pyechartsfrom pyecharts.charts import Map,Geofr...原创 2020-02-11 21:45:55 · 4400 阅读 · 0 评论 -
爬虫代理池的使用
代理池的作用用于解决爬虫时访问频率过高封ip的问题前期准备1.需要准备一个代理池,可以自己爬取一些IP做一个代理池(简单的做法可以是把IP放到txt文件读取,也可以自己使用开源代理池代码(借用别人做的代理池,不同代码效率有差异,免费代理池一般效率不高)放一个代理池链接:链接:https://pan.baidu.com/s/1w6FpNgFXhP3_wWBQOM441Q提取码:dtsx...原创 2020-01-04 22:30:27 · 1475 阅读 · 0 评论 -
Post请求爬取国家税务总局纳税信用A级纳税人信息
效果预览如图,目的是爬取国家税务总局2014-2018年国家税务总局各地纳税信用A级纳税人信息。基础代码import pandas as pdimport requestsURL='http://hd.chinatax.gov.cn/service/findCredit.do'HEADER = { 'Cookie':'yfx_c_g_u_id_10003701=_c...原创 2020-01-04 10:51:39 · 5951 阅读 · 22 评论 -
Python爬取个人博客信息汇总
效果预览爬取自己所写的每一条博客的标题、链接等信息:1 Python爬取上交所年报并下载 https://blog.youkuaiyun.com/weixin_43636302/article/details/932020062 Excel宏的录制 https://blog.youkuaiyun.com/weixin_43636302/article/details/1029812493 ...原创 2019-12-21 15:38:25 · 1564 阅读 · 0 评论 -
Python解析PDF文本
基本操作#pdfplumber对表格的处理能力强于pdfminerimport pdfplumberimport repath = r'E:\py_shiyan\Pycharm备份\Financial-data-collection-from-web--master\original_data/test3.pdf'pdf = pdfplumber.open(path)for page...原创 2019-12-19 00:15:34 · 1866 阅读 · 2 评论 -
正则爬取猫眼电影榜单信息
预期效果代码实现import requestsfrom requests.exceptions import RequestExceptionimport reimport jsondef get_one_page(url): try: response = requests.get(url, ...原创 2019-12-18 11:52:35 · 1029 阅读 · 0 评论 -
Selenium自动翻页爬取证券公司公告信息——以中国平安为例
预期效果该公司有198页公告,每一页有若干公告,通过代码爬取每一个公告标题日期等信息并根据关键字判断是否为所需要的信息,对所需要的公告位置作标记。代码实现from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common....原创 2019-12-18 11:46:13 · 1273 阅读 · 1 评论 -
正则、bs4爬取会计师事务所新闻信息——以利安达会计师事务所为例
预期效果可以看到,该事务所有1625条新闻纪录,一个一个点开查看判断,再下载所需要的新闻信息(发布时间、标题、内容、链接),比较麻烦,用爬虫可以较快实现这一过程。代码实现import requestsfrom bs4 import BeautifulSoupimport reimport csvn=0f= open('news6', 'w', encoding='utf-8-s...原创 2019-12-18 11:05:49 · 990 阅读 · 0 评论 -
Selenium爬取会计师事务所新闻信息——以中准会计师事务所为例
预期效果可以看到,该会计师事务所共有17页新闻,每一页有20条新闻,如果一个一新闻点开,收集具有某些关键字的新闻标题、内容、地址等信息,比较费时,使用爬虫可以较快爬取下来。代码实现from selenium import webdriverimport refrom selenium.common.exceptions import TimeoutExceptionfrom sel...原创 2019-12-18 10:46:35 · 980 阅读 · 0 评论 -
Python量化交易——爬取股票日K线画图检验股票策略
预期效果根据输入的数据爬取一段时期内每天的股价信息(以上证指数为例),根据15日均价制定简易的股票交易策略,并对结果作图展示。代码实现import jsonimport requestsimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef run(): ''' 主程序, 用来调度各...原创 2019-12-17 14:59:49 · 2442 阅读 · 0 评论 -
Selenium自动化测试工具——以爬取京东商品信息为例
需要安装的包import refrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverW...原创 2019-12-16 22:20:30 · 1277 阅读 · 0 评论 -
Python批量下载上交所、深交所年报或半年报并生成年报下载器exe文件
效果预览完整代码import requestsimport csvimport timeimport reimport mathimport osSTART_DATE =input('公布日期from:(xxxx-xx-xx)')END_DATE=input('公布日期to:(xxxx-xx-xx)')OUT_DIR =input('目录文件路径:')OUTPUT_...原创 2019-12-16 00:46:24 · 5238 阅读 · 1 评论 -
python代码直接生成可执行文件exe——以年报下载器制作为例
安裝 pyinstaller 库#在cmd命令行中运行pip install pyinstaller打包代码在已经创建好的项目下输入以下命令:#在pycharm中Terminal中定位到需要打包的项目文件cd /d E:\py_shiyan\Pycharm备份\Financial-data-collection-from-web--master\DIY\年报下载pyinstalle...原创 2019-12-16 00:35:01 · 2215 阅读 · 4 评论 -
Python读写txt文件、转换csv文件与pandas条件计数、求和的综合运用
Q1.从键盘输入一串字符串,将此字符串写入文件record.txt中。x=input('请输入需要写入的内容:')f1 = open('test.txt','a')f1.write(x)Q2.文件user.txt中存放用户的id,name和age信息,编程统计用户年龄大约20的人数。如 user.txt文件格式为:1 jack 202 john 223 ceily 194 bi...原创 2019-12-06 00:18:38 · 1825 阅读 · 0 评论 -
chromedriver在python环境下的配置与使用
因为Chrome设置的是自动更新,有时候突然python调用webdriver就报错了,最后查了半天发现是浏览器版本更新了,Chrome webdriver的版本是跟chrome版本相匹配的。webdriver与Chrome对应版本号chromedriver下载网址: http://chromedriver.storage.googleapis.com/index.html或者 http:/...原创 2019-11-27 00:29:27 · 2534 阅读 · 0 评论 -
Python中pandas和xlrd、xlwt操作Excel用法的总结
Xlrd读取Excelimport xlrdworkbook = xlrd.open_workbook(r'E:\py_shiyan\lianxi\遍历文件夹\test.xlsx')print(workbook.sheet_names())sheet2_name = workbook.sheet_names()[1]# sheet索引从0开始sheet2 = workbook.shee...原创 2019-11-22 13:13:28 · 3582 阅读 · 5 评论 -
python中使用xlrd、xlwt操作excel表格详解
python读excel——xlrd这个过程有几个比较麻烦的问题,比如读取日期、读合并单元格内容。下面先看看基本的操作:首先读一个excel文件,有两个sheet,测试用第二个sheet,sheet2内容如下:python 对 excel基本的操作如下:# -*- coding: utf-8 -*-import xlrdimport xlwtfrom datetime import ...转载 2019-11-22 12:57:18 · 1038 阅读 · 0 评论 -
【数据处理】pandas DataFrame 对多个sheet表格的excel 读取、处理、保存
要求大概是:有20多个excel表,每个表里有42个sheet表格(sheet数量和名字相同)。最终需要根据对应的sheet名称将所有表格拼接成一个。不同的excel文件,每个文件中相同的sheet名称。生成文件列表和sheet名称列表import pandas as pdimport os# 将excel中的sheet名称放入列表sheet_names = ["name1","n...转载 2019-11-22 01:05:45 · 6568 阅读 · 0 评论 -
Python数据分析基础——pandas用法
pd.Seriesimport pandas as pds=pd.Series([1,3,6,np.nan,44,1])print(s)生成数组dates=pd.date_range('20190101',periods=6)print(dates)df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','...原创 2019-11-19 22:33:44 · 1157 阅读 · 0 评论 -
Python数据分析基础——numpy用法
基本参数import numpy as nparray=np.array([[1,2,3], [2,3,4]])print(array)print("number of dim:",array.ndim)print("shape:",array.shape)print("size:",array.size)a=np.array([2,23,4],dty...原创 2019-11-19 10:44:57 · 911 阅读 · 0 评论 -
xpath helper安装和使用方法
1. 下载百度网盘:pan.baidu.com/s/1phXPKllX0-BA7IDxPGRhZA密码:yuuv2. 安装2.1 在导航栏中输入chrome://extensions,拖拽到浏览器,发现安装失败,此时将xpath-helper.crx修改后缀为rar,即:xpath-helper.rar,然后解压到到一个目录。2.2 google浏览器打开开发者模式,然后点“加载已解压的...转载 2019-11-18 23:51:00 · 1738 阅读 · 0 评论 -
Python爬虫实例——基于Xpath爬取西刺网站ip、端口信息
import requestsfrom parsel import Selector# from bs4 import BeautifulSoupdef getOneHtmlPage(page): url=f'https://www.xicidaili.com/nn/{page}' url='https://www.xicidaili.com/nn/%s'%(page) ...原创 2019-11-16 10:48:21 · 1080 阅读 · 0 评论 -
Pyhton里面format的几种等价用法
一般用法url='https://www.xicidaili.com/nn/{}'.format(page)item="{},{}".format(ip,port)等价用法url=f'https://www.xicidaili.com/nn/{page}'f"{ip},{port}"url='https://www.xicidaili.com/nn/'+pageitem=ip+...原创 2019-11-16 10:33:39 · 1215 阅读 · 0 评论 -
Python/Pycharm常用快捷键——笔记
Ctrl+ / ——注释或取消注释tab——缩进shift+tab——反向缩进Ctrl+F——查找Shift + F10 运行Shift + F9 调试待续ing原创 2019-11-16 09:54:26 · 880 阅读 · 0 评论 -
Python爬虫模块化格式
import requestsimport redef getOneSale(): passdef parseDataSales(): passdef saveData(): passdef main(): passif __name__=='__main__': main()原创 2019-11-14 11:17:29 · 1056 阅读 · 0 评论 -
Python爬虫基本流程梳理:构造请求头、发起请求、json格式数据解码转码、读写CSV文件——基于AJAX网页爬虫
构造请求头、发起请求、获取数据import csvurl=urlheaders = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"}params =...原创 2019-11-14 10:54:36 · 1211 阅读 · 0 评论 -
Python中输入任意字符型起始日期,转换成日期格式并循环遍历
效果预览代码实现说明:在爬取网页过程中,有的网页需要传入日期参数跳到下一页,需要对输入的日期进行格式转换以及基本运算。import time,datetimebegin_str = input('请输出开始日:(xxxx-xx-xx)')end_str = input('请输入终止日:(xxxx-xx-xx)')begin=datetime.datetime.strptime(b...原创 2019-11-14 10:16:14 · 1709 阅读 · 0 评论 -
Python自动化办公——生成Excel入库统计表
效果预览代码实现import xlrdimport xlwtfrom xlutils.copy import copyxlsx=xlrd.open_workbook('7月下旬入库表.xls')table=xlsx.sheet_by_index(0)all_data=[]for n in range(1,table.nrows): company=table.ce...原创 2019-11-13 22:16:53 · 1398 阅读 · 5 评论 -
Python中用Requests爬取名人名言网信息——基于BeautifulSoup和CSS选择器
效果预览代码实现也可用Scrapy框架实现,通过此代码可比较BeautifulSoup中CSS选择器和Scrapy中内置CSS选择器和Xpath用法的差别。Scrapy实现代码链接:https://mp.youkuaiyun.com/postedit/103038430和https://mp.youkuaiyun.com/postedit/103040563import requestsfrom bs4 im...原创 2019-11-13 19:41:19 · 1518 阅读 · 0 评论 -
Scrapy框架爬取dmoztools网站两个网址信息——基于Xpath内置选择器
问题背景目的是将该网站关于Python的书籍信息和资源信息爬取并导出。实现过程一、调出cmd窗口cd /d 所要保存的路径#t2为新建的文件名scrapy startproject t2cd q2scrapy genspider t2t dmoztools.net#接下来可直接在cmd窗口中进行测试,也可以到Python编辑器里面进行测试cd t2scrapy shel...原创 2019-11-12 23:23:37 · 962 阅读 · 0 评论
分享