- 博客(98)
- 资源 (1)
- 收藏
- 关注
原创 爬取B站视频弹幕生成词云
效果预览以B站UP主可乐三太火影1-720集解说视频2020-08-07弹幕爬取为例,生成词云代码# -*- coding: utf-8 -*-# @Time : 2020/8/8 22:11# @Author : 马拉小龙虾# @FileName: B站弹幕.py# @Software: PyCharm Community Edition# @Blog :https://blog.youkuaiyun.com/weixin_43636302import requestsimpor
2020-08-09 00:41:56
1167
原创 爬取上交所和深交所的年报问询函到Excel
注意事项需要安装一些包,如pdfminer、pdfminer3k、pdfplumber等;pdfminer不能解析上交所问询函,使用解析功能更为强大的pdfplumber可以解析,但是内容上可能会出现个别字重复的现象;pdfminer3k、pdfplumber可能存在不兼容问题导致程序无法运行,解析上交所年报用到pdfplumber,如果不能运行,根据提示看是否安装了pdfminer,或者尝试卸载pdfminer3k重新安装pdfplumber;解析深交所年报用到pdfminer3k,如果安装了仍然
2020-08-07 00:43:51
2891
10
原创 Pycharm设置模板,自动生成作者、时间、版本等基本信息
效果预览每次新建代码文件自动生成以下基本信息实现过程点击:File→setting→CodeStyle→File and Code templates→Python script输入以下代码:# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : 马拉小龙虾# @FileName: ${NAME}.py# @Software: ${PRODUCT_NAME}# @Blog :https://blog.csd
2020-07-16 20:33:34
1866
原创 Python更改文件名、文件夹名,删除文件、文件夹
# -*- coding: utf-8 -*-# @Time : 2020/7/16 20:16# @Author : 马拉小龙虾# @FileName: rename2.py# @Software: PyCharm Community Edition# @Blog :https://blog.youkuaiyun.com/weixin_43636302import os,sys# import glob# from pathlib import Pathimport shutil
2020-07-16 20:24:12
1121
原创 爬取汽车之家所有汽车参数配置
效果预览汽车之家参数配置的页面无法右键查看网页源代码,不太好爬取,网上相关教程方法比较复杂,这里采用了两步走的爬取方法。即先获取所有车型的网页,再分别解析,逐步拆解。代码实现第一步,导入相关库import bs4import requests as reqimport reimport jsonimport csv第二步,下载出所有车型的网页def mainMethod(): li = [chr(i) for i in range(ord("A"), ord("Z")
2020-07-07 19:56:16
6098
2
原创 爬虫爬取国内肯德基门店信息
预期效果爬取每个城市(300+城市)所有的肯德基门店信息,保存到excel中,效果如下:代码实现import requestsimport csvimport jsondef getData(page,key): url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x6
2020-07-07 14:37:49
2383
原创 PDF加密以及去除密码小妙招
写在前面当我们频繁打开一些受保护的需要输入密码的PDF文件时,是否会觉得麻烦呢?在这里结合前人经验以及个人经历提供一个小妙招,不用下载软件,只需一个谷歌浏览器即可轻松搞定,不过前提是需要知晓密码,不知道密码想要解除密码的网上有很多搜索结果,但是会有各种各样的问题,这里暂不提供相关方法。除此之外:本文还提供了PDF文件加密的一些小知识,介绍如何给PDF设置密码,设置文档打开口令以及文档编辑打印口令。具体步骤Step 1:将要去除密码的PDF文件拖入到谷歌浏览器一个新窗口中Step 2:输入文档打开
2020-06-12 11:36:32
4288
原创 Python小程序解决不规则转置问题
情景引入如上图,一家上市公司只有一行数据,对应多次财务违规年份,想要变成纵向的数据,即一次财务违规对应一行数据,一家上市公司有多行数据的形式(如果有多次违规),如下图所示:实现过程一、先根据“,”将违规年份进行分列二、编写Python程序,思路是逐行进行处理,在每一行中判断单元格中的违规年份是否为空,不为空则新建一行,将该年份写入作为一行新的数据,具体代码如下:import csv...
2020-04-20 23:26:23
904
原创 下载知乎等网站视频小技巧
工具PC端谷歌浏览器步骤一、在谷歌浏览器打开知乎,播放要下载的视频二、右键检查,点击Network选项三、按F5刷新,在左侧的搜索框输入vzuu,查找视频文件四、复制右侧的Request URL并打开即可下载视频(PS:该方法可推广到其他网站,不限于知乎)...
2020-04-04 10:08:55
1919
原创 生僻字读音整理
生僻字原版词:陈柯宇 曲:陈柯宇 编曲:郑天宇我们中国的汉字 落笔成画留下五千年的历史 让世界都认识 我们中国的汉字 一撇一捺都是故事 跪举火把虔诚像道光 四方田地落谷成仓 古人象形声意辨恶良 魃(bá)魈(xiāo)魁(kuí)鬾(jì)魑(chī)魅(mèi)魍(wǎng)魉(liǎng)Wu 又双叒叕(ruò zhuó)Wu 火炎焱燚(yàn yì)Wu 水沝(z...
2020-03-30 15:16:38
2575
1
原创 用Python写猜数字小游戏
预期效果1、程序随机生成一个100以内(含100)的正整数2、将用户输入的答案与随机生成的整数进行比较,给出提示“猜大了”、“猜小了”或者“猜对了”3、用户可重复输入,直到猜对为止。4、该游戏可反复执行多次,每次游戏结束后,询问用户是否继续游戏,用户输入“是”,则游戏继续开始,重复步骤1-3;用户输入“否”,则整个程序结束。实现过程import randomx=random.ran...
2020-03-21 18:45:26
6789
4
原创 Stata回归结果导出到Excel的一键后续处理——基于Excel宏功能
预期效果Stata控制行业、年份回归,导出到Excel后,会生成很多很多行年份、行业的虚拟变量,需要手动调整格式,删除很多很多行才能复制粘贴到论文中,对于经常跑回归的人来说,一次一次重复很浪费时间,于是我利用Excel宏功能设置了条自动整理格式的宏。【宏运行前】【宏运行后】实现过程相信学过计量使用Stata的都知道如何从Stata输出多个回归结果到Excel:reg y1 x1 ...
2020-03-10 15:12:24
13689
2
原创 可见即可爬?——爬虫批量爬取百度音乐
预期效果批量下载百度音乐里某个歌手的全部歌曲代码实现import requestsimport jsonimport pprintimport redef getMusic(song_id): #抓包在media里面找更快,复制音频代码在搜索框里面搜索歌曲信息找到song_linnk,才抓包成果。如果是post请求,可删除cookise从新抓包。 # url='ht...
2020-03-04 18:43:54
1083
原创 Python中文乱码问题总结汇总
读写文件with open('maoyan_result.txt', 'a', encoding='utf-8') as f: f.write(json.dumps(content, ensure_ascii=False) + '\n') f.close()f= open('news6', 'w', encoding='utf-8-sig', newline=...
2020-03-04 17:55:05
941
原创 Python爬取、查询新冠肺炎地级市数据,matplotlib数据可视化
预期效果1.爬取截至最新时间,中国所有城市累计或者新增确诊、疑似等数据2.根据弹出的对话框选择想要查询的项目(如累计确诊、新增疑似)前N名城市,生成统计图。代码实现import jsonimport requestsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport csvu...
2020-02-13 00:50:59
4139
原创 爬虫爬取新冠肺炎统计数据,matplotlib数据可视化
每日新增疑似和湖北省内外确诊对比import jsonimport requestsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npurl="https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5"resp=requests.get(ur...
2020-02-12 18:43:56
4923
2
原创 爬取新冠肺炎疫情地图数据,pyecharts绘制地理分布图
效果预览爬取最新截止日期各个省累计确诊数据,并绘制地理分布图代码实现#!/usr/bin/env python# -*- coding: utf-8 -*-import jsonimport requests#装了anaconda的可以pip install pyecharts安装pyechartsfrom pyecharts.charts import Map,Geofr...
2020-02-11 21:45:55
4362
原创 爬虫代理池的使用
代理池的作用用于解决爬虫时访问频率过高封ip的问题前期准备1.需要准备一个代理池,可以自己爬取一些IP做一个代理池(简单的做法可以是把IP放到txt文件读取,也可以自己使用开源代理池代码(借用别人做的代理池,不同代码效率有差异,免费代理池一般效率不高)放一个代理池链接:链接:https://pan.baidu.com/s/1w6FpNgFXhP3_wWBQOM441Q提取码:dtsx...
2020-01-04 22:30:27
1433
原创 Post请求爬取国家税务总局纳税信用A级纳税人信息
效果预览如图,目的是爬取国家税务总局2014-2018年国家税务总局各地纳税信用A级纳税人信息。基础代码import pandas as pdimport requestsURL='http://hd.chinatax.gov.cn/service/findCredit.do'HEADER = { 'Cookie':'yfx_c_g_u_id_10003701=_c...
2020-01-04 10:51:39
5758
22
原创 Excel批量转置——录制会循环的宏
效果预览实现过程1.开发工具中选择相对引用,选择开始单元格(假设从1所在的单元格开始),点击录制宏;2.使用鼠标选择数字1-10,复制,再选择数字1所在的单元格右侧第二个单元格处,右键转置粘贴。然后选择数字11-20,复制,选择数字11所在的单元格右侧第二个单元格处,右键转置粘贴。然后选择21-30,重复前面的操作(多重复几次,便于改VBA代码时找规律)。3.选择列D-M,开始-查找-...
2019-12-28 15:57:01
3637
原创 Python爬取个人博客信息汇总
效果预览爬取自己所写的每一条博客的标题、链接等信息:1 Python爬取上交所年报并下载 https://blog.youkuaiyun.com/weixin_43636302/article/details/932020062 Excel宏的录制 https://blog.youkuaiyun.com/weixin_43636302/article/details/1029812493 ...
2019-12-21 15:38:25
1494
原创 珠算大九归之九三归
前言用123456789除93进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-20 11:54:51
1200
原创 珠算大九归之八六归
前言用123456789除86进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-20 11:38:38
1138
原创 珠算大九归之七四归
前言用123456789除74进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-20 11:20:47
1191
原创 珠算大九归之六八归
前言用123456789除68进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-20 00:13:20
1084
原创 珠算大九归之五五归
前言用123456789除55进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-20 00:03:43
1064
原创 珠算大九归之四七归
前言用123456789除47进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-19 23:56:57
1558
原创 珠算大九归之三九归
前言用123456789除39进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:2:3:4:5:6:7:8:9:结果:
2019-12-19 23:12:17
1232
原创 珠算大九归之二归四除
前言用123456789除24进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。step by step1:二一添作五,四五去二十。2:0,不操作。3:逢二进一,一四下去四,二一添作五,无除去一下还二,四四去一六。4:0,不操作。5:逢八进六,四四去一六。6:0,不操作。7:逢六进二,三四下去一二。8:逢四进二,二四下去八。9:见二无除作九二,无除去一下还二...
2019-12-19 11:15:00
1268
原创 珠算大九归之一六归
前言大九归,即珠算的两位数除法,其中以一六归和二四归较为经典(除16和除24),过去较为常用,以前一斤等于16两,故除16换算用得比较多。以123456789分别除11、除12…一直到除99进行练习。珠算除法练习一般用结果乘相应的除数还原来检验结果是否正确。step by step1:见一无除作九一,无除去一,无除去一下还一,无除去一下还一,无除去一下还一,六七去四二。2:见一无除作九一...
2019-12-19 10:40:04
2172
原创 珠算小九归之九归
前言用123456789除9进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。九归口诀九一下加一;九二下加二;九三下加三;九四下加四;九五下加五;九六下加六;九七下加七;九八下加八;逢九进一。step by step作为练习,先在算盘上摆出被除数123456789,以下数字分别表示对应位数的数值,口诀对应相应的位置。结果:...
2019-12-19 10:07:39
6488
原创 珠算小九归之八归
前言用123456789除8进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。八归口诀八一下加二;八二下加四;八三下加六;八四添作五;八五六余二;八六七余四;八七八余六;逢八进一。step by step作为练习,先在算盘上摆出被除数123456789,以下数字分别表示对应位数的数值,口诀对应相应的位置。结果:...
2019-12-19 10:03:21
1981
6
原创 珠算小九归之七归
前言用123456789除7进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。七归口诀七一下加三;七二下加六;七三四余二;七四五余五;七五七余一;七六八余四;逢七进一。step by step作为练习,先在算盘上摆出被除数123456789,以下数字分别表示对应位数的数值,口诀对应相应的位置结果:...
2019-12-19 09:54:38
2959
原创 珠算小九归之六归
前言用123456789除6进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。六归口诀六一下加四;六二三余二;六三添作五;六四六余四;六五八余二;逢六进一;逢双十二进六。step by step结果:...
2019-12-19 09:45:27
1777
原创 珠算小九归之五归
前言用123456789除5进行珠算练习;用结果乘相应的除数还原来检验结果是否正确(步骤略)。五归口诀在这里插入代码片step by step结果:
2019-12-19 09:25:52
1417
原创 Python解析PDF文本
基本操作#pdfplumber对表格的处理能力强于pdfminerimport pdfplumberimport repath = r'E:\py_shiyan\Pycharm备份\Financial-data-collection-from-web--master\original_data/test3.pdf'pdf = pdfplumber.open(path)for page...
2019-12-19 00:15:34
1829
2
原创 正则爬取猫眼电影榜单信息
预期效果代码实现import requestsfrom requests.exceptions import RequestExceptionimport reimport jsondef get_one_page(url): try: response = requests.get(url, ...
2019-12-18 11:52:35
1000
原创 Selenium自动翻页爬取证券公司公告信息——以中国平安为例
预期效果该公司有198页公告,每一页有若干公告,通过代码爬取每一个公告标题日期等信息并根据关键字判断是否为所需要的信息,对所需要的公告位置作标记。代码实现from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common....
2019-12-18 11:46:13
1234
1
原创 正则、bs4爬取会计师事务所新闻信息——以利安达会计师事务所为例
预期效果可以看到,该事务所有1625条新闻纪录,一个一个点开查看判断,再下载所需要的新闻信息(发布时间、标题、内容、链接),比较麻烦,用爬虫可以较快实现这一过程。代码实现import requestsfrom bs4 import BeautifulSoupimport reimport csvn=0f= open('news6', 'w', encoding='utf-8-s...
2019-12-18 11:05:49
960
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人