
爬虫
有人喜欢你
2017年开始接触MySQL,hive,2018年开始学习Python,2020年学习linux、html、css,2021年学习golang
展开
-
selenium python采集数据样例
不说了,直接上代码,但是登录验证还没找到办法绕过,找的各种资料也看不懂。# 公司股权穿透内容采集#%%from time import sleepfrom time import timeimport randomfrom selenium import webdriverbrower = webdriver.Chrome()src_url = r"https://aiqicha.baidu.com/?from=pz"brower.maximize_window()brower.i原创 2021-11-28 20:44:55 · 716 阅读 · 1 评论 -
菜鸟爬虫一_接数据简单整理并发送邮件_主要是打通流程
接爬虫练习,利用smtplib包发送邮件。最近刚好工作中需要python处理报表的自动发送任务,就chao到了smtplib的资料。主要三步:一、pandas读取数据转换为DataFrame格式,做好清洗。这是邮件的主体部分二、写好html的css样式,包在head头部里。三、调试smtp包的发送函数。整个是怎么实现的,老实讲不懂。不过感觉邮件内容主要是文本内容,所以非常好的支持html文本标记语言,css样式+to_html后的内容+html的标签,实现起来也比较直观。截图部分取了邮件的标题、原创 2020-10-28 23:21:21 · 603 阅读 · 0 评论 -
菜鸟爬虫自由练习一>改进版
本篇主要是在爬取环节,引入正则,进行数据清洗。对【菜鸟爬虫自由练习一】的改进版。https://blog.youkuaiyun.com/heart_FW/article/details/109189803emmmm 正则挺不容易的,但正则太有用了# -*- coding: utf-8 -*-"""Created on Sun Oct 25 17:13:18 2020@author: heart"""import requestsfrom bs4 import BeautifulSoupimport原创 2020-10-25 18:51:00 · 686 阅读 · 0 评论 -
菜鸟爬虫自由练习一
本次是对前一次爬虫代码的练习。内容估计对从事互金的同学有些帮助,如能起到一点帮助作用,深感荣幸。这也是第一次自行尝试构建爬虫。当然起步还是捡容易的做,毕竟在尝试这个网站之前,另一个网站被反爬了暂时还无解。hhhhh同样的在代码部分dic_c和dic_h部分做了删减处理,请使用的同学替换为自己电脑的heager和cookies,查看路径newwork–doc-刷新页面–name找到右边的header和cookies,相信聪明的你百度下很快能找到的。第一部分内容为源代码构建,爬取的是总平台数据信息,结果来原创 2020-10-20 21:36:17 · 608 阅读 · 0 评论 -
正则表达式,强密码判断
def isstrongpwd(pwd): '''强密码判断,必须同时包含大小写字母和至少一个数字''' pat0 = re.compile(r'[A-Z]') mo0 = pat0.findall(pwd) pat1 = re.compile(r'[a-z]') mo1 = pat1.findall(pwd) pat2 = re.compile(r'\d+') mo2 = pat2.findall(pwd) if len(pwd) <原创 2020-05-24 11:51:14 · 673 阅读 · 0 评论 -
selenium框架爬取p2p问题平台信息,需加载点击页面的。
@TOCselenium框架爬取p2p问题平台信息# -*- coding: utf-8 -*-"""Created on Tue Dec 10 07:03:57 2019@author: heart"""import randomfrom selenium import webdriverimport reimport time import osimport wa...原创 2019-12-10 08:01:54 · 263 阅读 · 0 评论