- 博客(23)
- 资源 (2)
- 收藏
- 关注
原创 现成的python电商网站爬虫:可翻页爬取动态加载网站 + 静态网站
前言:大大小小的电商网站爬了不少。结论就是分两种类型:第一:requests 直接获取第二:网页动态加载,requests获取失败直接分享代码吧1.先导入需要的库和chromedriver的地址(爬动态加载的网页需要,若是requests可直接获取的网站可忽略)import time,re,pandas as pd,os,requestsfrom selenium import webdriverfrom bs4 import BeautifulSoupCHROME_DRI
2021-04-26 11:47:48
929
2
原创 分享一个基于python的将一个大excel拆成多个小excel,并压缩成一个文件
应用场景是这样的,一个大CSV文件很大,需要拆开分给不同人处理,注解看代码,缺少包自己安装呢import pandas as pd,os,math,zipfile,shutil#原 CSV的路径CSV_Path = '/Users/huangmengfeng/Downloads/lalala.csv'#输出 文件的文件夹,确保文件夹存在OUT_Dir = '/Users/huangmengfeng/Desktop/CSV_TO_XLSX'#每个小文件的条数Ad_Nums = 200
2020-08-10 14:39:02
716
原创 python实现带图片导出excel,如何让导出的表格里面有图片
做公司内部系统时,经常会遇到做表格数据的导出,表格导出很好实现,但是要实现带图片的导出就有点困难,下面楼主我分享一下自己写的脚本。导出数据里面需要包含图片连接,导出时会自动下载,并且保存到图片。需要导出的数据是export_items,大家应该换成自己对应的数据源head_filed 是 输出表格的表头字段哦import xlsxwriter,osfrom datetime import datetimefrom io import BytesIOfrom urllib.reque.
2020-05-27 18:23:27
2848
1
原创 批量将各类图片格式转化为大小更小的webp格式脚本
将待转化格式的图片放在一个文件夹,然后制定输出图片的文件夹即可from PIL import Imageimport osdef imgToWebp(input_img_path,img_width_args,img_height_args,out_img_path): im = Image.open(input_img_path) if img_width_args == 0: img_height = im.size[0] img_width
2020-05-27 18:13:28
354
原创 跨时区web系统解决方案
在开发的时候,我们为了时间的准确性,一般会取服务器上面的时间为标准时间。但是如果系统使用者和我们不在同一个时区,比如服务器的时间是北京时间,而系统使用者的时间是美国时间,这中间差了12小时。那么如何让服务器取记录系统使用者的本地时间呢?有人会说直接去使用者设备上的本地时间就好,但是这样会有问题,如果设备时间不准确,那么记录的时间也不准确所以不行。解决方案有多种,比如给使用者加上时区...
2019-05-08 14:49:56
2422
原创 excel数据预处理
数据预处理pandas对表格的操作也是基于xlwt,但是pandas读取数据要比xlrt更强大。xlrt 读取西班牙语的时候,会转成数组,pandas不会1.将数据二 值化将表格中某列只有两个结果,用1和0去替代2.单独修改一列为不同的值这里是修改 product_id 这一列数据,更新数据为它自身的某一部门import pandas as pd,osfrom pa...
2019-05-03 14:30:57
4319
原创 爬虫-获取鼠标点击或则移动到指定位置才能获得的动态加载数据
测试网站https://www.zalando.de/damen-home/ 一家电子商城网站我们的目的就是去爬取各个子分类下面的链接,这些数据必须到当鼠标移动到上面的横向导航栏菜单才会动态加载出对应的子菜单。主体思路使用selenium去模拟将鼠标放到航向导航栏,同时立刻获得下面加载出来的动态数据会涉及到 基于driver的网页元素操作以及附上源码:fro...
2019-05-03 09:45:07
5377
原创 python-表格数据统计
分享一个统计excel的关系统计脚本1.xlwt操作,合并单元格原表格:,去计算word1,word2,word3之之间的关系脚本处理后,可获得每个词语相关的词语的次数源码:import xlrd,re,os,xlwtimport operatordef exportExcel(path,field_attr=None): #词组 word_...
2019-05-02 17:28:11
4033
原创 selenium+chromedriver获取动态网页数据以及模拟鼠标操作后才能获得的数据
1.下载chromedriver,记住chromedriver和chrome浏览器版本有对应关系2.获得动态加载后的界面模拟鼠标操作,获得需要点击等特定操作后才能获得的动态加载的数据3.源码:from bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.webdriver.common.actio...
2019-05-02 15:51:05
2116
原创 在线表格的实现
在线表格,bootstrap里面的 table模块是可以实现的,但是只能按照原来的模式。反正自己工作的时候,经常用到,下班有没有什么事,经常打wangzhe,这次,就分享个脚本,经常在网上抄东西,是时候回报一波了。首先,vue官网,iview官网。初始界面:添加页面:保存之后最后源码:<!DOCTYPE html><html lang...
2019-04-30 19:14:47
1173
原创 python按分类爬取电子商城商品信息
不同网站解析不同,下面爬取的是电子商城是:https://www.asos.de/damen一家德国的电子商城1.爬取主页https://www.asos.de/damen,获得导航栏全部的分类链接2.遍历分类链接,爬取一个分类链接下全部商品,包括分页的商品信息3.将一个分类链接下的全部商品保存到excel表格,同时记录已爬取的分类链接4.爬虫结束知识点:1.requ...
2019-04-30 15:35:11
1431
原创 超级简单的前端 自动复制功能
实现原理,使用js代码模拟人操作,就是 选择数据,copy数据,(如果有需要,还可以帮你在指定位置粘贴数据哦)第一步:来一个可以选择的元素,例如<textarea id = 'copy_element'>要被粘贴的内容</textarea>第二步:JS模拟选择数据,这里选着数据其实是选择元素,能够自动获得文字,如果该元素有图片,也会在复制板//获得元素...
2019-03-20 20:58:58
6045
4
原创 前后端分离-01:怎么实现前后端分离?
第一步部分:后端(因为笔者是做后端的所以放在第一个),前后端的后端分两个部门。业务处理:里面包含model,算法,业务逻辑,网络通信,多线程,多进程。web服务器:使用任何能返回json和二进制的数据类型的框架就行。此时不再去控制前端页面的跳转了。第二部分:api文档服务器。api文档是作为连接后端和前端的桥梁。他定义了各种api文档的请求方式和返回数据的类型。文档室友后端的人员编写。...
2019-03-18 09:32:54
41673
原创 数据库访问 permission denied
首先介绍一下咋的问题项目在自己电脑上面使用python的脚本进行建表,项目结束后,在生产环境发布生产环境上面使用poweshell进行建表,问题来了,项目死活访问不了新建的表(确认过字段和用户完全一样),在python中使用try和except这两CP得到问题原因是 permission denied 的报错找了半天原因,页想不到回和权限有什么关系。网上搜索资料,又看到,...
2018-07-20 10:10:34
3400
原创 分享一个基于html+css+jquery的左边导航栏
废话少说,直接上代码,要求装了bootstrap运行需要的js和css文件先来效果图:这是html界面<body> <!-- 左边导航栏 开始--> <div id="menu"> <!--显示菜单--> <div id="open"> <div class="navH&
2018-07-18 11:55:18
10237
5
原创 javascript:替换字符串中指定字符
举个列子:如 日期 str1 = “2018/07/12”,我想换变成 "2018-07-12"辣么 str2 = replace(RegExp('-','g),'/) '-':代表替换后的字符串。'g':代表全部替换。 ‘/需要被替换的字符串...
2018-07-12 17:34:29
1592
原创 python-excel表格自动导入数据到数据库和数据库中指定的数据导出到excel
一 excel表格自动生成数据库表文件1:model.py 我这里使用的postgresql,根据自己使用的数据库修改import psycopg2#封装的插入数据库方法def insert(sql): try: conn = psycopg2.connect(database='test', user='postgres', password='root', h...
2018-07-11 19:30:56
4574
原创 Jquery事件嵌套导致事件重复绑定
问题:什么情况下会发生事件重复绑定?如下面例子第一次点击BtnA时,会处理a过程,点击BtnB时,处理b过程第二次点击BtnA时,正常处理a过程,但是点击BtnB时,b过程处理了两次第三次点击BtnA时,正常处理a过程,但是点击BtnB时,b过程处理了三次,以此类推$('.BtnA').click(function () { console.log('处理a过程') $("#Btn...
2018-07-11 18:56:23
680
转载 Jquery获取上级、下级或者同级的元素
下面介绍JQUERY的父,子,兄弟节点查找方法jQuery.parent(expr) 找父亲节点,可以传入expr进行过滤,比如$("span").parent()或者$("span").parent(".class")jQuery.parents(expr),类似于jQuery.parents(expr),但是是查找所有祖先元素,不限于父元素jQuery.children(expr).返回所有子...
2018-06-14 18:08:01
34463
转载 python字符串过滤
问题: 过滤用户输入中前后多余的空白字符 ‘ ++++abc123--- ‘ 过滤某windows下编辑文本中的’\r’: ‘hello world \r\n’ 去掉文本中unicode组合字符,音调 "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng" 如何解决以上问题? 去掉两端字符串: strip(), ...
2018-04-26 09:07:03
7317
转载 linux修复文件系统-fsck
filesys : device 名称(eg./dev/sda1),mount 点 (eg. / 或 /usr) -t : 给定档案系统的型式,若在 /etc/fstab 中已有定义或 kernel 本身已支援的则不需加上此参数 -s : 依序一个一个地执行 fsck 的指令来检查 -A : 对/etc/fstab 中所有列出来的 partition 做检查 -C : 显示完整的检查进度 ...
2018-04-12 21:39:24
2737
转载 python lambda函数
Lambda函数又称匿名函数,匿名函数就是没有名字的函数,函数没有名字也行?当然可以啦。有些函数如果只是临时一用,而且它的业务逻辑也很简单时,就没必要非给它取个名字不可。先来看个简单lambda函数>>> lambda x, y : x+y<function <lambda> at 0x102bc1c80>#1.函数式编程:例如:一个整数列表,要求按照列...
2018-04-01 09:33:14
8092
批量将各种图片格式进行转化成webp脚本
2020-05-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人