自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 收藏
  • 关注

原创 django模型——ORM模型2

在这里我随便拿个项目进行下列操作返回列表的过滤器如下:all():返回所有数据filter():返回满足条件的数据exclude():返回满足条件之外的数据,相当于sql语句中where部分的not关键字order_by():排序,参数为字段名,-号表示降序views.pypost_list1 = Post.objects.all()[1:] # all():返回所有数据print('返回所有数据:',post_list1)

2024-12-19 14:15:02 1131

原创 django模型——ORM模型1

在这里我们用上次的数据库来进行演示吧由于python3.6的老是爆红,影响美观,所以我先更换成python3.8+django1.8.2的虚拟环境吧这下运行就没问题了模型models.py字段有这些因为这里除了id,其他字段皆用的char类型,但我们应知道还有其他字段类型1. AutoField:自动增长的IntegerField,通常不用指定,不指定时Django会自动创建属性名为id的自动增长属性2. BooleanField:布尔字段,值为True或False。

2024-12-18 13:20:23 655

原创 django连接MySQL数据库

因为经常做django项目时,用到的数据都是经过爬虫手段保存在MySQL数据库中的,所以今天我们就来看看怎么将django与MySQL数据库连接在一起吧。1.将原来有数据的表zgddxs改名为myapp_zgddxs,没数据的myapp_zgddxs命名为其他的。'PASSWORD': 'wx990826', # 数据库密码。要想将数据库中的内容读取到,则需要在models.py里面写入对应的字段。比如在这里,我们后期要用这里面的数据来完成我们的django项目时。首先,我们先看一下该表的设计结构。

2024-12-17 13:17:18 518

原创 django项目4——个人博客项目(下)

后台管理页面已经做的差不多了,那下面应该就是做公共站点,也就是给别人看的网页部分。对于django的设计框架MVT,用户在URL中请求的是视图,视图接收请求后进行处理,并将处理的结果返回给请求者。打开上次的personal_blog博客项目,在templates下面创建blog文件夹,然后在blog文件夹下创建主页index.html,博客界面list.html,详情页界面detail.html。

2024-12-16 12:27:37 355

原创 中间准备——视图和模板基础

url(r'^detail/(\d+)/(\d+)/(\d+)', detail), #动态路由 \d+表示1个或者多个数字 ()表示提取。url(r'^detail/(\d+)', detail), #动态路由 \d+表示1个或者多个数字 ()表示提取。并在templates/myapp下再创建一个detail.html。在myapp和myapp2下各创建一个urls.py。myapp/views.py创建一个detail函数。在myapp2/views.py中。在myapp/models.py中。

2024-12-15 11:39:43 827

原创 django项目4——个人博客项目(上)

发现只显示标题——只需在 admin.py 中使用admin.site.register(模型类) 注册模型类,Django就能构造一个默认的表单。但是,默认管理表单不够美观,展示的数据量不够,我们需要要自定义管理界面中表单的外观和功能。在列表页只列出了str方法的返回值,对象的其它属性并没有列出来,查看非常不方便Django提供了自定义管理页面的功能,比如列表页要显示那些字段打开personal_blog/admin.py文件,自定义类,继承自admin.ModelAdmin类属性。

2024-12-14 10:33:53 818

原创 django——admin后台管理1

admin.register(LoginUser)#注册方式2#自定义列表页#注册方式1展示多对多则不是如此应当然后在admin.py将这个改为中文user_name=models.CharField('用户名',max_length=20)desc=models.CharField('描述',max_length=20)age=models.CharField('年龄',max_length=20,default='')注意一对多和多对多不能这样修改应当。

2024-12-13 22:12:59 1167

原创 django项目3——连接sqlite数据库

return HttpResponse("这是一道白切鸡!!!!!!!!")index.html<head></head><body><h1 style="background-color:greenyellow">这是一道白切鸡!!!!

2024-12-13 11:08:53 1588

原创 django项目2——django版本为3.xx或者4.xx的创建哈

返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂!!!!")

2024-12-12 12:30:09 951

原创 django项目1——django版本为1.8.2的创建哈

返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂!!!!")

2024-12-12 11:35:42 652

原创 Anaconda安装与配置

C:\Users\温温阿絮>conda activate py36_pingping。cd E:\django学习\day02-django入门。先删除原来的python解释器的环境变量​​​。复制.condarc到家目录下。配置anaconda环境变量。然后再次激活虚拟环境。

2024-12-11 15:14:07 860

原创 windows虚拟环境搭建

将刚刚创建的django项目拖入pycharm中,点击manage.py文件,发现此时报错。#pip install virtualenvwrapper #非windows系统。#mkvirtualenv -p 真实python环境路径 虚拟环境文件夹名字。进入file——settings——Project。——inter解释器。虚拟环境默认会创建在家目录下的Envs路径下。workon #显示有哪些虚拟环境。activate # 启动虚拟环境。# 任意一个路径下退出虚拟环境。# 进入虚拟环境文件。

2024-11-12 19:14:00 1088

原创 pandas——排序+处理缺失数据

根据某个唯一的列名进行排序,如果有其他相同列名则报错。排序默认使用升序排序,

2024-11-12 14:15:29 472

原创 pandas——对齐运算+函数应用

引言:对齐运算是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN。

2024-11-05 20:31:07 432

原创 pandas——DataFrame

file.csv生成的file1.csv2,B3,C4,D。

2024-11-01 20:08:05 1360

原创 pandas——数据结构

【代码】pandas——数据结构。

2024-10-29 12:40:22 775

原创 numpy——索引切片

【代码】numpy——索引切片。

2024-10-28 21:02:00 481

原创 numpy——数学运算

【代码】numpy——数学运算。

2024-10-28 19:26:27 615

原创 numpy——数组创建

shape 属性:维度大小。ndim 属性:维度个数。dtype 属性:数据类型。

2024-10-27 13:16:59 714

原创 爬取王者荣耀英雄资料数据

https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/505/505-bigskin-4.jpg ---(大)https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/504/504-bigskin-1.jpg--直接修改。4.通过对地址的分析观察 发现只需要替换英雄的id即可下载对应的英雄的皮肤图片。3.由于在英雄列表页是观察不到英雄的皮肤数据 所以需要进入英雄的详情页去观察。

2024-10-25 19:30:11 723

原创 scrapy案例——读书网列表页和详情页的爬取

5. follow:连接提取器提取的url地址对应的响应是否还会继续被rules中的规则进行提取,True表示会,Flase表示不会。4. callback :表示经过连接提取器提取出来的url地址响应的回调函数,可以没有,没有表示响应不会进行回调函数的处理。3. LinkExtractor:连接提取器,可以通过正则或者是xpath来进行url地址的匹配。1.爬取读书网中中国当代小说中的列表页中的书名、作者、书的图片和书本详情。2.爬取列表页中对应的详情页面的价格、出版社和出版时间。

2024-10-24 19:40:54 1157

原创 scrapy案例——当当网的爬取二

第二页 http://category.dangdang.com/pg2-cp01.03.41.00.00.00.html。1.使用scrapy爬虫技术爬取当当网中科幻小说的书籍数据,包括(图片、标题、作者和价格)#管道可以有很多个,因此管道有优先级 范围1-1000 值越小优先级越高。项目名称:当当网的爬取一——爬取科幻小说的书籍数据。2.将获取到的数据保存在本地josn文件中。6.将图片下载至本地books文件夹中。3.将图片保存在本地文件夹中。

2024-10-23 17:38:06 701

原创 scrapy案例——当当网的爬取一

1.使用scrapy爬虫技术爬取当当网中青春文学的书籍数据,包括(标题、现价、定价、作者、出版日期、出版社、书本详情和书本图片url)第二页 http://category.dangdang.com/pg2-cp01.01.00.00.00.00.html。第三页 http://category.dangdang.com/pg3-cp01.01.00.00.00.00.html。项目名称:当当网的爬取一——爬取青春文学的书籍数据。2.将获取到的数据保存在数据库中。

2024-10-22 20:23:12 652

原创 scrapy案例——豆瓣电影Top250的爬取

1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据(包括排名、电影名称、导演、演员、url、评分)1.找到正确的数据吧,并复制正确的请求url。做好准备:开启管道、关闭君子协议、伪造浏览器。3.将爬取下来的数据保存在数据库中。项目:豆瓣电影Top250的爬取。2.解析数据:如title。2.实现分页爬取,共十页。

2024-10-20 18:33:52 858

原创 scrapy案例——链家租房数据的爬取

json_data = json.dumps(dict_data,ensure_ascii=False)+'\n'#ensure_ascii=False 不要让数据编程编码。这时运行结果item为空字典——则需要开开启管道才可写入数据——settings。link = scrapy.Field() # 价格。print('管道文件的item',item)price = scrapy.Field()#价格。name = scrapy.Field()#标题。#用完之后 关闭文件。#3.将数据打包 实例化类。

2024-10-19 20:19:29 1374

原创 爬虫——scrapy的基本使用

定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中提取数据的方法每yield一次item,就会运行一次# 该方法为固定名称函数# 参数item默认是一个 <class 'mySpider.items.MyspiderItem'>类信息,需要处理成字典# 将返回的字典数据转为JSON数据# 写入JSON数据# 参数item:是爬虫文件中yield的返回的数据对象(引擎会把这个交给管道中的这个item参数)

2024-10-18 21:29:14 2916

原创 selenium案例——爬取哔哩哔哩排行榜

comment_counts = soup.select('.info .detail-state .data-box:nth-of-type(2)') # 评论量。play_counts = soup.select('.info .detail-state .data-box:nth-of-type(1)') # 播放量。up_names = soup.select('.info .up-name') # up主。ws.append(['标题','up主','播放量','评论量'])

2024-10-17 10:10:36 1032

原创 selenium基本使用

窗口切换 switch_to_window(窗口ID) switch_to.window(窗口ID) (python3.8以上版本都支持,python3.7只支持后者写法)browser.find_element(By.LINK_TEXT,"新闻").click() # 通过.click()点击目标链接。find_element_by_partial_link_text 可以只写部分超链接文字。find_element_by_class_name 根据class的名字来定位。

2024-10-14 14:36:34 813

原创 selenium安装

1,安装selenium-- 命令:-- 网络不稳的请换源安装:1.查看谷歌浏览器版本打开谷歌浏览器——点击左侧三个点——点击帮助——点击关于Google chrome2.下载谷歌浏览器webdriver驱动打开百度,输入chrome webdriver,下载谷歌浏览器webdriver驱动或者点击https://www.cnblogs.com/aiyablog/articles/17948703#:~:text=chromedriv-- 根据自己谷歌版本选择驱动器-- 选择对应版本,如果没有对应版本选择跟

2024-10-13 10:32:13 1842 1

原创 爬虫案例——网易新闻数据的爬取

print('==========', '当前是第{}页'.format(i))该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取。因为该网页不是常规的josn源码数据,所以需要进行一些处理。3.利用jsonpath解析数据。2.爬取所有数据(翻页参数)利用josnpath解析数据。1.爬取该新闻网站——()的数据,包括标题和链接。可以看到第一页请求网址。首页地址为第一页地址。

2024-10-12 09:19:05 2167

原创 requests案例——爬取微博的一级和二级评论

一级评论接口:https://m.weibo.cn/comments/hotflow?二级评论接口:https://m.weibo.cn/comments/hotFlowChild?max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)print('-------二级评论-------')

2024-10-11 12:03:50 1481

原创 反爬机制——验证码识别

1.获取登录接口的请求地址2.获取解析验证码图片链接#解析图片链接 https://so.gushiwen.cn/RandCode.ashx3.将其保存在本地4.但由于验证码是动态的,每次都不一样,所以解决方案——session会话来维持#实例化session5.得到图片后,想要将其读取出来——需要用到超级鹰。

2024-10-10 12:33:22 1465

原创 爬虫工具——Fidder的安装

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。查看你的本机IP地址,在Fiddler的右上角有一个Online按钮,点击一下会显示你的IP信息。打开你的手机,找到你所连接的WIFI,长按选择修改网络,输入密码后往下拖动,然后选择wifi。XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。ImageVies —— 如果请求是图片资源,显示响应的图片。

2024-10-09 10:18:28 433

原创 爬虫案例——爬取腾讯社招

wb = workbook.Workbook() # 创建Excel对象。ws.append(['职称', '链接', '时间', '公司名称'])print("第{}页已经保存完毕!my_list = [z,l,s,g] # 以列表形式写入。4.保存数据:txt文本形式和excel文件两种形式。——异步(查看xhr)wb.save('腾讯社招.xlsx')4.删除不必要的,找到正确的(可删可不删)5.该网站反爬手段比较强,给其进行伪装。2.找到正确的数据包——看响应内容。1.爬取腾讯社招的数据(

2024-10-08 09:21:46 3240

原创 爬虫案例——爬取长沙房产网租房信息

price = s.find_all('span',{'class':'content__list--item-price'})#价格。content = s.find_all('p',{'class':'content__list--item--des'})#地址。print('==========','当前是第{}页'.format(i))包括租房标题、标题链接,价格和地址。refere参数:代表页面的来源。处理获取到的地址、价格和租房标题。翻页参数和refere参数。3.使用bs4解析数据。

2024-10-07 13:56:59 1111

原创 爬虫案例——爬取情话网数据

1.爬取情话网站中表白里面的所有句子(3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推,详情页文本对应的解析语法。2.利用XPath来进行解析。

2024-10-06 13:48:56 1140 1

原创 爬虫——XPath基本用法

xpth解析(1)本地文件 etree.parse(2)服务器响应的数据 response.read().decode('utf-8') etree.HTML()

2024-10-05 18:04:14 2031

原创 requests案例——腾讯新闻数据的爬取

2.因为新闻都是实时更新的,所以虽然有161页,但是一般最后一页大多无数据,这会导致爬取数据错误,所以需要添加一个异常处理。1.检查一下使用的openpyxl是最新版本,因为这个问题可能已经在新版本中被修复。print(f"请求失败,状态码:{r.status_code}")1.利用requests方法爬取腾讯新闻的数据(包括新闻名字和对应新闻链接)print(f"请求异常:{e}")print(f"解析异常:{e}")3.将爬取下来的数据保存在excel文件中。4.利用jsonpath来解析获取的数据。

2024-10-05 14:33:42 1217

原创 数据提取之JSON与JsonPATH

爬虫最常用1、数据抓取 - json.loads(html)将响应内容由: json 转为 python2、数据保存 - json.dump(item_list,f,ensure_ascii=False)将抓取的数据保存到本地 json文件抓取数据一般处理方式1、txt文件2、csv文件3、json文件4、MySQL数据库5、MongoDB数据库6、Redis数据库。

2024-10-04 11:11:07 1682

原创 爬虫——BS4基本用法

1.是一个高效的网页解析库,可以从HTML或XML文件中提取数据2.支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析3.就是一个非常强大的工具,爬虫利器4.一个灵感又方便的网页解析库,处理高效,支持多种解析器5.利用它就不用编写正则表达式也能方便的实现网页信息的抓取。

2024-10-03 17:05:07 1072

selenium自动化爬虫爬取苏宁易购中连衣裙的数据

selenium自动化爬虫爬取苏宁易购中连衣裙的数据(包括标题、价格、标签、评价人数和店铺名),实现翻页获取,使用bs4解析获取的数据,并保存在excel

2024-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除