人生の三重奏-优快云博客

原创 django模型——ORM模型2

在这里我随便拿个项目进行下列操作返回列表的过滤器如下：all()：返回所有数据filter()：返回满足条件的数据exclude()：返回满足条件之外的数据，相当于sql语句中where部分的not关键字order_by()：排序，参数为字段名，-号表示降序views.pypost_list1 = Post.objects.all()[1:] # all()：返回所有数据print('返回所有数据:',post_list1)

2024-12-19 14:15:02 1131

原创 django模型——ORM模型1

在这里我们用上次的数据库来进行演示吧由于python3.6的老是爆红，影响美观，所以我先更换成python3.8+django1.8.2的虚拟环境吧这下运行就没问题了模型models.py字段有这些因为这里除了id，其他字段皆用的char类型，但我们应知道还有其他字段类型1. AutoField：自动增长的IntegerField，通常不用指定，不指定时Django会自动创建属性名为id的自动增长属性2. BooleanField：布尔字段，值为True或False。

2024-12-18 13:20:23 655

原创 django连接MySQL数据库

因为经常做django项目时，用到的数据都是经过爬虫手段保存在MySQL数据库中的，所以今天我们就来看看怎么将django与MySQL数据库连接在一起吧。1.将原来有数据的表zgddxs改名为myapp_zgddxs，没数据的myapp_zgddxs命名为其他的。'PASSWORD': 'wx990826', # 数据库密码。要想将数据库中的内容读取到，则需要在models.py里面写入对应的字段。比如在这里，我们后期要用这里面的数据来完成我们的django项目时。首先，我们先看一下该表的设计结构。

2024-12-17 13:17:18 518

原创 django项目4——个人博客项目（下）

后台管理页面已经做的差不多了，那下面应该就是做公共站点，也就是给别人看的网页部分。对于django的设计框架MVT，用户在URL中请求的是视图，视图接收请求后进行处理，并将处理的结果返回给请求者。打开上次的personal_blog博客项目，在templates下面创建blog文件夹，然后在blog文件夹下创建主页index.html，博客界面list.html，详情页界面detail.html。

2024-12-16 12:27:37 355

原创中间准备——视图和模板基础

url(r'^detail/(\d+)/(\d+)/(\d+)', detail), #动态路由 \d+表示1个或者多个数字（）表示提取。url(r'^detail/(\d+)', detail), #动态路由 \d+表示1个或者多个数字（）表示提取。并在templates/myapp下再创建一个detail.html。在myapp和myapp2下各创建一个urls.py。myapp/views.py创建一个detail函数。在myapp2/views.py中。在myapp/models.py中。

2024-12-15 11:39:43 827

原创 django项目4——个人博客项目（上）

发现只显示标题——只需在 admin.py 中使用admin.site.register(模型类) 注册模型类，Django就能构造一个默认的表单。但是，默认管理表单不够美观，展示的数据量不够，我们需要要自定义管理界面中表单的外观和功能。在列表页只列出了str方法的返回值，对象的其它属性并没有列出来，查看非常不方便Django提供了自定义管理页面的功能，比如列表页要显示那些字段打开personal_blog/admin.py文件，自定义类，继承自admin.ModelAdmin类属性。

2024-12-14 10:33:53 818

原创 django——admin后台管理1

admin.register(LoginUser)#注册方式2#自定义列表页#注册方式1展示多对多则不是如此应当然后在admin.py将这个改为中文user_name=models.CharField('用户名',max_length=20)desc=models.CharField('描述',max_length=20)age=models.CharField('年龄',max_length=20,default='')注意一对多和多对多不能这样修改应当。

2024-12-13 22:12:59 1167

原创 django项目3——连接sqlite数据库

return HttpResponse("这是一道白切鸡！！！！！！！！")index.html<head></head><body><h1 style="background-color:greenyellow">这是一道白切鸡！！！！

2024-12-13 11:08:53 1588

原创 django项目2——django版本为3.xx或者4.xx的创建哈

返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂！！！！")

2024-12-12 12:30:09 951

原创 django项目1——django版本为1.8.2的创建哈

返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂！！！！")

2024-12-12 11:35:42 652

原创 Anaconda安装与配置

C:\Users\温温阿絮>conda activate py36_pingping。cd E:\django学习\day02-django入门。先删除原来的python解释器的环境变量。复制.condarc到家目录下。配置anaconda环境变量。然后再次激活虚拟环境。

2024-12-11 15:14:07 860

原创 windows虚拟环境搭建

将刚刚创建的django项目拖入pycharm中，点击manage.py文件，发现此时报错。#pip install virtualenvwrapper #非windows系统。#mkvirtualenv -p 真实python环境路径虚拟环境文件夹名字。进入file——settings——Project。——inter解释器。虚拟环境默认会创建在家目录下的Envs路径下。workon #显示有哪些虚拟环境。activate # 启动虚拟环境。# 任意一个路径下退出虚拟环境。# 进入虚拟环境文件。

2024-11-12 19:14:00 1088

原创 pandas——排序+处理缺失数据

根据某个唯一的列名进行排序，如果有其他相同列名则报错。排序默认使用升序排序，

2024-11-12 14:15:29 472

原创 pandas——对齐运算+函数应用

引言：对齐运算是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN。

2024-11-05 20:31:07 432

原创 pandas——DataFrame

file.csv生成的file1.csv2,B3,C4,D。

2024-11-01 20:08:05 1360

原创 pandas——数据结构

【代码】pandas——数据结构。

2024-10-29 12:40:22 775

原创 numpy——索引切片

【代码】numpy——索引切片。

2024-10-28 21:02:00 481

原创 numpy——数学运算

【代码】numpy——数学运算。

2024-10-28 19:26:27 615

原创 numpy——数组创建

shape 属性：维度大小。ndim 属性：维度个数。dtype 属性：数据类型。

2024-10-27 13:16:59 714

原创爬取王者荣耀英雄资料数据

https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/505/505-bigskin-4.jpg ---（大）https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/504/504-bigskin-1.jpg--直接修改。4.通过对地址的分析观察发现只需要替换英雄的id即可下载对应的英雄的皮肤图片。3.由于在英雄列表页是观察不到英雄的皮肤数据所以需要进入英雄的详情页去观察。

2024-10-25 19:30:11 723

原创 scrapy案例——读书网列表页和详情页的爬取

5. follow：连接提取器提取的url地址对应的响应是否还会继续被rules中的规则进行提取，True表示会，Flase表示不会。4. callback :表示经过连接提取器提取出来的url地址响应的回调函数，可以没有，没有表示响应不会进行回调函数的处理。3. LinkExtractor:连接提取器，可以通过正则或者是xpath来进行url地址的匹配。1.爬取读书网中中国当代小说中的列表页中的书名、作者、书的图片和书本详情。2.爬取列表页中对应的详情页面的价格、出版社和出版时间。

2024-10-24 19:40:54 1157

原创 scrapy案例——当当网的爬取二

第二页 http://category.dangdang.com/pg2-cp01.03.41.00.00.00.html。1.使用scrapy爬虫技术爬取当当网中科幻小说的书籍数据，包括（图片、标题、作者和价格）#管道可以有很多个，因此管道有优先级范围1-1000 值越小优先级越高。项目名称：当当网的爬取一——爬取科幻小说的书籍数据。2.将获取到的数据保存在本地josn文件中。6.将图片下载至本地books文件夹中。3.将图片保存在本地文件夹中。

2024-10-23 17:38:06 701

原创 scrapy案例——当当网的爬取一

1.使用scrapy爬虫技术爬取当当网中青春文学的书籍数据，包括（标题、现价、定价、作者、出版日期、出版社、书本详情和书本图片url）第二页 http://category.dangdang.com/pg2-cp01.01.00.00.00.00.html。第三页 http://category.dangdang.com/pg3-cp01.01.00.00.00.00.html。项目名称：当当网的爬取一——爬取青春文学的书籍数据。2.将获取到的数据保存在数据库中。

2024-10-22 20:23:12 652

原创 scrapy案例——豆瓣电影Top250的爬取

1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据（包括排名、电影名称、导演、演员、url、评分）1.找到正确的数据吧，并复制正确的请求url。做好准备：开启管道、关闭君子协议、伪造浏览器。3.将爬取下来的数据保存在数据库中。项目：豆瓣电影Top250的爬取。2.解析数据：如title。2.实现分页爬取，共十页。

2024-10-20 18:33:52 858

原创 scrapy案例——链家租房数据的爬取

json_data = json.dumps(dict_data,ensure_ascii=False)+'\n'#ensure_ascii=False 不要让数据编程编码。这时运行结果item为空字典——则需要开开启管道才可写入数据——settings。link = scrapy.Field() # 价格。print('管道文件的item',item)price = scrapy.Field()#价格。name = scrapy.Field()#标题。#用完之后关闭文件。#3.将数据打包实例化类。

2024-10-19 20:19:29 1374

原创爬虫——scrapy的基本使用

定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中提取数据的方法每yield一次item，就会运行一次# 该方法为固定名称函数# 参数item默认是一个 <class 'mySpider.items.MyspiderItem'>类信息，需要处理成字典# 将返回的字典数据转为JSON数据# 写入JSON数据# 参数item:是爬虫文件中yield的返回的数据对象（引擎会把这个交给管道中的这个item参数）

2024-10-18 21:29:14 2916

原创 selenium案例——爬取哔哩哔哩排行榜

comment_counts = soup.select('.info .detail-state .data-box:nth-of-type(2)') # 评论量。play_counts = soup.select('.info .detail-state .data-box:nth-of-type(1)') # 播放量。up_names = soup.select('.info .up-name') # up主。ws.append(['标题','up主','播放量','评论量'])

2024-10-17 10:10:36 1032

原创 selenium基本使用

窗口切换 switch_to_window(窗口ID) switch_to.window(窗口ID) (python3.8以上版本都支持，python3.7只支持后者写法)browser.find_element(By.LINK_TEXT,"新闻").click() # 通过.click()点击目标链接。find_element_by_partial_link_text 可以只写部分超链接文字。find_element_by_class_name 根据class的名字来定位。

2024-10-14 14:36:34 813

原创 selenium安装

1，安装selenium-- 命令：-- 网络不稳的请换源安装：1.查看谷歌浏览器版本打开谷歌浏览器——点击左侧三个点——点击帮助——点击关于Google chrome2.下载谷歌浏览器webdriver驱动打开百度，输入chrome webdriver，下载谷歌浏览器webdriver驱动或者点击https://www.cnblogs.com/aiyablog/articles/17948703#:~:text=chromedriv-- 根据自己谷歌版本选择驱动器-- 选择对应版本，如果没有对应版本选择跟

2024-10-13 10:32:13 1842 1

原创爬虫案例——网易新闻数据的爬取

print('==========', '当前是第{}页'.format(i))该网站属于异步加载网站——直接网页中拿不到，需要借助fidder抓包工具拿取。因为该网页不是常规的josn源码数据，所以需要进行一些处理。3.利用jsonpath解析数据。2.爬取所有数据（翻页参数）利用josnpath解析数据。1.爬取该新闻网站——（）的数据，包括标题和链接。可以看到第一页请求网址。首页地址为第一页地址。

2024-10-12 09:19:05 2167

原创 requests案例——爬取微博的一级和二级评论

一级评论接口:https://m.weibo.cn/comments/hotflow?二级评论接口:https://m.weibo.cn/comments/hotFlowChild?max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)print('-------二级评论-------')

2024-10-11 12:03:50 1481

原创反爬机制——验证码识别

1.获取登录接口的请求地址2.获取解析验证码图片链接#解析图片链接 https://so.gushiwen.cn/RandCode.ashx3.将其保存在本地4.但由于验证码是动态的，每次都不一样，所以解决方案——session会话来维持#实例化session5.得到图片后，想要将其读取出来——需要用到超级鹰。

2024-10-10 12:33:22 1465

原创爬虫工具——Fidder的安装

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header，显示为一个分级视图，包含了 Web 客户端信息、Cookie、传输状态等。查看你的本机IP地址，在Fiddler的右上角有一个Online按钮，点击一下会显示你的IP信息。打开你的手机，找到你所连接的WIFI，长按选择修改网络，输入密码后往下拖动，然后选择wifi。XML —— 如果请求的 body 是 XML 格式，就是用分级的 XML 树来显示它。ImageVies —— 如果请求是图片资源，显示响应的图片。

2024-10-09 10:18:28 433

原创爬虫案例——爬取腾讯社招

wb = workbook.Workbook() # 创建Excel对象。ws.append(['职称', '链接', '时间', '公司名称'])print("第{}页已经保存完毕！my_list = [z,l,s,g] # 以列表形式写入。4.保存数据：txt文本形式和excel文件两种形式。——异步（查看xhr）wb.save('腾讯社招.xlsx')4.删除不必要的，找到正确的（可删可不删）5.该网站反爬手段比较强，给其进行伪装。2.找到正确的数据包——看响应内容。1.爬取腾讯社招的数据（

2024-10-08 09:21:46 3240

原创爬虫案例——爬取长沙房产网租房信息

price = s.find_all('span',{'class':'content__list--item-price'})#价格。content = s.find_all('p',{'class':'content__list--item--des'})#地址。print('==========','当前是第{}页'.format(i))包括租房标题、标题链接，价格和地址。refere参数：代表页面的来源。处理获取到的地址、价格和租房标题。翻页参数和refere参数。3.使用bs4解析数据。

2024-10-07 13:56:59 1111

原创爬虫案例——爬取情话网数据

1.爬取情话网站中表白里面的所有句子（3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推，详情页文本对应的解析语法。2.利用XPath来进行解析。

2024-10-06 13:48:56 1140 1

原创爬虫——XPath基本用法

xpth解析（1）本地文件 etree.parse（2）服务器响应的数据 response.read().decode('utf-8') etree.HTML()

2024-10-05 18:04:14 2031

原创 requests案例——腾讯新闻数据的爬取

2.因为新闻都是实时更新的，所以虽然有161页，但是一般最后一页大多无数据，这会导致爬取数据错误，所以需要添加一个异常处理。1.检查一下使用的openpyxl是最新版本，因为这个问题可能已经在新版本中被修复。print(f"请求失败，状态码：{r.status_code}")1.利用requests方法爬取腾讯新闻的数据（包括新闻名字和对应新闻链接）print(f"请求异常：{e}")print(f"解析异常：{e}")3.将爬取下来的数据保存在excel文件中。4.利用jsonpath来解析获取的数据。

2024-10-05 14:33:42 1217

原创数据提取之JSON与JsonPATH

爬虫最常用1、数据抓取 - json.loads(html)将响应内容由: json 转为 python2、数据保存 - json.dump(item_list,f,ensure_ascii=False)将抓取的数据保存到本地 json文件抓取数据一般处理方式1、txt文件2、csv文件3、json文件4、MySQL数据库5、MongoDB数据库6、Redis数据库。

2024-10-04 11:11:07 1682

原创爬虫——BS4基本用法

1.是一个高效的网页解析库，可以从HTML或XML文件中提取数据2.支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析3.就是一个非常强大的工具，爬虫利器4.一个灵感又方便的网页解析库，处理高效，支持多种解析器5.利用它就不用编写正则表达式也能方便的实现网页信息的抓取。

2024-10-03 17:05:07 1072

selenium自动化爬虫爬取苏宁易购中连衣裙的数据

空空如也