- 博客(91)
- 收藏
- 关注
原创 django模型——ORM模型2
在这里我随便拿个项目进行下列操作返回列表的过滤器如下:all():返回所有数据filter():返回满足条件的数据exclude():返回满足条件之外的数据,相当于sql语句中where部分的not关键字order_by():排序,参数为字段名,-号表示降序views.pypost_list1 = Post.objects.all()[1:] # all():返回所有数据print('返回所有数据:',post_list1)
2024-12-19 14:15:02
1131
原创 django模型——ORM模型1
在这里我们用上次的数据库来进行演示吧由于python3.6的老是爆红,影响美观,所以我先更换成python3.8+django1.8.2的虚拟环境吧这下运行就没问题了模型models.py字段有这些因为这里除了id,其他字段皆用的char类型,但我们应知道还有其他字段类型1. AutoField:自动增长的IntegerField,通常不用指定,不指定时Django会自动创建属性名为id的自动增长属性2. BooleanField:布尔字段,值为True或False。
2024-12-18 13:20:23
655
原创 django连接MySQL数据库
因为经常做django项目时,用到的数据都是经过爬虫手段保存在MySQL数据库中的,所以今天我们就来看看怎么将django与MySQL数据库连接在一起吧。1.将原来有数据的表zgddxs改名为myapp_zgddxs,没数据的myapp_zgddxs命名为其他的。'PASSWORD': 'wx990826', # 数据库密码。要想将数据库中的内容读取到,则需要在models.py里面写入对应的字段。比如在这里,我们后期要用这里面的数据来完成我们的django项目时。首先,我们先看一下该表的设计结构。
2024-12-17 13:17:18
518
原创 django项目4——个人博客项目(下)
后台管理页面已经做的差不多了,那下面应该就是做公共站点,也就是给别人看的网页部分。对于django的设计框架MVT,用户在URL中请求的是视图,视图接收请求后进行处理,并将处理的结果返回给请求者。打开上次的personal_blog博客项目,在templates下面创建blog文件夹,然后在blog文件夹下创建主页index.html,博客界面list.html,详情页界面detail.html。
2024-12-16 12:27:37
355
原创 中间准备——视图和模板基础
url(r'^detail/(\d+)/(\d+)/(\d+)', detail), #动态路由 \d+表示1个或者多个数字 ()表示提取。url(r'^detail/(\d+)', detail), #动态路由 \d+表示1个或者多个数字 ()表示提取。并在templates/myapp下再创建一个detail.html。在myapp和myapp2下各创建一个urls.py。myapp/views.py创建一个detail函数。在myapp2/views.py中。在myapp/models.py中。
2024-12-15 11:39:43
827
原创 django项目4——个人博客项目(上)
发现只显示标题——只需在 admin.py 中使用admin.site.register(模型类) 注册模型类,Django就能构造一个默认的表单。但是,默认管理表单不够美观,展示的数据量不够,我们需要要自定义管理界面中表单的外观和功能。在列表页只列出了str方法的返回值,对象的其它属性并没有列出来,查看非常不方便Django提供了自定义管理页面的功能,比如列表页要显示那些字段打开personal_blog/admin.py文件,自定义类,继承自admin.ModelAdmin类属性。
2024-12-14 10:33:53
818
原创 django——admin后台管理1
admin.register(LoginUser)#注册方式2#自定义列表页#注册方式1展示多对多则不是如此应当然后在admin.py将这个改为中文user_name=models.CharField('用户名',max_length=20)desc=models.CharField('描述',max_length=20)age=models.CharField('年龄',max_length=20,default='')注意一对多和多对多不能这样修改应当。
2024-12-13 22:12:59
1167
原创 django项目3——连接sqlite数据库
return HttpResponse("这是一道白切鸡!!!!!!!!")index.html<head></head><body><h1 style="background-color:greenyellow">这是一道白切鸡!!!!
2024-12-13 11:08:53
1588
原创 django项目2——django版本为3.xx或者4.xx的创建哈
返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂!!!!")
2024-12-12 12:30:09
951
原创 django项目1——django版本为1.8.2的创建哈
返回httpresponse对象return HttpResponse("欢迎来到平平的小课堂!!!!")
2024-12-12 11:35:42
652
原创 Anaconda安装与配置
C:\Users\温温阿絮>conda activate py36_pingping。cd E:\django学习\day02-django入门。先删除原来的python解释器的环境变量。复制.condarc到家目录下。配置anaconda环境变量。然后再次激活虚拟环境。
2024-12-11 15:14:07
860
原创 windows虚拟环境搭建
将刚刚创建的django项目拖入pycharm中,点击manage.py文件,发现此时报错。#pip install virtualenvwrapper #非windows系统。#mkvirtualenv -p 真实python环境路径 虚拟环境文件夹名字。进入file——settings——Project。——inter解释器。虚拟环境默认会创建在家目录下的Envs路径下。workon #显示有哪些虚拟环境。activate # 启动虚拟环境。# 任意一个路径下退出虚拟环境。# 进入虚拟环境文件。
2024-11-12 19:14:00
1088
原创 pandas——对齐运算+函数应用
引言:对齐运算是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN。
2024-11-05 20:31:07
432
原创 爬取王者荣耀英雄资料数据
https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/505/505-bigskin-4.jpg ---(大)https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/504/504-bigskin-1.jpg--直接修改。4.通过对地址的分析观察 发现只需要替换英雄的id即可下载对应的英雄的皮肤图片。3.由于在英雄列表页是观察不到英雄的皮肤数据 所以需要进入英雄的详情页去观察。
2024-10-25 19:30:11
723
原创 scrapy案例——读书网列表页和详情页的爬取
5. follow:连接提取器提取的url地址对应的响应是否还会继续被rules中的规则进行提取,True表示会,Flase表示不会。4. callback :表示经过连接提取器提取出来的url地址响应的回调函数,可以没有,没有表示响应不会进行回调函数的处理。3. LinkExtractor:连接提取器,可以通过正则或者是xpath来进行url地址的匹配。1.爬取读书网中中国当代小说中的列表页中的书名、作者、书的图片和书本详情。2.爬取列表页中对应的详情页面的价格、出版社和出版时间。
2024-10-24 19:40:54
1157
原创 scrapy案例——当当网的爬取二
第二页 http://category.dangdang.com/pg2-cp01.03.41.00.00.00.html。1.使用scrapy爬虫技术爬取当当网中科幻小说的书籍数据,包括(图片、标题、作者和价格)#管道可以有很多个,因此管道有优先级 范围1-1000 值越小优先级越高。项目名称:当当网的爬取一——爬取科幻小说的书籍数据。2.将获取到的数据保存在本地josn文件中。6.将图片下载至本地books文件夹中。3.将图片保存在本地文件夹中。
2024-10-23 17:38:06
701
原创 scrapy案例——当当网的爬取一
1.使用scrapy爬虫技术爬取当当网中青春文学的书籍数据,包括(标题、现价、定价、作者、出版日期、出版社、书本详情和书本图片url)第二页 http://category.dangdang.com/pg2-cp01.01.00.00.00.00.html。第三页 http://category.dangdang.com/pg3-cp01.01.00.00.00.00.html。项目名称:当当网的爬取一——爬取青春文学的书籍数据。2.将获取到的数据保存在数据库中。
2024-10-22 20:23:12
652
原创 scrapy案例——豆瓣电影Top250的爬取
1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据(包括排名、电影名称、导演、演员、url、评分)1.找到正确的数据吧,并复制正确的请求url。做好准备:开启管道、关闭君子协议、伪造浏览器。3.将爬取下来的数据保存在数据库中。项目:豆瓣电影Top250的爬取。2.解析数据:如title。2.实现分页爬取,共十页。
2024-10-20 18:33:52
858
原创 scrapy案例——链家租房数据的爬取
json_data = json.dumps(dict_data,ensure_ascii=False)+'\n'#ensure_ascii=False 不要让数据编程编码。这时运行结果item为空字典——则需要开开启管道才可写入数据——settings。link = scrapy.Field() # 价格。print('管道文件的item',item)price = scrapy.Field()#价格。name = scrapy.Field()#标题。#用完之后 关闭文件。#3.将数据打包 实例化类。
2024-10-19 20:19:29
1374
原创 爬虫——scrapy的基本使用
定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中提取数据的方法每yield一次item,就会运行一次# 该方法为固定名称函数# 参数item默认是一个 <class 'mySpider.items.MyspiderItem'>类信息,需要处理成字典# 将返回的字典数据转为JSON数据# 写入JSON数据# 参数item:是爬虫文件中yield的返回的数据对象(引擎会把这个交给管道中的这个item参数)
2024-10-18 21:29:14
2916
原创 selenium案例——爬取哔哩哔哩排行榜
comment_counts = soup.select('.info .detail-state .data-box:nth-of-type(2)') # 评论量。play_counts = soup.select('.info .detail-state .data-box:nth-of-type(1)') # 播放量。up_names = soup.select('.info .up-name') # up主。ws.append(['标题','up主','播放量','评论量'])
2024-10-17 10:10:36
1032
原创 selenium基本使用
窗口切换 switch_to_window(窗口ID) switch_to.window(窗口ID) (python3.8以上版本都支持,python3.7只支持后者写法)browser.find_element(By.LINK_TEXT,"新闻").click() # 通过.click()点击目标链接。find_element_by_partial_link_text 可以只写部分超链接文字。find_element_by_class_name 根据class的名字来定位。
2024-10-14 14:36:34
813
原创 selenium安装
1,安装selenium-- 命令:-- 网络不稳的请换源安装:1.查看谷歌浏览器版本打开谷歌浏览器——点击左侧三个点——点击帮助——点击关于Google chrome2.下载谷歌浏览器webdriver驱动打开百度,输入chrome webdriver,下载谷歌浏览器webdriver驱动或者点击https://www.cnblogs.com/aiyablog/articles/17948703#:~:text=chromedriv-- 根据自己谷歌版本选择驱动器-- 选择对应版本,如果没有对应版本选择跟
2024-10-13 10:32:13
1842
1
原创 爬虫案例——网易新闻数据的爬取
print('==========', '当前是第{}页'.format(i))该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取。因为该网页不是常规的josn源码数据,所以需要进行一些处理。3.利用jsonpath解析数据。2.爬取所有数据(翻页参数)利用josnpath解析数据。1.爬取该新闻网站——()的数据,包括标题和链接。可以看到第一页请求网址。首页地址为第一页地址。
2024-10-12 09:19:05
2167
原创 requests案例——爬取微博的一级和二级评论
一级评论接口:https://m.weibo.cn/comments/hotflow?二级评论接口:https://m.weibo.cn/comments/hotFlowChild?max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)print('-------二级评论-------')
2024-10-11 12:03:50
1481
原创 反爬机制——验证码识别
1.获取登录接口的请求地址2.获取解析验证码图片链接#解析图片链接 https://so.gushiwen.cn/RandCode.ashx3.将其保存在本地4.但由于验证码是动态的,每次都不一样,所以解决方案——session会话来维持#实例化session5.得到图片后,想要将其读取出来——需要用到超级鹰。
2024-10-10 12:33:22
1465
原创 爬虫工具——Fidder的安装
Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。查看你的本机IP地址,在Fiddler的右上角有一个Online按钮,点击一下会显示你的IP信息。打开你的手机,找到你所连接的WIFI,长按选择修改网络,输入密码后往下拖动,然后选择wifi。XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。ImageVies —— 如果请求是图片资源,显示响应的图片。
2024-10-09 10:18:28
433
原创 爬虫案例——爬取腾讯社招
wb = workbook.Workbook() # 创建Excel对象。ws.append(['职称', '链接', '时间', '公司名称'])print("第{}页已经保存完毕!my_list = [z,l,s,g] # 以列表形式写入。4.保存数据:txt文本形式和excel文件两种形式。——异步(查看xhr)wb.save('腾讯社招.xlsx')4.删除不必要的,找到正确的(可删可不删)5.该网站反爬手段比较强,给其进行伪装。2.找到正确的数据包——看响应内容。1.爬取腾讯社招的数据(
2024-10-08 09:21:46
3240
原创 爬虫案例——爬取长沙房产网租房信息
price = s.find_all('span',{'class':'content__list--item-price'})#价格。content = s.find_all('p',{'class':'content__list--item--des'})#地址。print('==========','当前是第{}页'.format(i))包括租房标题、标题链接,价格和地址。refere参数:代表页面的来源。处理获取到的地址、价格和租房标题。翻页参数和refere参数。3.使用bs4解析数据。
2024-10-07 13:56:59
1111
原创 爬虫案例——爬取情话网数据
1.爬取情话网站中表白里面的所有句子(3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推,详情页文本对应的解析语法。2.利用XPath来进行解析。
2024-10-06 13:48:56
1140
1
原创 爬虫——XPath基本用法
xpth解析(1)本地文件 etree.parse(2)服务器响应的数据 response.read().decode('utf-8') etree.HTML()
2024-10-05 18:04:14
2031
原创 requests案例——腾讯新闻数据的爬取
2.因为新闻都是实时更新的,所以虽然有161页,但是一般最后一页大多无数据,这会导致爬取数据错误,所以需要添加一个异常处理。1.检查一下使用的openpyxl是最新版本,因为这个问题可能已经在新版本中被修复。print(f"请求失败,状态码:{r.status_code}")1.利用requests方法爬取腾讯新闻的数据(包括新闻名字和对应新闻链接)print(f"请求异常:{e}")print(f"解析异常:{e}")3.将爬取下来的数据保存在excel文件中。4.利用jsonpath来解析获取的数据。
2024-10-05 14:33:42
1217
原创 数据提取之JSON与JsonPATH
爬虫最常用1、数据抓取 - json.loads(html)将响应内容由: json 转为 python2、数据保存 - json.dump(item_list,f,ensure_ascii=False)将抓取的数据保存到本地 json文件抓取数据一般处理方式1、txt文件2、csv文件3、json文件4、MySQL数据库5、MongoDB数据库6、Redis数据库。
2024-10-04 11:11:07
1682
原创 爬虫——BS4基本用法
1.是一个高效的网页解析库,可以从HTML或XML文件中提取数据2.支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析3.就是一个非常强大的工具,爬虫利器4.一个灵感又方便的网页解析库,处理高效,支持多种解析器5.利用它就不用编写正则表达式也能方便的实现网页信息的抓取。
2024-10-03 17:05:07
1072
selenium自动化爬虫爬取苏宁易购中连衣裙的数据
2024-10-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人