- 博客(86)
- 资源 (1)
- 收藏
- 关注

原创 django开发知识点3-链式调用
1、支持链式调用的接口all使用频率比较高,相当于SELECT * FROM table 语句,用于查询所有数据。filter使用频率比较高,根据条件过滤数据,常用的条件基本上字段等于、不等于、大于、小于。当然,还有其他的,比如能修改成产生LIKE查询的:Model.objects.filter(content__contains="条件")。exclude与filter是相反的逻辑reverse将QuerySet中的结果倒叙排列distinct用来进行去重查询,产生SE
2021-04-07 11:52:04
257

原创 django开发知识点2-ORM对象
一、对ORM的理解1、什么是ORM?ORM是对象关系映射(Object Relational Mapping),简称ORM,或O/RM,或O/R mapping,是一种程序技术。白话理解:就是把我们定义的对象(类)映射到对应的数据库的表上,所以ORM就是代码(软件)层面对于数据库表和关系的一种抽象。2、Django与ORM之间的关系Django中的model就是ORM的一个具体实现。3、ORM在Django中的具体体现简单来说,就是继承了Django的Model,然后定义了对应的字段,
2021-04-07 11:47:59
358

原创 Django开发知识点1-创建项目
Django常用 命令:1、安装:pip install django 指定版本 pip3 install django==2.0新建项目: django-admin.py startproject mysite新建APP : python manage.py startapp blog启动:python manage.py runserver 80802、同步或者更改生成 数据库:python manage.py makemigrationspython manage.py
2021-04-07 11:34:19
126
2

原创 消息队列在爬虫开发上的应用
1.什么是消息队列消息队列一般可以作为数据缓存,在实际应用上用来存储经常需要交互的数据,以此提高访问数据的速度及提高网站的用户体验。2.有哪些数据库是消息队列redis、MQ、celery、mongodb等3.为什么使用消息队列在爬虫中使用消息队列可以开发分布式爬虫,也是分部式爬虫中很重要的技术。目前的分布式爬虫架构主要以redis为主,原因在于缓存的速度快,数据可持久化。常规的爬虫使用的是内存缓存的方式,只有在爬虫运行时,数据暂存在内存中,这样的爬虫速度也是很快的,但是由于数据不可
2021-04-06 23:03:20
527

原创 VPS性能优劣与使用
场景;爬虫开发,需要大量ip,可以购买vps服务器。vps服务器优点:是通过拨号上网,切换网卡,更换获取新的IP,对于大批量的爬虫来说,一旦网站被封,需要更换ip,考虑成本的问题,这时候的vps就是最佳的选择,价格几十块钱一个月,还是很便宜的。稳定性也是不错的。vps服务的缺点:由于是拨号上网,所以需要先断开网络之后,在连接网络。在断网再联这个期间ip是不可用的,失效的。其次频繁的拨号上网会使得网卡卡死,更换ip失败,这个时候就需要重启vps.,但也还有更优的方法,就是定时拨号更换,防止网卡卡死。
2020-11-12 15:59:29
296

原创 docker 小白入门
第一步打开服务器第二部重开cmd检查docker的版本,这样可以用来确认docker服务在运行并可通过客户端链接。$ docker version学会使用命令行的工具来检索名字叫做tutorial的镜像。命令行的格式为:docker search 镜像名字$ docker search tutorial通过docker命令下载tutorial镜像。在docker的镜像索引网...
2019-12-19 11:12:35
279

原创 docker快速部署爬虫
Docker部署Python爬虫场景描述:我们使用一个简单的python爬虫部署,本项目是获取百度首页代码。如何实现Docker安装部署。第一步: Win10下创建目录文本选择在D盘下创建docker目录,分别新建三个文件:Dockerfile,app.py,requirements.txtDockerfile(没有后缀):一个文本文件,包含了一条条的指令(Instruction),每...
2019-12-19 11:09:53
2316
1

原创 pyinstaller打包程序这么简单
需要准备素材:python文件 图标(格式为.ico)安装pyinstaller: pip install pyinstaller有两种进入查找文件的方法:1)直接cmd或者快捷键(win+r)然后进入所在文件的文件夹2)直接打开文件所在的文件夹 然后shift+鼠标右键 点击windows powershell1、然后将图片和文件放到一起 在终端输入 pyinsta...
2019-11-02 12:54:19
417

原创 Django 开发后台管理系统
数据库:python自带数据库开发系统:windows ,pycharm主要实现功能:1)登录与注册页面2)添加页面3)更新页面4)查询页面5)删除页面6)账号页面1)登录与注册页面对表单数据进行验证( 从数据库验证)账号密码都存在就登录进入后台;否则就提示账号密码错误点击注册按钮进入注册页面:账号密码是必填项,没有按要求填写就提示输入,按l...
2019-11-01 16:50:43
2310
39

原创 Python爬虫:爬取app短视频
"""夜神模拟器+fiddler+Python爬取app抖音小视频下载fiddler配置网络与端口下载夜神配置网络下载认证下载app最后抓包"""class DouYinApp(): #页面请求 def get_page(self,url): response = requests.get(url) r...
2019-10-15 14:26:42
8163
5

原创 Scrapy :全站爬取文学文章
爬取网站:www.rensheng5.com爬取内容:整站文章爬取字段:名称 时间 作者 内容保存:以每个文章的名称命名保存为txt本次采用通用爬虫爬网站:环境:Ubuntu python3.7在终端创建项目模板 CrawlSpider重要的就是Rule正则表达式的构造项目创建可见我的其他scrapy爬虫,在此不再赘述直接上主要代码: rules =...
2019-10-08 13:06:46
264
原创 大模型搭建文章生成式AI助手
原创不易,请关注公众号:【爬虫与大模型开发】,大模型的应用开发之路,整理了大模型在现在的企业级应用的实操及大家需要注意的一些RAG开发的知识点!seo对于站点的重要,懂行的人都知道,不管是百度还是谷歌,我们需要提高搜索的命中率,需要让各自的爬虫采集站点的数据。选择了cogviw,是因为MD必须借助discord才能使用,MD需要本地部署,对本地的电脑配置有要求,都不方便做整合,但是确实都是专业的图片AI效果都是很好的。目前的模型还没有办法同时输出文本和图片,因此我的思路是使用工作流搭建或者代码开发。
2024-11-27 10:57:20
662
原创 大模型开发企业AI智能小助手应用高级篇
第二篇大模型开发企业AI智能小助手应用高级篇自从2020年大模型被人熟知,到现在的人尽皆知的,基本上每个人都或多或少的使用过大模型的能力。由于知识点很多,我准备分4篇文章,从系统环境配置>知识库搭建>提示词优化>系统调优>对接web系统开发一个完整的大模型应用项目!第一篇大模型应用开发系统环境配置第二篇大模型应用知识库搭建上下篇第三篇大模型应用模型及提示词优化第四篇大模型应用与halo系统对接。
2024-11-11 17:05:01
817
原创 大模型开发企业智能小助手应用上篇
大语言模型的训练数据一般基于公开的数据,且每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性。大模型落地的智能小助手,准确且幽默的回答了高频提问的3个问题,而且回答的结果都是对的。主要解决客户经常提到的高频问题,提高售后的服务质量,提高客户的粘性,可以更好的服务客户,并减少一些不必要的重复人工的服务成本。原创不易,请关注公众号:【爬虫与大模型开发】,大模型的应用开发之路,整理了大模型在现在的企业级应用的实操及大家需要注意的一些RAG开发的知识点!
2024-11-07 14:50:30
868
1
原创 搭建企业级大模型知识库
现在的大模型如雨后的春笋,满地都是,各种新的训练的多模型态大模型带给我们新的认知。做大模型开发需要考虑模型的使用的成本、数据的安全性、模型的能力、数据的时效性等问题。大模型具有时效性的问题,不呢能回答最新的信息,这个是大模型现在的缺点,但是随着技术的发展我们可以本地微调大模型,可以在一定的程度上让大模型在垂直领域拥有大量的数据知识。但是对于大模型的应用开发着来说需要通过使用大模型的能力,按照我们的业务需求帮助我们完成特定的工作。访问chatgpt需要科学上网,上图是大模型的使用的提问的首页。
2024-11-04 08:04:52
1149
原创 破解API加密逆向接口分析,看这篇就够了
现在我们利用浏览器的监听对请求的接口进行断点,当加载到这个接口的时候,如果出现了断点调试的页面,并且我们需要的数据在页面上并没有出现,如下图,说明我们的猜想已经对了一半。那么由上图我确认了该接口的请求并没有返回我们需要的数据,那么我需要的数据又在哪里呢,猜测是异步加载的,因此我们再分析获取到的请求,看看有没有可能是我们需要的数据?这个是我们获取到的请的api,我们接着分析该请求返回了什么?这是的第二个接口返回的数据,但是返回的数据是一串字符串,看上去也不像我们的需要的数据,这就很奇怪了,数据去哪里了呢?
2024-10-27 17:16:49
1394
原创 服务端反爬也不过如此 看完小白都能破
使用getItemWithExpiration()这个函数接受一个参数以search2_+关键词的小写格式,猜测是是获取缓存数据,如果缓存存在则获取缓存中的数据并更新当前页面的搜索结果代码,否则就发送一个ajax请求异步获取数据.到这边我们就确定了我们需要的搜索结果数据来自于这个接口,这个接口method是post,请求的参数三个一个是搜索词,一个固定的字符串,一个是当前页面获取到的搜索token,返回的是html的数据类型.这个站点的分析到此就完成了,主要分享了站点的搜索接口的参数分析思路。
2024-10-18 10:58:47
575
原创 爬虫设计思考之二
例如自然语言的发展,对数据的需求是非常大的,需要大量的数据作为模型分析的基础,对设计的不同的模型,需要的数据也是不一样的。等等很多国内外的搜索都是基于强大的爬虫支撑的,源源不断的获取互联网公开的数据。一般是我们获取互联网的全部数据,类如我们有一个需求,爬虫需要获取所有的用户提供的网页数据,我们怎么编写这个通用的爬虫呢,一般我们就只需要编写一个爬虫获取页面的源代码并返回就可以了,这个获取网页源代码的爬虫就称为通用爬虫,因为这个爬虫可以获取所有的静态页面的网页源代码,然后在基于页面做一些数据的处理和分析。
2024-10-12 09:58:16
1790
原创 爬虫设计思考之一
可以更好的发挥技术对于业务赋能的能力,同时这两者的界限并不是特别的明确,一些rpa工具也可以实现网页抓取的功能。这种现状将会使爬虫和rpa的技术更加的成熟,更好的服务用户及为业务赋予更多的可能性,开拓更多的应用场景。经常做爬虫的人对于技术比较的执着,尤其是本身从事的擅长的技术领域,从而容易忽视与之相近或者相似的技术。因此我建议大家在遇到此类问题的时候,可以采用对比分析的方式来理解。未来的爬虫和rpa的联系更加的紧密,也将会有更多的创新,不仅自动化还更加的智能化,为更多的行业发展提供更好的技术服务的支持。
2024-09-30 09:48:55
1007
原创 mongodb 数据库修复指南
b. 使用mongo命令创建与colletion相同数据量的集合(集合名可以collection_数字的格式),同时使用stats查看获取创建的集合的uri一并写入到execl中形成对应的损坏的集合和创建集合的对应关系;d. 关闭当前windows上面的服务(一定要关闭)再把重命名后的损坏的文件集合复制到windows上的数据data目录中覆盖相同名称的集合。c. 将上一步中形成的对应的关系表,使用本地命令的方式将损坏的文件名批量更新为新创建的集合名称。mongodb 数据库修复指南。
2024-07-28 16:29:59
938
原创 从数据的角度看业务的增长点
很多的企业都有产品推广的需求,每个企业的市场推广也在积极的开拓推广的渠道,因此,在他们在头部企业做了推广的服务后,为了获取更多的产品推广的效果,也会选择一个二线的B2B来进行推广。数据的来源是由个数据项的要素组成,因此获取专业的符合业务的数据就需要专业的领域人员,认识数据的含义及能判断数据的对错,对数据的质量有一定的把握。包括数据的收集、数据的转化、数据的数据项定义、数据的标准化、数据的修正、数据的纠错、数据的模型关系、数据的自动化的处理、数据的监控、审核、数据的推送、拉取等机制组成。核心的机制又是什么?
2024-07-28 16:24:57
569
原创 职场如何高效沟通
让数据部门的同事找后端开发沟通接口处理的逻辑,结果不出所料就是,接口的逻辑与数据和运营沟通的需求不一致,甚至出现不能很好的满足业务数据部门对多数据源数据同步的开发。结果就是现在只能在数据这边做处理了(上游给挖的坑现在全都砸到了数据部门),数据小伙伴表示很气愤,为什么不能提前沟通好数据的接口处理的逻辑,具体的字段需求,一个小会几分钟就可以避免这样的问题出现,但是由于后端同事的盲目自大,或者不喜欢沟通,运营的妥协,导致了问题的产生,然后项目就在高效逐渐变成了低效,沟通的情绪不断的爆发。
2024-06-22 14:49:53
894
1
原创 DrissionPage框架应用
但是以上都有被检测的风险,新晋浏览器防检测工具,不仅不需要繁琐的安装浏览器的内核,也不需要为浏览器升级后带来的版本不支持烦劳了。它可以自动调用我们本地的浏览器执行网络请求;在我们遇到一些不好处理的反爬虫的情况下,就可以使用这个工具帮助我们模拟人类的操作,达到获取数据的结果;但是我们在本地运行没有问题,线上就没办法运行,这是因为我们的dp会自动调用我们本地已有的浏览器执行网络请求,但是部署到线上服务器后,新的服务器没有安装浏览器,这个时候我就需要使用远程浏览器调用作为第三方的转发请求了。
2024-06-20 15:12:52
1563
4
原创 跨部分协作,如何提高工作效率
杜绝出了问题找不对人,找人相互推诿的情况,每个项目都需要制定明确的项目需求及项目任务开发时间周期(按照项目的大小合理的增减项目的流程),由项目管理者向总经理负责这个项目(如果说这个任务有明确的小组负责,那么就由主管负责,主管没有时间的可以由组员负责),由项目经理梳理好项目的需求、参与人、完成周期等,通过会议(也可以是起的形式例如建群)的形式传达给每个参与人,并告知每个参与人的大致参与时间及项目进度和项目的完成周期。在这样的分工下,领导,其他组主管、相关下游参与人都是领导(还有自己的直属主管)的时候。
2024-06-16 15:10:53
879
原创 Maxkb玩转大语言模型
随着国外大语言模型llama3的发布,搭建本地个人免费“人工智能”变得越来越简单,今天博主分享使用Max搭建本地的个人聊天式对话及个人本地知识域的搭建。想要数据持久化就需要将docker的文件挂在到本地的电脑上。默认的用户名:admin密码:MaxKB@123..填写的API域名只能是服务器: ip:11434。选择自己的模型并安装,我这边使用ollama安装。完成之后,也可以将对话的窗口植入到我们自己的网站。2.按装的ollama模型没有开启远程链接。再次安装大模型就成功了。2.创建自己的本地应用。
2024-06-07 10:26:13
2270
原创 CrawlSpace爬虫部署框架介绍
全新的爬虫部署框架,为了适应工作的爬虫部署的使用,需要自己开发一个在线编写爬虫及部署爬虫的框架,框架采用的是Django2.2+bootstap依赖scrapyd开发的全新通用爬虫在线编辑部署及scrapy项目的部署框架。项目实现的五大块的功能及许多在维护爬虫的过程中用的许多实用的操作功能。以上就是crawlspace的现有功能,相比其他的部署,这个部署框架更加的便于维护爬虫项目,操作更加灵活方便,交互更加便捷舒适,功能更加完善,信息的显示更加清晰,同时支持手机端在线操作!
2024-06-06 17:59:40
876
原创 python如何发布自己开发的库
日常工作中我们自己会编写许多的python 函数用来处理特定的事情,在我的工作中就有这样的一个函数,专门用来检测化合物的唯一标识符CAS NO是否符合国际的标准。在工作中使用的很频繁,而且又是通用型的检测方法,因此我想把这个库封装一下并发布到pypi上面,方便我部署的时候可以直接下载,也减少了我的项目代码的量及复杂度。8.发布dist文件下的.whl到pypi服务器(按提示输入用户名、密码)(这里需要特别注意:以前时可以直接使用账号和密码发布的但是现在增加了安全验证需要api token)
2024-06-06 11:10:47
495
原创 如何利用pandas解析html的表格数据
我们在编写爬虫的过程中,经常使用的就是parsel、bs4、pyquery等解析库。在博主的工作中经常的需要解析表格形式的html页面,常规的写法是,解析table表格th作为表头,解析td标签作为表格的行数据。那么有一种更为方便的方法就是使用pandas 只需要一行代码就可以完成常见表格的编写。attrs={}用来定位解析的table数据这边是id="con_one_1"的table;运行结果如下:表格数据直接就被解析成一个二元列表,每一个列表就是一个tr标签 每个列表值就是一个td.
2024-06-06 10:25:04
430
原创 NodeJs破解AES参数加密
爬虫分析常见的反爬虫的方式很多,但是比较有难度,有区分度的技术当属JS逆向分析的参数加密,或者数据加密。本篇博客记录的是博主本人在工作中实际碰到的请求参数进行了加密情况,使用的加密方式是AES的方式(不知道AES是啥也不重要,毕竟我们是做爬虫的只要将最后的结果逆向还原出来,至于深入研究如何实现应该是做密码学的该考虑的,我们可以做一些简单的学习,知道是个啥)。这里的加密是对GET请求进行的加密。详细记录本次的破解过程,毕竟时间久了就会忘的,以后也可以温故而知新。逆向网站为化合物百科1.打开网站进行必要
2021-10-15 15:26:02
749
原创 uwsgi+Nginx部署Django
服务器:阿里云系统:ubuntu20python:服务器自带服务器在安全组中开启8001/8001端口前期MySQL安装使用docker
2021-06-15 08:56:15
293
原创 python â\x89¥ 95%编码错误
1.遇到的问题: 大于等号≥编码错误:â\x89¥ 95%(正确≥ 95%)解决方法:对源代码使用编码:response = requests.get(url=url)response.encoding = response.apparent_encoding成功!
2021-04-27 16:02:55
487
原创 pymysql 报错 pymysql.err.ProgrammingError: (1064, “You have an error in your SQL syntax;
1.报错使用了:pymysql.escape_string()可以解决字符串转化单双引号的问题2.第一种方法需要排查出那个字符串有问题,可以打印出sql语句查看,发现字符串中只有一个双引号的问题(本人遇到的问题字符串中有一个左上双引号),解决这个问题的方法是找到对应的词加上第一步的方法。3.最好的方法就是所有都加上pymysql.escape_string()的方法,避免其他在遇到此类问题!...
2021-04-26 09:07:17
11803
原创 文本生成词云图wordcloud
1.安装 jieba :pip install jieba pip install retext = """ """ 一串待处理的文本2.文本预处理 1.使用正则表达式去除文本中的无用字符及特殊符号import reimport jieba# wenbenpattern = re.compile(u'[a-zA-Z\u4E00-\u9FA5]')pattern1 = re.compile(r'[0-9]')d = pattern.findall(text.encode(...
2021-04-25 17:45:42
925
1
原创 Scrapy POST不支持发送payload参数
1.使用scrapy发送post请求,参数为payload类型一般使用:return scrapy.FormRequest(url=url,formdata=data,headers=headers)到这步思路没有问题,问题就处在scrapy暂时不支持post发送payload类型。源码貌似formdata一般用于表单发送数据,为dict类型,而非str,所以获取会报错解决方法:使用如下方法:return scrapy.Request(url=url,
2021-04-22 11:39:13
365
原创 django 报错:‘staticfiles‘ is not a registered tag library. Must be one of
'staticfiles' is not a registered tag library. Must be one of: admin_list admin_modify admin_urls cache i18n l10n log static tz解决方法:将模板文件代码{% load staticfiles %}修改为{% load static %}
2021-04-13 14:13:24
642
原创 django开发知识点4-内置接口调用
内置接口调用1、进阶接口除了常用接口外,还有其他用来提高性能的接口,在下面介绍。 在优化Django项目时,尤其要考虑这几种接口的用法。defer把不需要展示的字段做延迟加载。比如说,需要获取到文章中除正文外的其他字段,就可以通过posts = Post.objects.all() .defer('content'),这样拿到的记录中就不会包含content部分。但是当我们需要用到这个字段时,在使用时会去加载。代码:products=Product.objects.all().defer
2021-04-07 13:43:16
1180
原创 docker 报错 没有安装 WSL 2
报错提示:WSL 2 is not installedInstall WSL using this PowerShell script (in an administrative PowerShell) and restart your computer before using Docker Desktop:Enable-WindowsOptionalFeature -Online -FeatureName $("VirtualMachinePlatform", "Microsoft-Wind
2021-03-15 09:03:24
2974
1
原创 MySQL存在就更新数据记录,不存在就新增记录
案例:MySQL插入数据,存在就更新,不存在就插入;数据库app_test表;字段nam,url,source,statenam,url,source建立联合唯一索引表中创建数据:INSERT INTO app_test (nam,source,url,state) VALUES('zhaomeng','淮安','111111','60') on DUPLICATE key update state=VALUES(state)第一次表为空插入数据第二次插入联合唯一索引..
2021-02-24 15:41:53
616
原创 Tkinter 编写桌面工具
1.使用python3 Tkinker编写操作数据库的桌面并打包成exe2.主要应用本人学习以及实际的使用,代码中尚有不足之处。主要的实现功能为:查询:按时间段查询以及查询当天数;批量更新;使用网格布局的方式(grid)文本框输入读取数据库进行查询的动态适配自己的一类处理需求环境:使用mongodb数据库操作windows系统anconda3tkinterdatetime打包程序看我之前的博文 整体代码如下...
2020-12-11 09:50:23
309
原创 docker使用Redis
本片可以结合我之前的docker下载redis镜像环境为ubutu18docker exec -it redis /bin/bash 进入redispython3 连接redisimport redisclient = redis.Redis(host='localhost',port=6379,db=0)client.sadd()....输入:redis-cliSADD name value 向名为name的集合添加valueSCRAD name 查询集合元素...
2020-11-13 09:05:56
203
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人