
python
代码的建筑师
数字图像处理、机器学习、深度学习、数据库设计、汇编语言、数据分析、人工智能、主题聚类、模型运用与训练、数据可视化、自然语言处理、Python语言、云服务器使用、MySQL、自然语言理解、环境风险评估、数据驱动、图表绘制、强化学习、气候建模、计算机视觉、R语言、数据集整理、爬虫
展开
-
爬虫学习——使用HTTP服务代理、redis使用、通过Scrapy实现分布式爬取
在Scrapy中提供了一个专门用于进行爬虫代理设置。在使用该代理进行爬取操作时,。原创 2025-04-25 00:09:55 · 1030 阅读 · 0 评论 -
爬虫学习——将爬取的数据直接存入数据库
针对插入一条数据就commit一次和爬取全部信息后最后只想一次commit的方法,存在的问题,除了将爬取的数据存入文件外,还可以实现将爬取的信息存入数据库中进行保存,这部分使用的是。可见其于SQLite在python中的使用方法是一样的,并且操作方法也是一样的。,因为其中实现了Scrapy爬虫和连接数据库的接口。其常用连接的数据库包括。在Python中访问MySQL数据库可以使用。,其在Python中有封装好的。其中需要调用的模块为。原创 2025-04-24 17:32:45 · 840 阅读 · 0 评论 -
爬虫学习——获取动态网页信息
对于硬编码在JavaScript中的内容,可以直接对js进行下手;但是对于JavaScript通过HTTP请求跟网站动态交互获取信息的方式,其需要对应的渲染引擎处理后,在执行爬取操作。Execute用于运行用户自定义的模拟点击页面中的按钮和模拟人与页面进行交互的操作。该网页链接指向Splash项目的。原创 2025-04-23 17:04:49 · 911 阅读 · 0 评论 -
爬虫学习——下载文件和图片、模拟登录方式进行信息获取
由于是第三方库故需要对其进行安装下载,,pip install tesseract-ocr,由于其依赖其他的图像处理库,故还需要安装pip install pillow pytesseract。,其本质就是一个专门的下载器,其使用的方式就是将文件或图片的url传给它(eg:item[“file_urls”])。其中最为简单的方式是(将需要登录的信息提前以发送请求的格式设定好。一般这种的识别率不是很高,多在70%~80%之间,且用于识别较为简单的验证码,除了登录的网页外,网页中可能会出现识别验证码的情况,原创 2025-04-22 17:13:22 · 971 阅读 · 0 评论 -
爬虫学习——LinkEXtractor提取链接与Exporter导出数据
导出数据时,Scrapy需提供导出文件的路径、导出文件的数据格式;可以通过命令行参数和修改配置文件实现导出数据。这个解决任务的需求在于对爬取到的数据以某种数据格式保存到文件中,即导出数据。,但是其毕竟主要的作用还是提取数据,不是专门用于提取链接的,,这个使用的是内部支持的导出格式。,这个是用户自定义的导出格式。在默认配置文件中,使用的是。在用户配置文件中,使用的是。原创 2025-04-21 16:16:55 · 382 阅读 · 0 评论 -
爬虫学习——Item封装数据与Item Pipeline处理数据
其配置为:ITEM_PIPELINES={“每一个Item Pipeline类的导入路径,值为0~1000的数字,该数字的大小决定了Item Pipeline处理数据的先后次序,两者的使用关系如下:首先创建一个自定义的Item类,命名为BestItem()该类继承于Item类,然后使用Field()来对各字段进行创建对象,即cost=Field()如果在某一个Item Pipeline处理时抛出异常,那么这个数据将不再传递给后面的Item Pipeline进行处理,也不会导出到文件中,而是。原创 2025-04-21 14:56:02 · 643 阅读 · 0 评论 -
爬虫学习——Spider和Selector
在Selector中有以下方法可以对选中的内容进行提取extract()/re()/extract_first()/re_first(),该。以下是学习CSS文档:https://www.w3.org/TR/css3-selectors。以下是学习XPath文档:https://www.w3.org/TR/xpath/Engine:为引擎,其为框架的核心,其他所有组件在其控制下协同工作。Spider:为爬虫,负责提取页面中的数据,并产生对新页面的下载请求。原创 2025-04-20 11:48:30 · 389 阅读 · 0 评论 -
爬虫学习——Scrapy
对获取的下一个网页的URL,使用yield和request的组合方式将请求都由yield语句交给Scrapy引擎,例子:yield scrapy.Request(next_url,cllback=self.parse)①爬虫的时候在爬取网页的URL的时候记得对URL进行去重,这很关键;以以下图片中的内容为例。④爬虫的流程:创建并命名爬虫名称-》对爬取的网页的URL进行设定-》parse方法的使用来提取页面总的内容。③爬虫的起始点可以设定多个,但是需要预先对每个不同的爬虫进行不同的命名,是的爬虫的效率增加。原创 2025-04-18 12:30:51 · 471 阅读 · 0 评论 -
Docker云服务器部署Python程序(自用)
Docker云服务器部署Python程序原创 2025-03-01 00:18:18 · 393 阅读 · 0 评论 -
主题模型(二)
主题模型训练需优化以提升应用价值。技巧包括:采用词干化与n-gram,添加领域相关停用词,利用Gensim和scikit-learn调参确定主题数。Gensim关键超参数有chunksize、passes和iterations,LDA模型中alpha和beta参数影响主题密度和词汇表大小。训练时可打开日志记录。主题一致性衡量模型可解释性,可通过可视化或一致性值评估模型效果,确定最佳主题数。可视化方法包括pyLDAvis、Gensim距离计算和树形图。原创 2025-02-27 23:10:30 · 679 阅读 · 0 评论 -
主题模型(一)
主题模型是文本挖掘技术,用于提取文本数据的潜在语义结构,帮助理解和探索无标记文本。它通过分析文档中单词的概率分布来标注主题信息,实现更高效的文档搜索和排序。Gensim支持多种算法,如LDA、LSA和DTM,其中LDA概率值全为正数,LSA可能包含正负数。HDP无需预设主题数量,适合探索性分析。DTM引入时间帧,动态观察主题变化。Scikit-learn的NMF通过矩阵分解降低内存消耗,提高计算效率。常用的算法有LDA、LSA、HDP和NMF,Gensim和scikit-learn是两个常用库。原创 2025-02-27 23:04:24 · 306 阅读 · 0 评论 -
Dockerfile文本文件+FastAPI学习
本文介绍了如何通过Dockerfile构建Docker镜像,并结合FastAPI框架快速开发和部署API应用。Dockerfile定义了镜像的运行环境、依赖安装及启动命令,FastAPI则提供了高性能的API开发能力并自动生成交互式文档。用户可通过http://127.0.0.1:8000访问应用,http://127.0.0.1:8000/docs和http://127.0.0.1:8000/redoc查看API文档。若链接无法访问,请检查链接合法性或重试。原创 2025-02-21 20:29:27 · 210 阅读 · 0 评论 -
基于恒源云平台的pycharm的SSH远程连接(自项自用)
对于自己项目中关于pycharm与恒源云算力平台设置的一些经验总结!为自己后面进行项目配置提供便利原创 2025-02-16 11:28:37 · 581 阅读 · 0 评论 -
BERTopic模型使用的注意事项(自用)
本文介绍了如何使用BERTopic进行文本主题建模和可视化。BERTopic结合了SentenceTransformer、UMAP和HDBSCAN等工具,能够高效地从文本数据中提取主题。通过visualize_topics()方法,可以直观地展示主题分布;visualize_hierarchy()方法则用于呈现主题的层次结构。此外,visualize_heatmap()和visualize_barchart()方法分别用于展示主题间的相似度和关键词权重。这些可视化工具帮助用户更好地理解和解释主题建模的结果。原创 2025-02-11 20:36:25 · 668 阅读 · 0 评论 -
BERTopic主题聚类模型的认识(自用)
本文探讨了基于BERTopic的主题建模技术及其多种实现方式。BERTopic结合了BERT嵌入和聚类算法,能够高效提取文本数据的主题。通过使用不同的嵌入模型(如SentenceTransformer、OpenAI模型)和调整降维(UMAP)及聚类(HDBSCAN)参数,可以灵活优化主题建模效果。此外,还介绍了利用TF-IDF向量进行主题建模的方法,以及如何通过自定义降维模型实现无降维的主题提取。这些方法为文本分析提供了多样化的工具,有助于深入挖掘文本数据的内在结构和主题信息。原创 2025-02-09 23:05:26 · 2090 阅读 · 0 评论 -
高维数据降维的三种方法(自用)
摘要:本文对比了PCA、t-SNE和UMAP三种降维方法。PCA是线性方法,时间复杂度为 O(n3),适合线性数据,能保留较多原始信息。t-SNE是非线性方法,时间复杂度为 O(nlogn),擅长保留局部结构,但不适合大规模数据且无法捕获全局结构。UMAP通过拓扑结构实现降维,时间复杂度为 O(n1.14),能同时保留全局和局部结构,适合复杂数据。实验表明,UMAP在处理复杂数据时表现最佳,其次是t-SNE和PCA原创 2025-02-09 13:36:03 · 475 阅读 · 0 评论 -
如何搭建自己的卷积神经网络模型(自用)
如何搭建自己的卷积神经网络模型(自用)原创 2024-12-13 20:54:57 · 372 阅读 · 0 评论 -
粒子球(自用)
【代码】粒子球(自用)原创 2024-12-13 10:40:50 · 136 阅读 · 0 评论 -
Python数据分析——常用操作(自用Over)
Python数据分析——常用操作(自用Over)原创 2024-10-13 16:44:15 · 377 阅读 · 0 评论 -
Python数据分析——数据预处理的常见操作
Python数据分析——数据预处理的常见操作原创 2024-10-11 23:33:29 · 310 阅读 · 0 评论 -
Python数据分析——聚合函数的使用(自用)
Python数据分析——聚合函数的使用(自用)原创 2024-10-11 00:04:40 · 337 阅读 · 0 评论 -
Python数据分析——层次化索引的使用(自用)
Python数据分析——层次化索引的使用(自用)原创 2024-10-11 00:00:57 · 263 阅读 · 0 评论 -
Python数据分析——索引运算符[]和属性运算符. 的使用。自用)
Python数据分析——索引运算符[]和属性运算符. 的使用。自用)原创 2024-10-10 23:52:05 · 204 阅读 · 0 评论 -
Python数据分析——Pandas迭代(循环遍历元素)、按标签排序和按值排序(自用)
Python数据分析——Pandas迭代(循环遍历元素)、按标签排序和按值排序(自用)原创 2024-10-10 23:47:49 · 239 阅读 · 0 评论 -
Python数据分析——数据帧(DataFrame)(自用)
Python数据分析——数据帧(DataFrame)(自用)原创 2024-10-10 23:40:59 · 425 阅读 · 0 评论 -
Python数据分析——系列、数据帧的区别(自用)
Python数据分析——系列、数据帧的区别(自用)原创 2024-10-10 23:28:23 · 289 阅读 · 0 评论 -
Python数据分析——numpy搜索函数、拷贝和IO函数(自用)
Python数据分析——numpy搜索函数、拷贝和IO函数(自用)原创 2024-10-10 23:23:44 · 314 阅读 · 0 评论 -
Python数据分析——numpy数组运算、迭代、连接、分割、元素增删(自用)
Python数据分析——numpy数组运算、迭代、连接、分割、元素增删(自用)原创 2024-10-10 23:15:20 · 544 阅读 · 0 评论 -
Python数据分析——numpy索引切片(自用)
Python数据分析——numpy索引切片(自用)原创 2024-10-10 23:05:50 · 283 阅读 · 0 评论 -
Python数据分析——numpy的数据类型(自用)
Python数据分析——numpy的数据类型(自用)原创 2024-10-10 23:02:19 · 555 阅读 · 0 评论 -
Python数据分析——numpy中对字符串相关处理的操作(自用)
Python数据分析——numpy中对字符串相关处理的操作(自用)原创 2024-10-10 22:51:53 · 321 阅读 · 0 评论 -
Python数据分析——数据透视表+数据交叉表 (自用)
Python数据分析——数据透视表+数据交叉表 (自用)原创 2024-10-10 22:39:38 · 250 阅读 · 0 评论 -
Python数据分析——IO操作篇 (自用) 内容包括读写csv、html、xlsx、json、sql等
Python数据分析——IO操作篇,内容包括读写csv、html、xlsx、json、sql等原创 2024-10-10 22:02:28 · 235 阅读 · 0 评论 -
Python数据分析——可视化篇(自用)包括各种图的绘画操作,比如直方图,线型图,条形图,饼图,散点图,区域图的绘制以及多图的合并操作
Python数据分析——可视化篇(自用)包括各种图的绘画操作,比如直方图,线型图,条形图,饼图,散点图,区域图的绘制以及多图的合并操作原创 2024-10-10 20:08:14 · 327 阅读 · 0 评论 -
Python数据分析——分类数据(自用)类似于枚举类型的添加、删除、存储空间的优化
Python数据分析——分类数据(自用)类似于枚举类型的添加、删除、存储空间的优化原创 2024-10-10 13:20:07 · 264 阅读 · 0 评论 -
Python数据分析——日期篇(自用)主要涉及日期的查询、修改、格式转换、时间差、时间之间的加减法的相关函数
Python数据分析——日期篇(自用)主要涉及日期的查询、修改、格式转换、时间差、时间之间的加减法的相关函数原创 2024-10-10 01:20:11 · 313 阅读 · 0 评论 -
Python数据分析——合并链接篇和级联(自用) 类似数据库中对表的操作:将两个DataFrame对象进行操作,而级联的操作对象是多个,操作更灵活
Python数据分析——合并链接篇和级联(自用) 类似数据库中对表的操作:将两个DataFrame对象进行操作,而级联的操作对象是多个,操作更灵活原创 2024-10-10 00:04:09 · 193 阅读 · 0 评论 -
Python数据分析——对数据帧的合并和转换操作(自用)
Python数据分析——对数据帧的合并和转换操作(自用)原创 2024-10-09 21:38:24 · 288 阅读 · 0 评论 -
Python数据分析——数据缺失篇(自用)
Python数据分析——数据缺失篇(自用)原创 2024-10-08 22:08:42 · 325 阅读 · 0 评论 -
Python数据分析——numpy数学函数(自用)
Python数据分析——numpy数学函数(自用)原创 2024-10-08 19:43:30 · 1549 阅读 · 0 评论