- 博客(40)
- 资源 (3)
- 收藏
- 关注
原创 Scrapy爬虫实战:正则高效解析豆瓣电影
本文介绍了Python爬虫框架Scrapy的核心应用,重点讲解正则表达式在数据提取中的实战技巧。通过豆瓣电影Top250案例,详细演示了Scrapy项目创建、数据定义、XPath和正则解析、数据存储等完整流程。文章还拓展了动态页面处理、分布式爬取、反爬策略等高级功能,并提供了MySQL/MongoDB存储方案。最后总结了从基础到进阶的学习路径,强调模块化设计和合法合规的爬取原则。全文包含大量可落地的代码示例,是掌握Scrapy的实用指南。
2025-10-06 17:43:10
1611
原创 Python数据清洗实战指南
本文介绍了数据清洗的关键流程与实践方法,重点阐述了Python在数据清洗中的应用。主要内容包括:数据加载(使用sqlite3和pandas)、缺失值处理(检测与填充)、重复值识别与删除、异常值检测(IQR方法)与修正、数据格式转换、数据逻辑错误检查,以及数据标准化和归一化(使用StandardScaler和MinMaxScaler)。文章通过详细代码示例展示了如何实现这些操作,强调数据清洗是确保分析准确性的基础环节,需要根据数据类型和分析目的选择适当处理方法。
2025-10-05 19:30:52
851
原创 数据处理利器:NumPy 与 Pandas 版本说明文档
本文档提供了NumPy与Pandas数据处理工具的版本使用指南,推荐采用Python3.9+NumPy1.25.2+Pandas2.0.3的组合以确保代码兼容性。文档详细说明了版本检查方法、安装升级步骤(包括Python及库文件的安装命令),并针对常见兼容性问题(如多版本冲突、pip版本过低等)提供了解决方案。特别强调应避免使用已停止维护的低版本Python(3.6及以下)和存在兼容性问题的旧版NumPy/Pandas。通过遵循本指南,可有效保证数据处理代码(尤其是RFM分析等实战案例)的稳定运行。
2025-10-04 09:00:00
828
原创 数据处理利器:NumPy 与 Pandas 实战案例扩展与常见误区规避
本文通过两个业务场景(金融风控数据预处理和电商用户RFM分析)深入讲解NumPy与Pandas的实战应用,并总结常见误区。在金融信贷案例中,演示了缺失值处理、异常值修正和特征工程;电商案例则展示了RFM模型构建和用户分层方法。同时指出五大常见错误:浮点数比较、视图/副本混淆、滥用apply、忽略索引唯一性和多对多合并问题,并给出解决方案。最后推荐官方文档、经典书籍等学习资源,提出从基础到业务深化的四阶段进阶路径。强调数据处理的核心在于将技术能力与业务需求深度结合。
2025-10-03 09:00:00
1415
原创 数据处理利器:NumPy 与 Pandas 工业级实战与深度调优
在实时推荐、实时监控等场景中,数据需以 “流” 的形式实时处理(如每秒处理 1000 条用户行为数据),Pandas 需适配流处理框架(如 Apache Flink、Spark Streaming),或通过 “滑动窗口” 实现轻量实时处理。除了前文提到的 “数据类型优化”“向量化运算”,还可从 “底层配置”“代码细节”“工具替代” 三个维度进一步提升性能,尤其适合处理 100GB 以上的数据。在生产环境中,数据处理常遇到 “耗时突增”“内存泄漏”“结果异常” 等问题,以下清单可帮助快速定位并解决问题:。
2025-10-02 09:00:00
700
原创 数据处理利器:NumPy 与 Pandas 进阶技巧与问题解决
在前文基础上,本节将聚焦 NumPy 与 Pandas 的进阶实用技巧(如性能优化、复杂数据处理)和高频问题解决方案(如内存溢出、数据不一致),帮你突破使用瓶颈,应对工业级数据处理需求。一、NumPy 进阶技巧:性能优化与复杂计算NumPy 的核心优势是 “高效”,但在处理大规模数据时,仍需掌握进阶技巧进一步释放性能,同时应对复杂的数值计算场景。1. 性能优化:向量化运算 vs 循环。
2025-10-01 09:00:00
771
原创 多人对战贪吃蛇游戏
这篇文章介绍了一个基于Python和Pygame库开发的多人对战贪吃蛇游戏。游戏支持最多3名玩家同时进行,每位玩家控制不同颜色的蛇,通过方向键移动来吃食物增长身体,同时可以吞吃其他蛇的尾部来增加得分。游戏规则包括碰撞检测、得分计算和胜负判定等机制。文章详细说明了游戏的环境配置、代码结构、操作方法以及可调整的参数。此外,作者提到该代码是通过AI工具生成的,展示了AI在编程学习和项目实现中的辅助作用,能够将想法转化为可执行的代码,并帮助解决学习过程中的问题。
2025-09-30 18:08:57
891
原创 关于存储技术的干货总结
本文系统介绍了五种数据存储技术:1. 分布式文件系统(DFS)支持海量数据存储和高容错性,但管理复杂;2. 列式数据库适合分析查询,具有高压缩率但写入性能低;3. 对象存储适用于非结构化数据,扩展性强但操作受限;4. 分布式数据库提供高可用和扩展性,但一致性维护困难;5. 数据湖支持原始数据存储和多类型分析,但面临数据治理挑战。每种技术都包含应用场景、优缺点、操作示例和学习建议,为不同存储需求提供了技术选型参考。
2025-09-30 09:00:00
719
原创 音频类AI工具扩展
本文介绍了三款AI配音工具的使用方法和特点。千音漫语适用于儿童故事配音,提供1200+音色库,可调整语速、停顿和情感参数;剪映适合短视频制作,操作简单但功能有限;Murf.ai支持多语言配音,适合企业宣传;NoizAI具有语音克隆功能,可快速生成多语言配音。这些工具可应用于教育、娱乐、电商等领域,提升内容创作的效率和质量,但需注意版权和技术限制问题。
2025-09-29 18:43:47
1344
原创 NumPy 与 Pandas 的详细应用(含实例)
本文系统介绍了Python数据分析中NumPy和Pandas两大核心库的应用。NumPy专注于高效数值计算,提供多维数组和向量化运算功能;Pandas则擅长结构化数据处理,支持数据清洗、分组统计等操作。文章详细讲解了库的安装、基础操作(数组/DataFrame创建、索引切片)、进阶功能(缺失值处理、分组聚合),并通过电商销售分析案例演示了实际应用场景。最后总结了二者的协同优势:NumPy负责底层数值计算,Pandas处理高级数据操作,配合使用可显著提升数据处理效率。建议读者从基础操作入手,结合实际案例练习,
2025-09-29 13:34:45
2022
原创 Midjourney等AI工具实操,生成一个小动画
《AI工具制作5分钟奇幻动画全流程指南》 摘要:本文以《魔法小镇的奇妙之旅》为例,详细演示使用豆包+Midjourney+即梦+千音漫语+剪映等AI工具制作5分钟动画的全流程。首先通过豆包生成魔法冒险故事及角色场景描述;然后用Midjourney生成动漫风格画面(参数:--ar16:9设置宽屏比例);接着用即梦平台自动生成包含镜号、时长、台词的分镜脚本;再通过千音漫语为角色配音(需调整语速语调参数);最后用剪映完成素材剪辑(建议转场时长1-2秒)、添加音效和字幕(推荐1080P 25fps导出)。全套流程无
2025-09-28 14:46:02
1384
原创 AI工具——Midjourney扩展使用
【AI工具创意协作指南】摘要:本文介绍了Midjourney与三款专业工具的创意协作方案:1.搭配Photoshop进行图像优化,通过锐化、合成和调色实现精细视觉效果;2.联合Blender将2D图像转化为3D模型,用于场景搭建和动画制作;3.结合Figma为UI设计提供艺术元素,提升界面视觉吸引力。每种方案均包含具体操作实例(如科幻海报制作、3D城堡建模、艺术APP设计),展示如何通过工具组合拓展创意边界,实现从概念到成品的完整创作流程。(149字)
2025-09-28 14:05:59
657
原创 扒一扒为啥现在企业招不到合适的人,而大家也找不到心仪的公司
说说为啥HR简称坏人,这个职位本来是服务企业的,规模化以后已经成为了一群毒瘤一样的存在。
2025-09-28 12:05:24
730
1
原创 AI提示词七个应用框架
本文介绍了AI应用中的七大提示词框架(角色扮演、CRISPE、ICIO、CO-STAR、BROKE、APE、LangGPT)及其应用实例。每个框架针对不同专业领域(如钢笔调校、唱片修复、水族造景等),通过结构化模板指导问题解决。这些框架都包含角色定位、专业背景、具体任务、解决方案等核心要素,可灵活替换应用场景。文章旨在帮助读者掌握AI提示词的基本设计逻辑,实现跨领域的知识迁移应用。(149字)
2025-09-28 11:12:31
1234
原创 今天来看看AIGC
1、 什么是AIGC2、 AIGC将会如何赋能创意产业3、 AIGC生态圈又是什么4、 如何看待AIGC带来的变革5、 AIGC的现象级应用ChatGPT、Midjourney、voice.ai能做什么
2025-09-28 09:45:48
704
原创 Agent的九种设计模式
智能体(Agent)的九种设计模式概括了不同场景下自主决策的固定套路:1)反应式(条件反射);2)基于模型(记录环境规律);3)基于目标(明确任务导向);4)基于效用(多目标权衡);5)学习型(从经验进步);6)单智能体(独立作业);7)多智能体(协作分工);8)静态环境(固定策略);9)动态环境(实时应变)。这些模式通过环境特征(静态/动态)、目标管理(有无/优化)、交互方式(单/多)等维度,为智能体构建不同"行事规则",使其能有效应对各类任务需求。
2025-09-26 15:27:03
1006
原创 AI提示词应用
摘要:本文分享了三套AI提示词工具,帮助职场人士应对职业困境。首先采用BROKE框架打造虚拟职业规划师,提供专业发展建议;其次运用ICIO框架设计简历撰写指南,突出岗位匹配度;最后通过LangGPT框架构建简历优化专家角色,提升求职竞争力。这些工具针对职业转型、简历优化等痛点,为处于夕阳行业的从业者提供实用解决方案,帮助在激烈就业市场中脱颖而出。
2025-09-26 13:58:04
3221
4
原创 AI工具使用随笔
本文作者分享了自己探索AI工具的心得。作为长期专注画图的设计师,作者通过阅读《AI助你提升办公效率》一书,了解到AI在资料处理方面的应用价值。对比测试了deepseek、豆包等工具后,发现通过精准的角色设定(如结构工程师)能显著提升AI回答质量。其中豆包的智能体功能尤为实用,但回答深度需进一步提示。作者还指出市面AI书籍内容多由AI生成,干货有限,建议通过论坛博客获取实用信息,并分享了两个AI工具资源网站,邀请读者交流免费好用的文生图工具。
2025-09-26 13:14:10
1015
原创 双系统ubuntu18.04server+win10
上周末新买的固态硬盘到了,以前的系统盘太小,装了很多软件,已经满了,不想再弄一遍,于是决定在新到的固态硬盘上面安装双系统,win10和ubuntu18.04server版本。一开始是按照网上的教程安装ubuntu18.04桌面版和win10系统,很简单,出于装逼,我想装个server版本,按照桌面版的步骤,试了很多次都没有成功,好在我的盘是新盘,不怕数据丢失。准备工具两个8G的U盘,利用htt...
2019-09-02 14:07:50
1154
原创 tensorflow基础知识学习一
从最基础的开始,每天敲一点代码,慢慢积累。Tensorflow是一种计算图模型,即用图的形式来表示运算过程的一种模型。Tensorflow程序一般分为图的构建和图的执行两个阶段。图的构建阶段也称为图的定义阶段,该过程会在图模型中定义所需的运算,每次运算的的结果以及原始的输入数据都可称为一个节点(operation ,缩写为op)。import tensorflow as tfa = 3# ...
2019-06-18 00:01:21
371
原创 tensorflow初学遇到的报错积累
@Tensorflow 学习中遇到的错误汇总运行环境 win7_64 python3.6 jupyter notebook tensorflow1.2.0TypeError Traceback (most recent call last) in 1 k1 = tf.constant([2, 5])2 k2 = tf....
2019-06-14 07:46:11
477
原创 机器学习-梯度下降法-多元线性回归
导入要用到的包import numpy as npfrom numpy import genfromtxtimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D读入数据data = genfromtxt(r"G:\work\python\jupyter_notebook_work\机器学习\回归\De...
2019-04-16 21:36:52
490
原创 机器学习-sklearn-一元线性回归
首先导入要用到的包from sklearn.linear_model import LinearRegressionimport numpy as npimport matplotlib.pyplot as plt载入数据data = np.genfromtxt(r"G:\work\python\jupyter_notebook_work\机器学习\回归\data.csv",delimi...
2019-04-16 21:29:40
515
原创 机器学习-梯度下降法—一元线性回归
直接上代码吧:import numpy as npimport matplotlib.pyplot as plt载入数据 用,进行切分data = np.genfromtxt(r"G:\work\python\jupyter_notebook_work\机器学习\回归\data.csv",delimiter = “,”)print(data)此处截取局部[[ 32.50234527 ...
2019-04-11 01:08:23
486
1
原创 R语言学习_创建数据集
matrix语法格式mymatrix <- matrix(vector, nrow = number_of_rows, ncol = number_of_columns, byrow = logical_value, dimnames = list(char_vector_rownames, char_vector_colnames))vector包含了矩阵的元素。nrow和nco...
2019-04-08 23:52:47
763
原创 R语言学习_决策树
分类算法家族决策树ID.3、C4.5、C5.0CART(Classification and Regression Tree, 分类回归树)元模型Bagging、Boosting、随机森林贝叶斯朴素贝叶斯、贝叶斯网络懒惰算法knn决策树的庐山面目 根节点 一棵决策树只有一个根节点 叶节点 中间节点 二叉树和多叉树 ...
2019-04-08 17:39:31
1436
原创 R语言学习_关联规则
关联规则挖掘目的发现商品之间的关系模式指标 支持度 support(x) = P(x) 置信度 confidence(X -> Y) = support(X,Y)/support(X) 提升度 lift(X -> Y) = confidence(X -> Y)/support(Y) 关联规则 最小支持度阈值、最小置信度阈值Apriori算...
2019-04-08 17:36:43
818
原创 MongoDB学习笔记
MongoDB流行的NoSQL数据库文档型的NoSQL数据库名字由来:humongoushttps://www.mongodb.org/https://www.mongodb.com/web2.0的出现吗,互联网进入大数据时代关系型数据库固有的缺陷无法处理大数据,于是出现了新型的数据库,这些数据库不使用SQL接口操作数据库,统称为NoSQL数据库NoSQL数据库分类 -...
2019-04-04 22:12:17
333
原创 R语言学习_数据降维
纬度灾难变量过多(没用的变量)变量相关(相关的变量)解决办法剔除无用变量逐步回归向前引入法向后剔除法逐步筛选法Step函数AIC越小越好 AIC = n ln(SSE) + 2p主成分分析快速降维技术降维过程中不影响解的精度消除多重共线性 数学工具 原变量线性组合得到新变量;方差的重新分配,保留几个方差最大的变量; ...
2019-04-04 21:38:18
2155
原创 R语言学习_聚类方法
聚类距离(点和点、类和类)相关系数层次聚类法K-means聚类法聚类(“物以类聚,人以群分”)聚类是一种无监督的学习,使用聚类不需要提前被告知要划分的组是什么样的,甚至在我们不知道找什么时就自动完成分组。根据样本点的几何特征完成分类距离距离————样本(点)之间相似程度 闵可夫斯基距离(Minkowski) 棋盘距离(曼哈顿距离) 欧式距离...
2019-04-04 21:37:06
1153
原创 R语言学习_回归预测
本文摘要: 《相关与回归:理论、实例与落地指南》系统介绍了统计分析中相关与回归的核心概念和实践方法。文章首先区分了变量间的函数关系和相关关系,强调相关与回归仅适用于非确定性相关关系。其次,详细对比了相关分析(描述关系)与回归分析(预测规律)的联系与区别,并指出"相关≠因果"的常见误区。在回归分析部分,重点讲解了一元线性回归的数学原理(OLS估计)、模型假设(LIME原则)、检验方法(t检验和F检验)以及预测技术(点预测和区间预测)。最后通过Python代码实例演示了身高与体重的回归分析实
2019-04-04 21:35:06
12936
2
原创 R语言学习笔记_数据清理2
统计学是如何总结数据特点的分布(离散型、连续型)描述、相关单变量:描述集中趋势、分散趋势双变量:相关共同变化趋势(协方差、相关系数)可视化探索数据分布分布就是概率可能结果(取值)有哪些每个结果或者某个范围内的概率是多少?可视化展现概率密度图累积分布图常见分布分类变量:二项分布、泊松分布数值变量:均匀分布、正态分布、指数分布得到分布是研究的最高境界,说着容易做着难...
2019-04-04 21:31:52
590
原创 R语言学习笔记_数据清理1
导入数据之前明确需求理解数据数据质量导入数据支持多种数据源文本文件read.table、read.csv、read.delimscanExcel文件csv、prn格式+read.csv剪贴板+read.delimxlsx扩展包rodbc包数据清洗缺失值处理NA、NaN、Inf、-Inf识别缺失数据先把不合理值重编码为缺失值is.na、complete.case...
2019-04-04 21:28:52
2255
1
原创 R语言学习笔记_语法学习
数据类型character:字符型numeric:数值型,指实数或小数integer:整型complex:复数型logical:逻辑型数据结构数据分析的对象数值变量分类变量(有序、无序)向量、因子矩阵、数据框数组、列表向量 创建向量 c() x = c(1,2,3,4,5) 冒号操作符: ...
2019-04-04 21:24:53
423
原创 SPSS Modeler数据挖掘学习_部分笔记
数据挖掘是一个过程,是一个以数据为中心的循序渐进的螺旋式数据探索过程。![上图指出,数据挖掘时一个以数据为核心多个环节紧密相连,循环反复且循序渐进的数据探索过程](https://img-blog.csdnimg.cn/20190404202741100.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,te...
2019-04-04 21:22:51
6072
1
原创 机器学习之最近邻算法
机器学习之最近邻算法小白,最近在学习Python的机器学习课程,最近邻算法,对应中国的古话:近朱者赤近墨者黑举个例子,你想知道某个人A的职业,你可以通过他身边朋友的职业来猜测,比如他有n个朋友,一个做设计的铁哥们B,一个做房产中介的高中同学C,还有两个玩的比较好的是做码农的D和E。我们来量化一下几人的关系AB<AC<AD,AE<A~othersk近邻算法中的k值的选择,如果...
2019-03-21 19:58:45
518
AIGC技术在内容生成与商业化中的应用探索
2025-09-28
【统计学应用】基于数据思维的统计方法解析:日常生活与社会现象的量化分析系统设计
2025-09-25
人工神经网络理论、设计及应用第二版
2019-04-09
MongoDB学习
2019-04-16
Python爬虫篇
2019-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅