自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 Neo4j基本命令使用

neo4jneo4j简介安装可视化管理后台登录Cyphercreatematchmergecreate创建关系merge创建关系wheredeletesort命令字符串函数toUpper()函数toLower()函数substring()函数replace()函数聚合函数count()函数max()函数min()函数sum()函数avg()函数索引indexpython 中使用neo4jneo4j简介安装可视化管理后台登录CyphercreateCREATE (e:Employee

2025-04-06 20:15:07 314 1

原创 国内外AI大模型汇总合集-文本类

国内外大模型汇总

2025-04-06 20:00:52 222

原创 AI音乐生成在线及开源合集

AI音乐生成工具

2025-04-04 11:27:47 1048

原创 AI大模型个人本地部署教程

Ollama/ LM Studio/OpenwebUI

2025-03-20 23:15:34 666

原创 数据产品经理实践方法论与思考

摘选自datafuntalk。

2025-03-20 22:52:49 184

原创 推荐系统-Hive基础

Hive基本操作基本概念功能说明架构hive和hadoop数据模型安装部署安装启动基本操作hive的内部表和外部表分区表动态分区Hive函数Hive内置运算符和内置函数Hive自定义函数综合案例基本概念功能说明操作接口采用类SQL法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本功能扩展很方便架构hive和hadoopHive利用HDFS存储数据,利用MapReduce查询分析数据注:Hive是数据仓库工具,没有集群的概念。只需要在hadoop集群Mas

2022-09-01 16:59:59 574

原创 NLP-深度学习和神经网络

深度学习深度学习机器学习和深度学习的区别特征提取数据量应用场景神经网络人工神经网络神经元的概念单层神经网络感知机多层神经网络激活函数深度学习深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行特征学习的算法。机器学习和深度学习的区别特征提取特征提取的角度出发:机器学习需要有人工的特征提取的过程深度学习没有复杂的人工特征提取的过程,特征提取的过程可以通过深度神经网络自动完成数据量数据量:深度学习需要大量的训练数据集,会有更高的效果深度学习训练深度神经网络需要大量的算力

2020-09-26 15:22:35 782

原创 自动化发报表

自动化发报表文件目录自动压缩发邮件sql和pandas处理保存文件目录报表数据存储目录自动压缩发邮件import timeimport zipfileimport osimport shutilimport smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBase #附件from email.mime.text import MIMETextfrom email

2020-09-04 22:50:32 420

原创 数据分析-指标

数据分析指标数据指标定义数据指标详解选择指标数据分析方法数据指标定义数据指标定义:有价值可统计常用指标分类用户数据 谁行为数据 干了什么业务数据 产生了什么结果用户dau 日活mau 月活dnu 日新增转化率留存率行为pv 访问次数uv 访问人数访问深度访问时长弹出率业务相关卖钱的产品gmv 销售总量—总共买了多少钱ARPU 人均收入金额ARPPU 付费人均收入付费人数付费率付费频次sku:商品,道具 就是产品

2020-08-09 18:23:59 22 1

原创 爬虫初级面试准备

爬虫初级面试准备get和post请求正则提取案例scrapy工作流程scrapy优点缺点爬虫选择mongodb存储代理response.text和response.contentget和post请求import requestsurl = 'https://github.com/USER_NAME'# 构造请求头字典headers = { # 从浏览器中复制过来的User-Agent 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win6

2020-08-01 10:50:06 417 1

原创 Linux操作

Linux操作基础命令命令查看目录命令的使用切换目录命令创建、删除文件及目录命令复制、移动文件及目录命令终端命令格式的组成命令选项查看命令帮助ls命令选项mkdir命令选项rm命令选项cp命令选项mv命令选项高级命令重定向命令查看文件内容命令管道(|)命令的使用连接命令文本搜索命令!!查找文件命令压缩和解压缩命令tar命令及选项的使用zip和unzip命令及选项的使用文件权限命令!!!获取管理员权限的相关命令用户相关操作用户组相关操作远程登录、远程拷贝命令补充基础命令命令查看目录命令的使用命

2020-08-01 10:00:51 385

原创 数据分析和数据挖掘

数据分析-聚类分析聚类分析分析方法技术问题年龄收入分群案例聚类分析总结回归分析聚类分析分析方法技术问题均值的问题 kmeans 更新中心点 均值点异常数据会影响均值 要去异常量纲的问题 —要做标准化 — 基于距离的数据量大的问题m个样本,n个特征,k个中心点,t次迭代 算法复杂度 O(tkm*n)mini-batch-kmeans来解决数据量大的问题结论:MiniBatchKMeans在基本保持了K-Means原有较高类别识别率的前提下,其计算效率的提升非常明显

2020-07-22 11:30:36 622

原创 数据分析-sql基本操作

SQL数据分析介绍sql常见操作回顾聚合函数使用分组子查询多表联结查询组合查询CASE表达式利用SQL对淘宝用户行为进行数据分析数据导入与清洗用户行为分析数据总体情况用户行为转化情况分析用户行为习惯分析用户类目偏好分析介绍sql常见操作回顾聚合函数使用1.计算价格的平均值select avg(Price) as avg_price from house_price2.计算数据的总量select count(*) from house_price #计算的是所有数据,包含空的行selec

2020-07-22 10:14:05 633

原创 数据分析-sql高级

SQL高级操作Sql高级操作取出数据并显示行号Sql高级操作取出数据并显示行号select p_name,p_type,p_view from products ORDER BY p_view desc

2020-07-22 10:10:37 420

原创 数据分析-pandas数据处理

数据分析-pandas数据处理概述业务建模流程特征工程数据清洗缺失值处理异常值(极值)处理重复值处理python数据清洗案例数值型数据的处理标准化&&归一化pca降维离散化/分箱/分桶----将数据简化分类数据的处理时间类型数据的处理样本类别分布不均衡Python处理样本不均衡案例smote上采样randomundersampler数据抽样概述业务建模流程将业务抽象为分类or回归问题定义标签,得到y选取合适的样本,并匹配出全部的信息作为特征的来源特征工程 + 模型训练 + 模型

2020-07-16 11:15:28 970

原创 数据分析-Excel基本操作(简)

Excel基本函数

2020-07-13 09:11:46 420

原创 机器学习算法框架流程

Machine Learning and algorithm K Nearest NeighborGridSearchCValgorithm )K Nearest Neighborimport pandas as pdimport numpy as npfrom sklearn.neighbors import KNeighborsClassifier # classifierfrom sklearn.preprocessing import StandardScaler # standar

2020-07-05 21:05:04 646 2

原创 数据收集-appium的使用

数据收集-appium的使用

2020-06-26 10:33:28 374

原创 数据收集-scrapy爬虫框架(三)

splash组件、日志信息配置、scrapyd部署scrapy项目、gerapy爬虫管理、crawlspider类使用

2020-06-26 10:33:10 428

原创 数据收集-scrapy爬虫框架(二)

模拟登陆/管道使用/中间件/scrapy_redis

2020-06-26 10:32:47 585

原创 数据收集-scrapy爬虫框架(一)

概念、作用、工作流程、基本使用、建模、构造发送请求

2020-06-26 10:32:21 804

原创 数据收集-selenium

selenium介绍chrome浏览器phantomjs无界面浏览器无头浏览器与有头浏览器作用和工作原理安装使用提取数据driver对象的常用属性和方法driver对象定位标签元素获取标签对象的方法标签对象提取文本内容和属性值标签页的切换switch_to切换frame标签对cookie的处理获取cookie删除cookie控制浏览器执行js代码页面等待强制等待(了解)隐式等待显式等待(了解)手动实现页面等待开启无界面模式使用代理ip替换user-agent介绍Selenium是一个Web的自动化测试工

2020-06-26 10:31:14 420

原创 数据收集-mongodb数据库

mongodb数据库介绍mongodbSQL和NoSQL的主要区别数据之间无关联性mongodb的优势安装简单使用服务端的启动测试方式启动生产环境正式的启动方式客户端启动简单使用mongodb数据库的命令mongodb集合的命令常见的数据类型增删改查介绍mongodbmongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。mongodb 本身提供S端存储数据,即server;也提供C端操作处理(如查询等)数据,即client。SQL和NoSQL的主要区别在SQL中层

2020-06-26 10:30:48 781

原创 数据收集-数据提取

数据提取响应内容的分类xml和html的区别xmlxml和html的区别常用数据解析方法jsonpath模块使用方法案例练习lxml模块和xpath语法谷歌浏览器xpath helper插件安装xpath的节点关系xpath语法基础节点选择语法xpath定位节点以及提取属性或文本内容的语法语法练习节点修饰语法响应内容的分类结构化的响应内容json字符串可以使用re、json等模块来提取特定数据xml字符串可以使用re、lxml等模块来提取特定数据非结构化的响应内容html字符

2020-06-26 10:30:08 1319

原创 数据收集-抓包与反爬

抓包与反爬常见的反爬手段反爬原因反爬常见概念反爬的三个方向基于身份识别进行反爬通过headers字段来反爬通过请求参数来反爬常见基于爬虫行为进行反爬基于请求频率或总请求数量根据爬取行为进行反爬基于数据加密进行反爬对响应中含有的数据进行特殊化处理验证码处理图片验证码图片识别引擎tesseract图片识别引擎环境的安装图片识别引擎的使用图片识别引擎的使用扩展打码平台常见的打码平台云打码的使用常见的验证码的种类chrome浏览器使用方法新建隐身窗口network的更多功能Perserve logfilter过滤观

2020-06-26 10:29:42 2385

原创 爬虫数据解析与提取

爬虫数据解析与提取前言正则表达式语法列表语法案例Xpath规则运用xpath规则Xpath谓语条件(Predicates)xpath轴CSS选择器规则与运用BeautifulSoup4模块JsonPath规则与运用json规则python中运行js内容不全,暂不想写前言进行爬虫数据解析与提取方法爬虫数据四大解析规则:正则表达式规则、Xpath规则、CSS选择器规则、JsonPath规则前端的三大语法:HTML、CSS、JavaScript正则表达式语法列表普通字符语法预定义字符集语

2020-06-23 19:21:19 1164

原创 机器学习-算法总结图

机器学习-算法总结图加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存...

2020-06-20 11:28:15 416

原创 爬虫基础和requests模块

爬虫概述、http协议复习、requests模块

2020-06-06 11:01:40 482

原创 机器学习-新闻分类案例

新闻分类案例项目,对文章进行分词,用TF-IDF和词袋,对文章进行分词,用TF-IDF和词袋表示文档特征,训练word2vec模型,完整过程,项目集成调用...

2020-06-05 21:08:37 1096

原创 机器学习-聚类算法

聚类算法、模型评估、算法优化、特征降维、kmeans/

2020-06-05 21:08:11 391

原创 机器学习-线性回归

线性回归线性回归线性回归线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。from sklearn.linear_model import LinearRegression#获取数据x = [[80, 86],[82, 80],[85, 78],[90, 90],[86, 82],[82, 90],[78, 80

2020-06-05 21:07:26 2184

原创 机器学习-k近邻算法

机器学习-算法篇k近邻算法简介初步使用距离度量欧氏距离(Euclidean Distance)曼哈顿距离(Manhattan Distance)切比雪夫距离 (Chebyshev Distance)闵可夫斯基距离(Minkowski Distance)标准化欧氏距离 (Standardized EuclideanDistance)余弦距离(Cosine Distance)汉明距离(Hamming Distance)杰卡德距离(Jaccard Distance)马氏距离(Mahalanobis Distanc

2020-06-05 21:07:16 2133

原创 机器学习-集成学习

集成学习算法集成学习集成学习中boosting和BaggingBaggingBagging集成原理随机森林构造过程随机森林api介绍随机森林预测案例Boostingboosting集成原理GBDT(了解)XGBoost【了解】集成学习集成学习通过建立几个模型来解决单一预测问题。工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。集成学习中boosting和BaggingBaggingBagging集成原理随机森林构造过程随

2020-06-05 21:06:48 531

原创 机器学习-决策树算法

决策树算法决策树算法简介决策树分类原理熵Entropy信息增益案例信息增益率案例基尼值和基尼指数案例总结常见决策树的启发函数比较其他cart剪枝常用剪枝方法特征工程-特征提取决策树算法简介决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。决策树定义:是一种树形结构,本质是一颗由多个判断节点组成的树决策树分类原理熵Entropy物理学上,熵 Entropy 是“混乱”程度的量度。

2020-06-05 21:04:48 607

原创 机器学习-逻辑回归

逻辑回归逻辑回归介绍逻辑回归的原理损失以及优化逻辑回归api介绍案例:癌症分类预测分类评估方法混淆矩阵精确率(Precision)与召回率(Recall)F1-score分类评估报告apiROC曲线与AUC指标TPR与FPRROC曲线AUC指标AUC计算APIROC曲线的绘制逻辑回归介绍应用场景:广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号逻辑回归的原理输入激活函数损失以及优化逻辑回归的损失,称之为对数似然损失损失函数值,越小越好当y=1时,h​θ (x)值越大越好;当

2020-06-05 21:04:13 277

原创 科学计算库Pandas用法

科学计算库Pandas用法介绍数据结构SeriesDataFrameMultiIndex介绍以Numpy为基础,借力Numpy模块在计算方面性能高的优势,基于matplotlib,能够简便的画图,独特的数据结构。增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算数据结构Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。Series是一维数据结构,DataFrame是二维

2020-06-05 21:02:35 261

原创 科学计算库之pandas高级

这里写自定义目录标题时间序列处理合并分组&聚合透视表和交叉表透视表交叉表crosstab时间序列处理合并分组&聚合DataFrame.groupby(key, as_index=False)透视表和交叉表透视表透视表是一种可以对数据动态排布并且分类汇总的表格格式。而在pandas中它被称作pivot_table。pandas.pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, marg

2020-06-05 21:01:56 227

原创 Matplotlib绘图和jupyter notebook使用

机器学习之科学计算库

2020-06-04 22:47:17 3084 1

原创 科学计算库Numpy用法

Numpynumpy介绍ndarray介绍N维数组-ndarrayndarray的形状基本操作ndarray运算数组间运算矩阵运算numpy介绍用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。ndarray介绍NumPy提供了一个N维数组类型ndarray用来存储相同类型数据的集合ndarray的优势内存块风格

2020-06-04 22:46:41 298

原创 pipeline、异步方案 redis 和Celery、页面静态化

异步方案 redis 和 Celery异步方案 redis 和 Celery生产者消费者设计模式Celery 介绍和使用介绍安装创建实例并且配置定义任务启动消费者( celery充当 )补充 celery worker 的工作模式异步方案 redis 和 Celery生产者消费者设计模式中间人(broker)搭桥,保证两个业务没有直接关联.这一解耦方式为:生产者消费者设计模式执行的流程:生产者生成消息,缓存到消息队列中,消费者读取消息队列中的消息并执行。由美多商城生成发送短信消息,缓存到

2020-06-04 22:41:30 451

AI音乐生成在线及开源合集

生成音乐1

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除