White Root-优快云博客

原创 Neo4j基本命令使用

neo4jneo4j简介安装可视化管理后台登录Cyphercreatematchmergecreate创建关系merge创建关系wheredeletesort命令字符串函数toUpper()函数toLower()函数substring()函数replace()函数聚合函数count()函数max()函数min()函数sum()函数avg()函数索引indexpython 中使用neo4jneo4j简介安装可视化管理后台登录CyphercreateCREATE (e:Employee

2025-04-06 20:15:07 565 1

原创国内外AI大模型汇总合集-文本类

国内外大模型汇总

2025-04-06 20:00:52 598

原创 AI音乐生成在线及开源合集

AI音乐生成工具

2025-04-04 11:27:47 1993

原创 AI大模型个人本地部署教程

Ollama/ LM Studio/OpenwebUI

2025-03-20 23:15:34 1035

原创数据产品经理实践方法论与思考

摘选自datafuntalk。

2025-03-20 22:52:49 248

原创推荐系统-Hive基础

Hive基本操作基本概念功能说明架构hive和hadoop数据模型安装部署安装启动基本操作hive的内部表和外部表分区表动态分区Hive函数Hive内置运算符和内置函数Hive自定义函数综合案例基本概念功能说明操作接口采用类SQL法，提供快速开发的能力避免了去写MapReduce，减少开发人员的学习成本功能扩展很方便架构hive和hadoopHive利用HDFS存储数据，利用MapReduce查询分析数据注：Hive是数据仓库工具，没有集群的概念。只需要在hadoop集群Mas

2022-09-01 16:59:59 626

原创 NLP-深度学习和神经网络

深度学习深度学习机器学习和深度学习的区别特征提取数据量应用场景神经网络人工神经网络神经元的概念单层神经网络感知机多层神经网络激活函数深度学习深度学习是机器学习的分支，是一种以人工神经网络为架构，对数据进行特征学习的算法。机器学习和深度学习的区别特征提取特征提取的角度出发：机器学习需要有人工的特征提取的过程深度学习没有复杂的人工特征提取的过程，特征提取的过程可以通过深度神经网络自动完成数据量数据量：深度学习需要大量的训练数据集，会有更高的效果深度学习训练深度神经网络需要大量的算力

2020-09-26 15:22:35 848

原创自动化发报表

自动化发报表文件目录自动压缩发邮件sql和pandas处理保存文件目录报表数据存储目录自动压缩发邮件import timeimport zipfileimport osimport shutilimport smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBase #附件from email.mime.text import MIMETextfrom email

2020-09-04 22:50:32 468

原创数据分析-指标

数据分析指标数据指标定义数据指标详解选择指标数据分析方法数据指标定义数据指标定义:有价值可统计常用指标分类用户数据谁行为数据干了什么业务数据产生了什么结果用户dau 日活mau 月活dnu 日新增转化率留存率行为pv 访问次数uv 访问人数访问深度访问时长弹出率业务相关卖钱的产品gmv 销售总量—总共买了多少钱ARPU 人均收入金额ARPPU 付费人均收入付费人数付费率付费频次sku:商品,道具就是产品

2020-08-09 18:23:59 352 1

原创爬虫初级面试准备

爬虫初级面试准备get和post请求正则提取案例scrapy工作流程scrapy优点缺点爬虫选择mongodb存储代理response.text和response.contentget和post请求import requestsurl = 'https://github.com/USER_NAME'# 构造请求头字典headers = { # 从浏览器中复制过来的User-Agent 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win6

2020-08-01 10:50:06 452 1

原创 Linux操作

Linux操作基础命令命令查看目录命令的使用切换目录命令创建、删除文件及目录命令复制、移动文件及目录命令终端命令格式的组成命令选项查看命令帮助ls命令选项mkdir命令选项rm命令选项cp命令选项mv命令选项高级命令重定向命令查看文件内容命令管道(|)命令的使用连接命令文本搜索命令！！查找文件命令压缩和解压缩命令tar命令及选项的使用zip和unzip命令及选项的使用文件权限命令!!!获取管理员权限的相关命令用户相关操作用户组相关操作远程登录、远程拷贝命令补充基础命令命令查看目录命令的使用命

2020-08-01 10:00:51 452

原创数据分析和数据挖掘

数据分析-聚类分析聚类分析分析方法技术问题年龄收入分群案例聚类分析总结回归分析聚类分析分析方法技术问题均值的问题 kmeans 更新中心点均值点异常数据会影响均值要去异常量纲的问题 —要做标准化 — 基于距离的数据量大的问题m个样本,n个特征,k个中心点,t次迭代算法复杂度 O(tkm*n)mini-batch-kmeans来解决数据量大的问题结论：MiniBatchKMeans在基本保持了K-Means原有较高类别识别率的前提下，其计算效率的提升非常明显

2020-07-22 11:30:36 682

原创数据分析-sql基本操作

SQL数据分析介绍sql常见操作回顾聚合函数使用分组子查询多表联结查询组合查询CASE表达式利用SQL对淘宝用户行为进行数据分析数据导入与清洗用户行为分析数据总体情况用户行为转化情况分析用户行为习惯分析用户类目偏好分析介绍sql常见操作回顾聚合函数使用1.计算价格的平均值select avg(Price) as avg_price from house_price2.计算数据的总量select count(*) from house_price #计算的是所有数据，包含空的行selec

2020-07-22 10:14:05 740

原创数据分析-sql高级

SQL高级操作Sql高级操作取出数据并显示行号Sql高级操作取出数据并显示行号select p_name,p_type,p_view from products ORDER BY p_view desc

2020-07-22 10:10:37 474

原创数据分析-pandas数据处理

数据分析-pandas数据处理概述业务建模流程特征工程数据清洗缺失值处理异常值（极值）处理重复值处理python数据清洗案例数值型数据的处理标准化&&归一化pca降维离散化/分箱/分桶----将数据简化分类数据的处理时间类型数据的处理样本类别分布不均衡Python处理样本不均衡案例smote上采样randomundersampler数据抽样概述业务建模流程将业务抽象为分类or回归问题定义标签，得到y选取合适的样本，并匹配出全部的信息作为特征的来源特征工程 + 模型训练 + 模型

2020-07-16 11:15:28 1123

原创数据分析-Excel基本操作（简）

Excel基本函数

2020-07-13 09:11:46 476

原创机器学习算法框架流程

Machine Learning and algorithm K Nearest NeighborGridSearchCValgorithm )K Nearest Neighborimport pandas as pdimport numpy as npfrom sklearn.neighbors import KNeighborsClassifier # classifierfrom sklearn.preprocessing import StandardScaler # standar

2020-07-05 21:05:04 725 2

原创数据收集-appium的使用

数据收集-appium的使用

2020-06-26 10:33:28 439

原创数据收集-scrapy爬虫框架（三）

splash组件、日志信息配置、scrapyd部署scrapy项目、gerapy爬虫管理、crawlspider类使用

2020-06-26 10:33:10 494

原创数据收集-scrapy爬虫框架（二）

模拟登陆/管道使用/中间件/scrapy_redis

2020-06-26 10:32:47 1309

原创数据收集-scrapy爬虫框架（一）

概念、作用、工作流程、基本使用、建模、构造发送请求

2020-06-26 10:32:21 942

原创数据收集-selenium

selenium介绍chrome浏览器phantomjs无界面浏览器无头浏览器与有头浏览器作用和工作原理安装使用提取数据driver对象的常用属性和方法driver对象定位标签元素获取标签对象的方法标签对象提取文本内容和属性值标签页的切换switch_to切换frame标签对cookie的处理获取cookie删除cookie控制浏览器执行js代码页面等待强制等待（了解）隐式等待显式等待（了解）手动实现页面等待开启无界面模式使用代理ip替换user-agent介绍Selenium是一个Web的自动化测试工

2020-06-26 10:31:14 480

原创数据收集-mongodb数据库

mongodb数据库介绍mongodbSQL和NoSQL的主要区别数据之间无关联性mongodb的优势安装简单使用服务端的启动测试方式启动生产环境正式的启动方式客户端启动简单使用mongodb数据库的命令mongodb集合的命令常见的数据类型增删改查介绍mongodbmongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。mongodb 本身提供S端存储数据，即server；也提供C端操作处理（如查询等）数据，即client。SQL和NoSQL的主要区别在SQL中层

2020-06-26 10:30:48 908

原创数据收集-数据提取

数据提取响应内容的分类xml和html的区别xmlxml和html的区别常用数据解析方法jsonpath模块使用方法案例练习lxml模块和xpath语法谷歌浏览器xpath helper插件安装xpath的节点关系xpath语法基础节点选择语法xpath定位节点以及提取属性或文本内容的语法语法练习节点修饰语法响应内容的分类结构化的响应内容json字符串可以使用re、json等模块来提取特定数据xml字符串可以使用re、lxml等模块来提取特定数据非结构化的响应内容html字符

2020-06-26 10:30:08 1559

原创数据收集-抓包与反爬

抓包与反爬常见的反爬手段反爬原因反爬常见概念反爬的三个方向基于身份识别进行反爬通过headers字段来反爬通过请求参数来反爬常见基于爬虫行为进行反爬基于请求频率或总请求数量根据爬取行为进行反爬基于数据加密进行反爬对响应中含有的数据进行特殊化处理验证码处理图片验证码图片识别引擎tesseract图片识别引擎环境的安装图片识别引擎的使用图片识别引擎的使用扩展打码平台常见的打码平台云打码的使用常见的验证码的种类chrome浏览器使用方法新建隐身窗口network的更多功能Perserve logfilter过滤观

2020-06-26 10:29:42 2562

原创爬虫数据解析与提取

爬虫数据解析与提取前言正则表达式语法列表语法案例Xpath规则运用xpath规则Xpath谓语条件（Predicates）xpath轴CSS选择器规则与运用BeautifulSoup4模块JsonPath规则与运用json规则python中运行js内容不全，暂不想写前言进行爬虫数据解析与提取方法爬虫数据四大解析规则：正则表达式规则、Xpath规则、CSS选择器规则、JsonPath规则前端的三大语法：HTML、CSS、JavaScript正则表达式语法列表普通字符语法预定义字符集语

2020-06-23 19:21:19 1212

原创机器学习-算法总结图

机器学习-算法总结图加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存...

2020-06-20 11:28:15 488

原创爬虫基础和requests模块

爬虫概述、http协议复习、requests模块

2020-06-06 11:01:40 515

原创机器学习-新闻分类案例

新闻分类案例项目，对文章进行分词，用TF-IDF和词袋，对文章进行分词，用TF-IDF和词袋表示文档特征，训练word2vec模型，完整过程，项目集成调用...

2020-06-05 21:08:37 1156

原创机器学习-聚类算法

聚类算法、模型评估、算法优化、特征降维、kmeans/

2020-06-05 21:08:11 437

原创机器学习-线性回归

线性回归线性回归线性回归线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。from sklearn.linear_model import LinearRegression#获取数据x = [[80, 86],[82, 80],[85, 78],[90, 90],[86, 82],[82, 90],[78, 80

2020-06-05 21:07:26 2341

原创机器学习-k近邻算法

机器学习-算法篇k近邻算法简介初步使用距离度量欧氏距离(Euclidean Distance）曼哈顿距离(Manhattan Distance)切比雪夫距离 (Chebyshev Distance)闵可夫斯基距离(Minkowski Distance)标准化欧氏距离 (Standardized EuclideanDistance)余弦距离(Cosine Distance)汉明距离(Hamming Distance)杰卡德距离(Jaccard Distance)马氏距离(Mahalanobis Distanc

2020-06-05 21:07:16 2191

AI音乐生成在线及开源合集

空空如也