- 博客(4)
- 收藏
- 关注
原创 第四章 回归分析—— 数据挖掘(主编:吕欣 王梦宁)》读书笔记
用数学模型捕捉变量间的统计规律,并用它解决实际问题。想快速建立 baseline?用线性回归;变量太多或有共线性?用LASSO(选变量)或岭回归(稳系数);关系不是直线?用非线性回归(变量变换或迭代算法);永远记住:没有“最好”的模型,只有“最合适”的模型——结合业务场景、数据特点和评价指标,才能选出最优解。回归分析就像一把“瑞士军刀”,掌握它,你就能从数据中挖出更多有价值的规律,而不是停留在“我觉得”“可能是”的猜测里。
2025-08-25 16:35:53
627
原创 第三章 相关分析—— 数据挖掘(主编:吕欣 王梦宁)》读书笔记
IX;IX;Yx∈X∑y∈Y∑pxylogpxpypxy其中pxyp(x,y)pxy是变量XXX和YYY的联合概率分布,pxp(x)pxpyp(y)py是边缘概率分布。含义:互信息值越大,说明通过XXX能越多地推测YYY的信息(或反之),关联越强;IX;Y0I(X;Y)=0IX;Y。
2025-08-25 16:34:34
2028
原创 第二章 数据描述与统计指标 —— 数据挖掘(主编:吕欣 王梦宁)》读书笔记
数据预处理让数据“可用”,描述性统计让数据“可懂”,可视化让数据“可见”——这三步是数据分析的“基本功”。但要记住:描述不是目的,而是为了后续的深入分析(如建模、预测)打基础。就像医生先测体温、血压(描述性统计),再结合症状诊断病因(深入分析),我们也需要通过这些工具,从数据中找到问题、提出假设,最终解决实际问题。
2025-08-25 16:31:58
1799
原创 第一章 绪论——数据挖掘(主编:吕欣 王梦宁)》读书笔记
大数据是指无法用传统工具在合理时间内处理的海量、复杂数据集,其核心价值不在于“大”,而在于通过分析这些数据揭示隐藏的规律,辅助决策。例如,一个电商平台每天产生的用户点击、购买、评价数据,单靠人工无法分析,但通过数据挖掘可以发现用户偏好,实现精准营销。大数据时代,数据挖掘不仅是一套技术,更是一种“用数据说话”的思维方式——它让我们从经验决策转向数据驱动决策,从模糊判断转向精准预测。但同时,我们也需警惕“数据至上”的陷阱:数据是工具,而人的判断、伦理的约束,才是让技术造福社会的核心。
2025-08-25 16:13:59
1451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅