- 博客(5)
- 收藏
- 关注
原创 Large-scale Machine Learning
用于分类或回归任务,例如客户细分、贷款审批、医疗诊断等规则性问题。数据分布复杂或需要局部模式识别的分类问题,例如图像分类或推荐系统。用于数据聚类或探索性分析,例如市场细分、用户行为分析等无监督任务。解决二分类问题(如垃圾邮件分类)或多分类问题(如疾病预测)。不需要训练模型,适合非线性分布的数据,但对高维数据不适用。用于线性不可分的数据,例如文本分类、图像分类等中小型任务。易于解释,能够处理非线性数据,适合基于条件的决策问题。模型简单,计算高效,适合小数据集和线性问题。
2024-12-28 21:37:13
1635
原创 Pandas
Pandas 是数据科学中不可或缺的库,它为数据的处理、分析和可视化提供了非常强大和高效的工具。掌握 Pandas 后,你可以轻松地进行数据清洗、分析、转换、统计、汇总等操作,从而在实际工作中大大提高生产力。
2024-12-27 17:58:09
381
原创 INT303 BIG DATA ANALYTICS
1.1 什么是数据?数据的定义:数据是由一组对象及其属性组成的集合。objectsand theirattributes对象:也称为记录、样本、实例或实体。recordpointcasesampleentity, orinstance.每个对象用属性值描述。valuesTID 是对象(如一个纳税者)。属性是 Refund、Marital Status 等。属性的类型属性也称为变量、字段、特征。variablefield, orfeature类型包括:数值型Numeric。
2024-12-24 10:36:41
1682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人