
数据分析处理
2h4n9y1m1n9
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘知识点
1、 sparkstreaming和strom的区别: 他们的区别是SparkStreaming的吞吐量非常高,秒级准实时处理,Storm是容错性非常高,毫秒级实时处理 解释:sparkStreaming是一次处理某个间隔的数据,比如5秒内的数据,批量处理,所以吞吐量高。 Storm是来一条处理一条,所以速度快,不存在丢失数据 应用场景:对于数据非常重要不能丢失数据的,不能有延迟的,比如股票,金融之类场景的使用Storm 对于没那么高精度,但是要处理大量的数据,可以用sparkSremaing原创 2020-07-16 19:39:46 · 376 阅读 · 0 评论 -
sklearn-特征提升之特征提取-----DictVectorizer
DictVectorizer的处理对象时符号化(非数字化)的但是具有一定结构的特征数据,如字典等,将符号转成数字0/1表示。 test_dict = [{'name':'zhang','old':23},{'name':'wang','old':15},{'name':'liu','old':33}] from sklearn.feature_extraction import DictVe...原创 2019-07-24 14:26:52 · 773 阅读 · 1 评论