- 博客(11)
- 收藏
- 关注
原创 网易新闻爬虫
信息流推荐系统_网易新闻爬虫1 概述本节带大家了解一个常用的python爬虫框架scrapy,并基于此框架,搭建一套新闻爬虫,用于爬取网易平台的滚动新闻,并将新闻写入mysql。(源代码已上传至github,欢迎大家fork,star),同样你也可以按照此代码流程,爬取新浪,腾讯等网站。首先确定我们需要新闻的哪些字段:新闻推荐中常用的信息包括:新闻标题,新闻内容,新闻来源,新闻发布时间等信息,基于此,我们首先在mysql中建立一个新闻信息原始表,用于存储爬虫爬取到的新闻,建表语句如下:CREATE
2020-10-29 16:09:08
3183
1
原创 Spark 关联规则挖掘
Spark 关联规则挖掘关联分析基本概念关联分析的任务就是从数据集中挖掘出频繁项集,然后从频繁项集中提取出事物之间的强关联规则,辅助决策。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f0tZ2CJV-1603351839993)(C:\Users\t\AppData\Roaming\Typora\typora-user-images\image-20201022103811162.png)]假设上表为某超时用户的购物数据,*TID代表交易流水号,Items代表一次交
2020-10-22 15:31:52
1372
原创 happybase 连接 hbase 报错问题
happybase 连接 hbase 报错问题import happybaseconn = happybase.Connection(host='localhost')print(conn.tables())错误1thriftpy2.transport.base.TTransportException: TTransportException(type=1, message="Could not connect to ('xx.xx.xx.xx', 9090)")此情况说明host地址有误,请
2020-09-03 11:23:09
1417
原创 pandas dataframe 写入到hive
pandas dataframe 写入hive表关键流程主要分为两步:1:将pandas dataframe转换为sparkdataframe:这一步骤主要使用spark自带的接口:spark_df = spark.createDataFrame(pd_df)2:将spark_df写入到hive的几种方式spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename")以下是一个demo的完整代码:
2020-08-27 18:51:51
7527
原创 机器学习-模型评估与选择
机器学习-模型评估与选择近年来随着海量数据不断积累以及计算机性能的飞速提升,机器学习被广泛的应用于科学研究和工业生产的各个领域。然而,不同领域使用的模型差距明显,需要考虑的情况各不相同,针对不同领域的不同任务,如何去评估模型成为了模型开发过程的不可或缺的一部分。在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价...
2020-02-29 12:58:02
287
原创 Pandas Datafram常用方法
Pandas 是python进行数据处理的一种工具包,里面默认的数据结构为Dataframe,具有非常良好的易用性,可以非常方便的进行一些数据统计与分析的工作,以下我将和大家分享Dataframe常用的一些操作,掌握了这些操作,便基本可以使用pandas进行数据处理与分析了。首先,我们使用pandas来创建一个5行3列的Dataframe,我们可以借助numpy生成一个随机的矩阵,然后直接转换...
2019-11-16 20:18:05
1473
原创 神经网络 权重可视化
深度学习已经应用在各种不同的领域,并且都取得了不错的效果,但是在很多情况下,深度学习网络被我们看做一个黑匣子,我们不知道通过训练,我们的网络到底学习到了什么。今天给大家分享一个简单的权重可视化的方法,在我们训练完网络之后,可以通过权重可视化,直观的理解网络到底学习到了什么。本次实验基于MNIST数据集,通过建立一个两层的神经网络,采用softmax对数据集进行分类。训练完成之后,就可以看到网络的权...
2018-04-17 16:17:12
7348
原创 Kaggle 入门竞赛 泰坦尼克号遇难人数预测( 随机森林 支持向量机)
Kaggle 竞赛是很多机器学习爱好者的聚集地,里面有形形色色的高质量的比赛,可以去检验我们对算法的理解能力。今天,在这里记录一下本人做入门级竞赛的一个过程。赛题介绍: The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On April 15, 1912, during her ma...
2018-03-13 20:58:40
2450
原创 sklearn randomForest 调参方法
什么是随机森林( randomForest)?森林,顾名思义,是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间,随机构造多棵决策树,最后的决策结果由每一棵树投票产生。随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集 通过有放回采样得到。此称数据集的随机性。此外,在构建决策树的时候,选择决策结点属性的时候,也加入了随机...
2018-03-12 15:59:07
3106
原创 从0到1搭建简单深度神经网络
深度学习在最近几年越来越热门。今天在这里使用python,基于 tensorflow框架搭建一个简单深度神经网络,并且应用在mnist数据集上。与大家分享如何搭建一个神经网络,并且完成训练的过程。首先是输入数据部分:import tensorflow.examples.tutorials.mnist.input_data as input_datamnist = input_data.read_...
2018-01-24 11:55:38
917
原创 逐层构建深度自编码器
自编码器是神经网络的一种基本结构,通过使神经网络的输出等于输入,迫使隐层学习到最能表征原数据的特征。自编码器属于一种无监督学习方法,也可称为自监督学习(网络的输入等于输出)。能对数据进行非线性降维。同时,可以作为一种特征提取工具,在训练自编码器的同时,提取出数据的特征,可以使用这些特征做后续的分类问题。也可以使用自编码器训练的到的权重,去初始化深度神经网络,使得深度神经网络更容易收敛到最小值。cl
2018-01-23 22:15:46
912
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人