
学习数据挖掘进程
我愛大泡泡
机器学习
情绪识别
展开
-
从天池学习Mapreduce和sql2016.10.15
从今天开始系统的记录每天的学习工作。1、Mapreduce计算框架概述整个的MapReduce过程可以看成是:输入-->map阶段-->中间处理(排序聚合等)-->reduce-->输出其中输入是以键值对的形式输入的(key,value),这也就是MapReduce一般可以和SQl结合。2、在ODPS中遇到了一个MAPJOIN的连接方式,这种方式是在一张大表和一张或几张小表结合时使原创 2016-10-16 13:31:32 · 1107 阅读 · 0 评论 -
面试笔试整理5:项目问题准备
自己曾经做过一些比赛,但是结果不是很好,不过还是准备写到简历里了,毕竟也算是自己做过的项目。 做了一些数据挖掘的比赛,面试会问到的常见问题其实也没有多少,无非是从数据预处理、特征和模型几个内容。以jd前一段时间的JData数据挖掘比赛为例。(1)应该对所有的数据进行大致的统计,了解数据的大致构成、数据缺失情况、不同表格中特征的大致分布情况哪些是离散特征哪些是连续特征,从而初步预估出那些信息和真实场原创 2017-09-07 21:37:26 · 2083 阅读 · 0 评论 -
面试笔试整理2:c++常问问题
对c++常问问题的整理:一、基础问题1、new<>delete和malloc<>free区别: 这两个表达式都用于申请动态内存和释放动态内存。但是new可以用于非内部数据类型的对象,而malloc是无法做到的,因为new和delete是作用于构造函数和析构函数的,是c++的运算符;但是malloc是库函数。 注意delete是调用一次析构函数,而delete[]会对每一个成员都调用析构函数,所以原创 2017-09-02 22:34:36 · 1611 阅读 · 0 评论 -
面试笔试整理6:常见面试编程题
1、二叉树公共父节点 leecode236 递归解法:class Solution {public: TreeNode* lowestCommonAncestor(TreeNode* root, TreeNode* p, TreeNode* q) { if(root==NULL || root==p||root==q) return root; Tree原创 2017-09-18 00:36:01 · 2652 阅读 · 0 评论 -
面试笔试整理4:机器学习面试问题准备(进阶)
这部分主要是针对上面问题的一些更细节的补充,包括公式的推倒思路、模型的基本构成、细节问题的分析等等。一、问题杂烩1、PCA的第二主成分 第二个主成分时域第一成分方向正教的差异性次大方向。 2、什么时候用组合的学习模型 只有当各个模型之间没有相关性的时候组合起来是最好用的。但是一般来说,弱相关的模型组合比较好用。 3、多重共线性 多重共线性是指当两个特征的相关性很大的时候,会对原创 2017-09-07 16:35:20 · 6121 阅读 · 0 评论 -
面试笔试整理3:深度学习机器学习面试问题准备(必会)
第一部分:深度学习1、CNN1、CNN问题 2、如何减少参数 权值共享、VGG的感受野、GoogLeNet的inception 3、激活函数选择 4、filter的尺寸选择 5、pooling的作用 6、常用的几个模型2、RNN1、RNN、LSTM、GRU 推导forget gate,input gate,cell state, hidden information原创 2017-09-07 01:13:54 · 74255 阅读 · 5 评论 -
面试笔试整理:1、笔试常见输入输出(待补充)
一、常用的输入输出整理笔试时候常用的输入输出,可以使用#include 来一次性输入所有的C++头文件包括:\#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#原创 2017-09-02 13:48:35 · 4112 阅读 · 1 评论 -
小数据分析师学 Python 之 Seaborn(二):定量数据的线性模型(谁知道原文出处告诉我一下谢谢)
今天我开始切入了 Linear models with quantitative data 这一Tutorial, 让seaborn拼图增加了一块大大的领土.初识lmplot在之前讲解distribution分布一节中, 主要围绕的是单(双)样本间各自样本的形态, 或者是两个样本间的形态差异. 还未涉及到分析多个样本间的依赖关系. 后者需要借助于更复杂的工具来实现, 比如用线性函数来表达这转载 2017-03-21 16:14:31 · 6559 阅读 · 2 评论 -
用Python进行数据可视化的10种方法
引言艺术之美根植于其所传达的信息。有时候,现实并非我们所看到或感知到的。达芬奇(Da Vinci)和毕加索(Picasso)等艺术家都通过其具有特定主题的非凡艺术品,试图让人们更加接近现实。数据科学家并不逊色于艺术家。他们用数据可视化的方式绘画,试图展现数据内隐藏的模式或表达对数据的见解。更有趣的是,一旦接触到任何可视化的内容、数据时,人类会有更强烈的知觉、认知和交流。在数据科学中,有转载 2017-03-21 00:17:24 · 23356 阅读 · 3 评论 -
2017.11.20 MySQL和Python的连接,并利用Pandas
MySQL和Python连接有很多方式:oursql、PyMySQL、 myconnpy、MySQL Connector等等这些只要百度一下都能找到对应的官网和使用方法,我是是用的MySQLdb的方式进行连接的。整个使用过程包括:数据库连接、数据库查询、数据库。。。(一)数据库连接MySQLdb提供了connect方法进行数据库连接,可以接收多个参数,这里只介绍比较常用的conn=原创 2016-11-20 15:43:53 · 4602 阅读 · 0 评论 -
2016.10.30学习python
1、重载(overload)和覆盖(override)在C++,Java,C#等静态类型语言类型语言中,这两个概念同时存在。前者是为了让同一个函数名(方法名)匹配不同的参数(个数不同,类型不同);后者是为了实现多态,在相同名称的函数(方法)和参数,在不同的类中(父类,子类),有不同的实现。对于java多态的理解见文章2、原创 2016-10-30 18:31:46 · 663 阅读 · 0 评论 -
2016.10.16学习进程关于MYSQL的使用
1、由于在本机启动,所以启动命令为 mysql -u root -p 注意这个root是我Mysql的用户名。2、如何把txt数据导入Mysql中,首先建立一个DATEBASE,命名为weibo。CREATE DATABASE weibo;使用这个databaseUSE weibo;然后在这个database上建一个名为weibo_train的表。CREATE TABLE原创 2016-10-17 14:32:26 · 555 阅读 · 0 评论 -
面试笔试整理7:SQL问题整理
SQL的问题就是四大类:增、删、改、查。要使用到的命令通常有:SELECT、UPDATE、DELETE、INSERT INTO、ALTER、DROP、IN、BETWEEN、DISTINCT、UNION、HAVING、WHERE、ON、EXISTS等等。 下面主要按照上面说的从建立表开始、到四大类、以及常用的结构和命令解释几个部分。这里语句都是基于SQL Server的。一、建立数据表 1、原创 2017-09-19 15:21:36 · 1739 阅读 · 0 评论