
学习笔记
傻瓜菜的傻瓜菜地
傻瓜菜。。。
展开
-
20180326 Quantitative Techniques - Outliers
原创 2018-03-26 14:12:11 · 291 阅读 · 0 评论 -
2017.04.19:今日头条数据分析笔试01
1.如何识别山寨APP 2.有监督学习vs无监督学习是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)原创 2017-04-19 15:49:36 · 9210 阅读 · 0 评论 -
2017.04.19:今日头天数据分析笔试02
10.数据库练习bt.user_visit_logvisit_time(访问时间)user_id(账号ID)page_url(访问页量)2017-03-16 00:59:4323564/ad/test12017-03-16 01:01:0394535原创 2017-04-19 18:09:53 · 1487 阅读 · 0 评论 -
2017.04.14:python数据可视化02
原创 2017-04-14 14:24:07 · 302 阅读 · 0 评论 -
2017.04.18:网易2017校招数据分析开放题
1.异常值检测原因:(1)数据来源于不同的类:某个数据对象可能不同于其他数据对象(即异常),因为它术语一个不同的类型或类。Hawkins的离群点定义:离群点是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。(2)自然变异:许多数据集可以用一个统计分布建模,如正态(高斯)分布建模,其中数据对象的概率随对象到分布中心距离的增加而急剧减少。换言之,大部分数据对象靠原创 2017-04-18 09:43:28 · 4136 阅读 · 0 评论 -
2017.04.03:数据仓库与数据挖掘03
DBSAN优点1.与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。2.与K-means方法相比,DBSCAN可以发现任意形状的簇类。3.同时,DBSCAN能够识别出噪声点。4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。缺点:1.原创 2017-04-04 13:46:25 · 455 阅读 · 0 评论 -
2017.04.03:数据仓库与数据分析02
原创 2017-04-03 18:39:19 · 211 阅读 · 0 评论 -
2017.04.10:python数据可视化01
def is_outlier(points, threshold=3.5): """ Returns a boolean array with True if points are outliers and False otherwise. Data points with a modified z-score greater than this原创 2017-04-10 19:35:44 · 322 阅读 · 0 评论 -
2017.03.31:数据仓库与数据分析01
原创 2017-03-31 15:09:11 · 254 阅读 · 0 评论 -
2017.04.09:Mysql编程
原创 2017-04-09 09:45:20 · 174 阅读 · 0 评论 -
2017.03.22:数据库SQL语句
Student(SId,Sname,Sage,Ssex) 学生表(学号、姓名、年龄、性别)Course(CId,Cname,TId) 课程表(课程编号、课程名字、教师编号)SC(SId,CId,score) 成绩表(学号、课程编号、成绩)Teacher(TId,Tname)原创 2017-03-22 16:06:02 · 330 阅读 · 0 评论 -
2017.04.17:Hadoop大数据分析与挖掘01
原创 2017-04-17 15:09:05 · 364 阅读 · 0 评论 -
2017.05.23:SVM、TFIDF、word2vect
原创 2017-05-23 10:18:33 · 572 阅读 · 0 评论 -
2017.05.24:SQL查询
原创 2017-05-24 08:42:19 · 253 阅读 · 0 评论 -
20180326 Introduction of EDA
原创 2018-03-26 14:10:59 · 235 阅读 · 0 评论 -
2017.07.13:无监督算法评估
无监督学习的评估方法1.Normalizedmutual information度量2个聚类结果的相近程度http://www.cnblogs.com/ziqiao/archive/2011/12/13/2286273.html2.以sqrt(n)或者更小的随机subsampling出的样本去聚类 m次,看看有哪些点分类不太一致改变聚类参数,达到比较结果3.把无监督学习的结原创 2017-07-13 10:57:21 · 905 阅读 · 0 评论 -
20170623:七周七数据分析,Excel篇
原创 2017-06-23 11:44:08 · 409 阅读 · 0 评论 -
2017.06.22:LDA与困惑度代码
LDA代码:class LDAModel(object): def __init__(self, dpre): self.dpre = dpre # 获取预处理参数 # # 模型参数 # 聚类个数K,迭代次数iter_times,每个类特征词个数top_words_num,超参数α(alpha) β(beta) # self.K = K self.beta转载 2017-06-22 11:12:28 · 4828 阅读 · 9 评论 -
2017.06.22: note for LDA
原创 2017-06-22 10:58:56 · 262 阅读 · 0 评论 -
20170621:python日志文件记录
python 日志文件记录# -*- coding:utf-8 -*- #import logginglog_format = '%(filename)s [%(asctime)s] [%(levelname)s] %(message)s'logging.basicConfig(format=log_format, datefmt='%Y-%m-%d %H:%M:%S %p', lev原创 2017-06-21 15:33:01 · 318 阅读 · 0 评论 -
2017.05.16:利用python进行数据分析03
2. pandas :Sereies最重要的一个功能是,在算术运算中会自动对齐不同索引的数据。3.不想每查一次数据库就重写一次,pandas有一个简化该过程的read_frame函数:import pandas.io.sql as sql srl.read_frame('select * from test', con)原创 2017-05-16 10:19:03 · 432 阅读 · 0 评论 -
2017.05.19:MySQL问题
1. “MySQL has Gone Away”mysql出现ERROR: (2006, 'MySQL server has gone away') 的问题意思就是指client和MySQLserver之间的链接断开了。造成这样的原因一般是sql操作的时间过长,或者是传送的数据太大(例如使用insert... values的语句过长 原因一. MySQL 服务宕了判断是否属于这原创 2017-05-19 16:52:25 · 376 阅读 · 0 评论 -
2017.05.31:Mysql+Python 余弦相似度
1.mysql字段类型2.余弦相似度原创 2017-05-31 09:27:48 · 701 阅读 · 0 评论 -
2017.03.07:数据库
1.视图的作用,视图可以更改么?视图是虚拟的表,与包含数据的表不一样,视图只包含使用时动态检索数据的查询;不包含任何列或数据。使用视图可以简化复杂的sql操作,隐藏具体的细节,保护数据;视图创建后,可以使用与表相同的方式利用它们。视图不能被索引,也不能有关联的触发器或默认值,如果视图本身内有order by则对视图再次order by将被覆盖。创建视图:create view XX转载 2017-03-07 13:21:25 · 252 阅读 · 0 评论 -
2017.02.27:关系型数据库
1. 时间复杂度用来检验某个算法处理一定量的数据要花多长时间。为了描述这个复杂度,计算机科学家使用数学上的『简明解释算法中的大O符号』。这个表示法用一个函数来描述算法处理给定的数据需要多少次运算。重要的不是数据量,而是当数据量增加时运算如何增加。时间复杂度不会给出确切的运算次数,但是给出的是一种理念。2.数据库的sort()函数——合并排序:与很多有用的算法类似,合并排序基于这样一原创 2017-02-27 14:37:22 · 285 阅读 · 0 评论 -
网站流量统计指标
独立IP:是指独立用户/独立访客。指访问某个站点或点击某条新闻的不同IP地址的人数,在同一天的00:00-24:00内,独立IP只记录第一次进入网站的具有独立IP的访问者,假如一台电脑关机了,30分钟后重启,再次访问这个站那就再计算一次ip,在同一天内再次访问该网站则不计数。UV(网站独立访客):UV是unique visitor的简写,是指通过互联网访问、浏览这个网页的自然人。pv(p转载 2016-12-20 09:24:16 · 911 阅读 · 0 评论 -
20161230:数据分析入门01
1.比例vs比率。比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比率是反映一个整体中各部分之间的关系。2.同比是历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况;环比是指与前一个统计期比较得到的数值,该指标主要反映的是事物逐期发展的情况。3.数据清洗工作。(1)重复数据的处理:函数(Excel中的COUNTIF)、高级筛选、条件格式(Excel原创 2016-12-30 10:14:03 · 313 阅读 · 0 评论 -
20161229:for python网络数据采集03
1.python 的Requests库可以处理复杂的Http请求、cookie、header(响应头和请求头)2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单,需要一组不同类型的表单和登录内容。用request实现用request跟踪cookie3.到目前为止,JavaScript是网络上最常用也是支持者最多的客户端脚本语言。j原创 2016-12-29 15:04:58 · 334 阅读 · 0 评论 -
20161227:for python网络数据采集01
原创 2016-12-27 21:04:45 · 264 阅读 · 0 评论 -
20170105:树和图
树1.二分查找树,检索任意数据的比较次数不会多于树的高度,搜索效率为O(log n)。2.平衡二叉树,一棵树的左右两个子树的高度差的绝对值不会超过1。3.满二叉树,每一层上的所有结点都有两个子结点。在满二叉树中,每一层上的结点数都达到最大值,即在满二叉树的第k层上有2k-1个结点,且深度为m的满二叉树有2m-1个结点;完全二叉树:一颗二叉树最多只有最下面的两层节点度数可以小于2,并且最原创 2017-01-05 15:41:58 · 205 阅读 · 0 评论 -
20161228:for pyhton网络数据采集02
1.数据库变高效:(1)给每个数据表增加一个id字段。(2)只能索引,e.g.质检所查询列的一部分字符。(3)关于数据查询时间和数据空间问题 2.数据存储后再清洗:OpenRefine 3.马尔科夫文字生成器:基于一种常用于分析大量随机事件的马尔可夫模型,随机事件的特点是一个离散事件发生之后,另一个离散时间将在前一个事件的条件下以一定的概率发生的。 4.python的自然语原创 2016-12-28 11:54:57 · 229 阅读 · 0 评论 -
2017.01.04:栈和队列
链表1.链表是现行数据结构,C++中,List实现了双向链表,JAVA中LinkedList2.哑节点:只要设计操作head节点,创建dummycode,ListNode*dummy = new ListNode(0);dummy-> = head;这使得操作head节点与操作其他节点无益。3.对于寻找链表的某个特定位置的问题,不妨用两个指针变量runner与chaser(ListNo原创 2017-01-04 17:38:02 · 194 阅读 · 0 评论 -
2017.01.03:数组和字符串
1.数组。“开辟一个数组”相当于系统为你提供了一段连续的内存区间用于存取数据。在C/C++中,标准的数组可以通过在栈上分配空间,或者通过先声明指针,然后用new/malloc(C函数)在堆上动态地分配空间。在旧的C编译器中,不能在栈上定义一个长度不确定的数组,新的C编译器没有这一限制,但是数组长度不定,则不能初始化数组。C/C++编译环境下,二维数组的创建两种方式:在栈上创建intarray[M]原创 2017-01-04 14:51:44 · 233 阅读 · 0 评论 -
20170103:for 统计思维
1.异常值就是远离集中趋势的值,异常值有可能是采集和处理数据过程中的错误导致的,也有可能是罕见的正确结果。2.概率质量函数(ProbabilityMass Function,PMF):以函数的形式表示分布,该函数将值映射到概率。如果要处理的比较少,PMF很合适;但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。3.相对风险(relativerisk)两个概率的壁纸,通常用于原创 2017-01-03 14:56:56 · 366 阅读 · 0 评论 -
2016.12.22:for SQL初学
1.主键的两个原因:唯一地标识表中唯一地一行;表中该列针对每一行都拥有一个唯一值。2.制作表头,直接量的使用: SELECT ‘FirstName:’ FirstName FROM Orders(First Name:表头空值)3.SQL有连接字段:SELECT FirstName + ‘ ’ + LastName FROM Orders;MySQL用CONTACT函数:SELECTCON原创 2016-12-22 18:31:41 · 334 阅读 · 0 评论 -
2017.01.07:面向对象设计、递归和动态规划
面向对象设计1.继承,通过继承方式,子类能够改写父类方法,同时保留部分父类方法。继承在静态编译时就定义了,所以无法在运行时刻改写父类方法。如果子类没有改写父类方法,就相当于依赖了父类这个方法的实现细节,会认为破坏封装性。如果父类接口定义需要更改时,子类也需要更改响应接口。2.组合。对象组合通过获得其他对象引用而在运行时刻动态定义。对象只能通过接口来访问,所以不会破坏封装性。使用组合方式,我原创 2017-01-07 16:08:18 · 462 阅读 · 0 评论 -
2017.01.09:排序与搜索
排序和搜索1.所谓的内排序是指所有的数据已经读入内存。在内存中进行排序的算法;同时,内排序也一般假定所有用到的辅助空间可以直接存在于内存中。与之对应,另一类排序称为外排序,即内存中无法保存全部数据,需要进行磁盘访问,每次读入部分数据到内存进行排序。 合并排序:利用分而治之的思想,对两部分非别进行排序,排序完成后,在将各自排序好的两个部分合并还原成一个有序结构;算法的时间复杂度为O(nl原创 2017-01-09 18:58:26 · 218 阅读 · 0 评论 -
2017.01.10:计算机基础知识
1. OSI简介:OSI采用了分层的结构化技术,共分七层,物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。物理层:提供为建立、维护和拆除物理链路所需要的机械的、电气的、功能的和规程的特性;有关的物理链路上传输非结构的位流以及故障检测指示。数据链路层:在网络层实体间提供数据发送和接收的功能和过程;提供数据链路的流控。网络层:控制分组传送系统的操作、路由选择、拥护控制、网络互连转载 2017-01-10 12:40:14 · 284 阅读 · 0 评论 -
2017.02.25:算法(最短路径)
#includeint main(){ int e[10][10],k,i,j,n,m,t1,t2,t3; int inf=999999; scanf("%d %d", &n,&m); for(i=1;i<=n;i++) for(j=1;j<=m;j++) if(i==j) e[i][j]=0; else e[i][j]=inf; for(i=原创 2017-02-25 12:58:33 · 241 阅读 · 0 评论 -
2017.02.25:算法02(广搜)
题目见上篇#includestruct note{ int x; int y; int f; int s;};int main(){ struxt note que[2051]; int a[51][51]={0}, book[51][51]={0}; int next[4][2]={{0,1},{1,0},{0,-1},{-1,0}}; int head,tai原创 2017-02-25 12:29:13 · 255 阅读 · 0 评论