- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 统计学习方法--隐马尔科夫模型 (overview)
1. 如何通过一个简单的例子明白隐马尔科夫模型? 可以参考知乎问题“如何用简单的例子隐马尔科夫模型?”:https://www.zhihu.com/question/20962240************************************************************************************************************...
2018-04-23 22:17:19
744
原创 R语言中的字符处理函数
1.长度? nchar(x) 查看字符串的长度; length()查看对象x的长度,比如,在前面讲批量读取相同格式的文件中,使用myfiles<-Sys.glob("data*.txt") 可以用length(myfiles)知道到底有几个文件2. 截取字符串 substr() 提取或者替换字符串中的子串 与substring的区别:3.拼接字符串 paste(x...
2018-04-17 16:44:09
3008
原创 Python 图片尺寸的批量修改
相机里面有很多很多很多的出游照片,每一个都7-8M左右,非常占空间,写了一个非常简单的代码,批量修改一下尺寸。import PIL #Pycharm 下面没安装成功,安装Pillow后可以调用PIL模块了from PIL import Imageimport globmyfiles = glob.glob("I:\Group pictures\*.JPG")print(len(myfi...
2018-04-17 15:28:25
2011
原创 R语言-ggplot基础绘图参数设置
Summary:1.绘制饼图:简单的饼图:pie(x, labels)绘制,x为非负数值向量。必要时利用as.numeric()转换一下 x<- c(1,2,3,4) labs0<-c("A","B","C","D") pie(x,labels = labs0, main = "A simple Piechart") 更改一下颜色设置: pie(x,l
2018-04-05 09:41:00
7777
原创 统计学习方法--决策树
Summary:是一种基本的分类和回归方法。可以看作是if-then规则的集合,也可以被认作是定义在特征空间与类空间上的条件概率分布。主要优点:模型可读性,分类速度快。决策树学习的步骤:特征选择、决策树生成、决策树的修剪决策树学习的本质是:从训练数据集中归纳出一组分类规则。1. 决策树模型的定义与基本概念决策树的定义:是一种描述对实例进行分类的树形结构。由结点(node)和有向边(directed...
2018-03-29 15:09:34
308
原创 女士品茶——统计学如何变革了科学和生活1
本文取自美国统计学家David Salsburg的作品《女士品茶-统计学如何变革了科学和生活》未经允许请勿转载!关于统计模型概念融入科学的确切时刻,很难得到准确的回答。比如,拉普拉斯发明了误差函数,用于解决天文学中的统计问题。但很多人认同,统计革命始于19世纪90年代的卡尔·皮尔逊,其革命性思想开启了用统计模型描述数学本质中的随机性的时代。实验结果不再被看作是仔细测量的精确数字,相反的,他们只是一...
2018-03-29 10:23:39
2195
原创 统计学习方法--朴素贝叶斯法
Summary:朴素贝叶斯定理是基于贝叶斯定理和特征条件独立假设的分类方法。1. 贝叶斯定理的理解 最近迷上了给我12岁的小弟打电话讲算法,他也听得欢喜。所以用一个简单的例子来理解一下,贝叶斯定理的用途。 小弟有一个每天到处蹭网玩游戏的邻居朋友,叫做小王,成绩非常差,班级倒数。但人的潜力是无穷的,不能否认后期变成不了学霸。只是短短一个学年内考到班级前十名,会比较困难,姑且认为有1%的概率...
2018-03-28 17:36:17
637
1
原创 R语言 数据框操作基本操作——多数据框合并
在进行网络日志处理的过程中,有8台服务器的日志需要处理。由于每个IP的访问记录,可能同时存放在多台服务器中。问题:想知道每个IP的访问记录数是多少?解决思路:就必须对每台服务器的IP访问量进行统计,然后,利用R语言中的数据框合并(merge(x,y)函数)进行处理可以写一个数据框合并的函数,然后用Reduce()函数。Merge_func df rowna
2018-01-29 12:32:13
24719
4
原创 ArcGIS 10.2中栅格缺失值处理--Nodata in raster
问题描述:需要对同一区域的多图层的栅格数据进行叠加操作,而相同位置,如果有一个图层的值为Nodata,则计算结果也是Nodata,即:Nodata+value = Nodata需要将Nodata转换成0,以便进行后续操作。工具:Spatial Analyst Tools / Map Algebra / Raster Calculation首先利用Con() 函数进行条件的限制;
2017-12-19 10:32:56
41179
原创 R语言:循环读取相似文件名的文件:
比如data1.csv, data2.csv,data3.csv,...,data100.csv方法一:Sys.glob() 函数:datafiles<-lapply(Sys.glob("data*.csv"),read.csv) #文件全部被读取出来了*即可以表示什么都没有,也可以表示任何字符串。方法二:list.files()函数:myfiles <- list.files(pa...
2017-12-01 13:11:09
11595
原创 Anaconda,Python以及PyCharm的安装
I use Notepad++, sublime before Pycharm. For some reason, I find it hard to install packages on PyCharm. I searched online, still failed to solve the problems, and find it is highly recommended to u
2017-08-12 10:05:48
2548
原创 [Python 3.6.2] 5.1 Data Structure -- LIST METHODS
Python官网截取的data structure的用法5.1 Listhere are all the methods of list objects:list.append() # add an item to the end of the list. equivalent to a[len(a):] = [x]list.extend(iterable)
2017-08-11 09:22:12
436
原创 Python: 创建空的list,以及append用法
Python中list的用法:如何创建list,如何表达list中的元素,如何修改和删除list
2017-08-10 20:14:30
193508
原创 R语言:搜索日志的处理分析(1)——机器用户的筛除
问题描述:在进行搜索日至的数据挖掘中,需要先清除访问量异常的IP记录,比如,有的IP日访问次数高达5850次,很明显是机器用户所为。总体技术思路:统计出每一个IP的搜索频次,选定界限删除访问次数过大的IP地址实现细节思路:对搜索日志按照IP进行排序——>获得IP的总数——>for循环求得每一个IP的访问次数——>IP和访问次数融合——>删除访问次数超过阈值(这里取500)的所有IP的搜索记
2017-03-19 13:00:35
982
原创 Python: 百度API实现火星坐标转百度坐标
以下是我写的调用百度API将火星坐标转换成百度坐标的python代码:# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")from urlparse import urlparsefrom urlparse import urlunparsefrom urlpa
2016-08-19 11:42:13
1007
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人