
data mining
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
去除异常数据的思路
在对大量数据进行分析时 如果有些数值不符合正常情况 可以用以下方法尝试 去异常值:求出所有数值的均值m(主要不要去重)m=(x1+x2+....xn)/n求出所有数值的标准差 s标准差计算公式 :s=Math.Sqrt((x1-m)*(x1-m)+(x2-m)*(x2-m)+(x3-m)*(x3-m)....(xn-m)*(xn-m)/n)原创 2013-08-16 16:34:13 · 6796 阅读 · 1 评论 -
聚类
前面做过一个神经网络的分类器 现在有一些数据需要做聚类处理。 那什么叫做聚类呢 跟分类有什么区别。分类:明确知道类别,然后把数据归类。聚类:你不知道类别,但你想把这些数据分成N类,根据某种算法把数据进行分组,相似或相近的自动归到一组中。(一般用k均值聚类算法)聚类与分类相比较:分类:实例式学习,分类前明确各个类别的信息,并可以直接原创 2013-08-16 15:19:20 · 3290 阅读 · 0 评论 -
使用ICTCLAS分词器 Java版
ICTCLAS分词器 汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。 词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,原创 2013-09-14 18:08:00 · 5185 阅读 · 0 评论 -
Split按空白划分-----区分一个或多个空格
rs12564807 1734462 AArs3131972 1 752721 GGrs148828841 1 760998 CCrs12124819 1 776546 AA在解析文本txt的时候 会遇到这种格式但是格式并不标准 有些是空格 有些是tab 总之就是有空白部分那我们怎么解析呢我们可以使用split("//s+")原创 2015-03-13 11:06:22 · 14521 阅读 · 2 评论