- 博客(26)
- 收藏
- 关注
原创 碎碎念和告别
想到哪里,说到那里吧真感激你惊艳了我的青春,虽然不能温柔我的岁月不再奢望遇到爱情了,虽然还渴望,那毕竟是本性但普通的又像我这样的害羞社恐的人,没人会看上的这就像人生啊越繁华的世间,日子越不好过只差一点点而已,可能我们之间还差一点点缘分,一点点,的意思是差的很远很远越年轻的时候,总是越脆弱既不能改变现状,又不能马上说服自己。但好在,在经历足够多的挫败之后,人总会有所变化在最害怕之后,变得更勇敢在最迷茫之后,变得更坚定,在意识到自己还很弱的时候,变得更拼命。活着就是不断的在经历,经历拼
2020-12-12 23:26:05
193
原创 spark复习(二)
动态类声明:class静态类声明:object静态类用类名去调用就可以了。函数和方法:高阶函数:62页 柯里化柯里化应用一般要结合闭包。
2020-12-07 15:42:28
102
原创 2020-12-06
一点反思花了两个周的时间竟然还没超过那些只用tfidf的最后我也只能用tfidf真菜啊 口口声声说要80以上让他们好好看看的。觉得自己学会的太多,这挡道你的路了眼高手低,基础能力差,实际会的少骄傲挡住了你虚心学习前进的路了关掉门,跟过去说告别,虚心从头学习。...
2020-12-06 18:25:47
76
原创 酒店评论情感分析 终
今天放弃了一些东西。最后还是限于水平有限兜兜转转用尽各种方法还是tfidf分数最高而且减去一些错误单词反而会导致分数降低。word2vec后聚类提取关键词限于电脑不行跑不动就这样吧仅此而已了终于看明白自己还是个垃圾, 学了那么多也什么都没有用就到这里了。从头来...
2020-12-02 22:33:05
348
1
原创 酒店评论情感分析(5)
今天毫无长进尝试了LSTM,正确率没有上升问题应该出在数据集的处理上还是问题很大,一篇文章的做法是word2vec词集后聚类找出最影响的几个特征(最关注的方面)然后以这几个作为类别做情感评分难点很多,很难突破...
2020-12-01 22:53:10
399
原创 酒店评论情感分析(4)
尝试用词袋模型不考虑顺序语义值考虑单词效果不佳word2vec不会应用尝试构建情感词典仍然效果不佳最后回到用tfidfNLTK提取词干反而会降低准确率,尝试后放弃了提取词干,但全都转化为小写有所帮助去掉高频无关词另外 训练集的准确率也很低 应该不是拟合的问题而是数据的问题,数据处理的粗糙只能考虑去除一些高频无关词后争取提高准确率...
2020-11-30 23:09:44
366
原创 spark复习
spark重要特点:中间结果可以保存在内存中(内存计算)spark是基于内存的速度比基于硬盘(HDFS)的MapReduce更快spark生态系统(BDAS)伯克利数据分析栈(BDAS)Spark Core提供spark核心功能,实现了spark的底层机制并提供基本数据抽象格式Spark SQL提供Spark SQL语言的解析和执行Spark Streaming流式计算框架,提供了数据流的接入,抽象,计算等规范MLlib机器学习框架,常用机器学习算法的分布式实现GraphX 分布式
2020-11-29 22:30:57
135
原创 酒店评论情感分析(3)
http://manu44.magtech.com.cn/Jwk_infotech_wk3/article/2017/2096-3467/2096-3467-1-3-62.shtml发现了一篇高大上的文章经过思路启发,做了词干提取和统一小写words = word_tokenize(str(i).lower())from nltk.stem.porter import PorterStemmerporter_stemmer = PorterStemmer()cutwords4=[porter_s
2020-11-28 23:09:00
656
原创 关于评论情感分析
经过tfidf之后发现效果并不好,查看训练集发现准确率只有65.考虑原因一是训练的不好,但调参换算法后效果没有改善可能二是数据的处理不够,过于粗糙。开始尝试构建情感词典通过情感词典评价分词的正负面评分加权统计每句话的评分。考虑通过正向和负面评分进行划分评论的好坏,进行训练评价。但 很容易出现问题。 对词性的标注和对词和词性的判断评分都有问题齐次 尝试了知网的英文情感词典和其他词典,反而是中文的偏多一些,效果不好,反而是用NLTK库的情感词典评分好用。不愧是NLTK专门用于英文分词。...
2020-11-27 23:32:45
614
原创 关于情感分析评论情感分类的一点思考
1.我们通常在计算词汇表的时候,会排除那些出现次数太少的单词,从而降低文本维度。这个想法不错据说贝叶斯算法对文本分类用的多,可惜目前准确率不如svm2.基于属性词典的分类方式,目前市面上没有关于手机各属性的词典,所以涉及到自己构建属性词典。这个想法也不错,可以尝试选出几个关键词进行分类。3.CountVectorizeCountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文
2020-11-26 23:05:01
362
原创 操作系统复习
软盘:与硬盘相似,算是早期的硬盘,软盘发展成硬盘对程序进行编译是编译器完成的不是操作系统直接完成的。处理机包括中央处理器,主存储器,输入-输出接口,加接外围设备就构成完整的计算机系统。处理机是处理计算机系统中存储程序和数据,并按照程序规定的步骤执行指令的部件。程序是描述处理机完成某项任务的指令序列。指令则是处理机能直接解释、执行的信息单位。进程实体由程序段和数据段和pcb构成pcb是os控制和管理进程的唯一标识固定分区内存管理方案能支持多道技术,但限定了系统的并发度流式文件不是有结构的文件在文
2020-11-24 20:15:35
586
原创 spark实验总结
4,5实验的问题在于spark保存和读取json的时候列名容易不是本来需要的字段名而是c1,c2这样的列名,解决办法是不要用建议读取方法而要指定读取表头。不用spark.read_csv()而是spark.read.format(“json”).option(“header”,“true”).load(“hdfs://node1:9000/Online_Retail_true.json”)注意只有rdd里面2元组这种类型的才能用reduceByKey()flatMap的扁平化操作和map不同有时会
2020-11-20 20:46:18
3861
原创 spark实验感想
实验三尽力了,map和flatMap的区别还是需要注重以下,有时候map之后的数据类型不行但是flatMap扁平化就可以,还有待提高。另外学会了ctrl+q在intellj可以查看变量的数据类型实验5和实验6还是有些问题,还是再更改学习以下吧。val wordsRdd2 = rdd3.flatMap(x => {val wordtext2 = new JiebaSegmenter().sentenceProcess(x._2+x.3).toArray().map(x => (x.toS
2020-11-19 23:30:18
5385
原创 word2vec skip-gram
关于输入,表面来看是一个onehot,例如训练文本有10000个不重复的单词,每个单词是10000维的onehot。e嵌入矩阵是10000300维的,初始化一个后通过训练找到最好的e。网络的目的是找到一个最好的e。e就是上图的W貌似无数地方都漏过了到底是怎么进行的输入10000维向量乘e(10000300维)变成300维的隐含层 然后经过300*10000维的w·向量变成10000维的输出向量 通过softmax得到每个位置的单词(onehot中每个位置代表一个单词)是输出单词的概率与真正的输出单词
2020-06-16 10:59:33
145
原创 仅主机链接
第一次仅主机链接配置好之后明明可以ping 百度 可以上网结果第二次就不行了弄了一晚上加一早上结果最后将网络共享取消再重新分享居然奇怪的好了。。。。大概windows有什么奇怪的设置
2020-05-11 07:57:11
121
原创 库与文件名重复的错误ModuleNotFoundError: No module named 'numpy.core._multiarray_umath'
报错ModuleNotFoundError: No module named ‘numpy.core._multiarray_umath’经过一番查证 以及数个版本变更检查并非是网上所说的numpy版本问题经过试验 在pycharm中报错 在idle及jupyter notebook中皆无报错猜测 应该是pycharm的问题 可能是某一次关机或关闭时某个文件损坏了没有找到解决办法 但只...
2020-04-24 18:25:21
330
原创 数据集的划分及交叉验证
对于比赛,有一个有标签的数据集把数据集划分为训练集,验证集,测试集吴恩达还提出了训练-测试集的概念同时说验证集和测试集同分布,训练集和训练测试集同分布而实际比赛中划分的数据集我认为训练集验证集测试集都是同分布(一个数据集划分出来的)让你预估标签的数据集这里我不把它叫为测试集在k折交叉验证中,说法是通过不同的测试验证集划分调整参数,我觉得这样只能调整较好的参数,网上说超参数手动调,可我没找...
2020-04-19 13:44:54
592
1
原创 关于tensorflow
对于tensorflow感到十分的烦恼1.x的函数在2.0以上版本中不适用2.0的代码变的简洁可同时网上大量教程和代码作业是由1.x的进行编写就会遇到很多困难 很烦 没有好的tf2的教程没有tf2版本的吴恩达深度学习作业的编程 很烦...
2020-04-18 18:08:39
94
原创 linux网卡信息配置
vi /etc/sysconfig/network-scripts/ifcfg-ens33(用这条命令进入网卡信息文件更改网卡信息)我的网卡信息文件名是ens33 可能有所不同先试试进入网卡文件后点字母a按键可进行编辑请在对照以下文件后更改文件原内容。那么 我们来说静态ip 这个ip原则上任意 最后一位在0到255之间即可(不可为0和2)点为nat模式打开虚拟网络编辑器(需要...
2020-02-29 22:06:41
185
原创 草 一种植物
…ssh链接虚拟机的linux主机ping成功linuxping网址也没问题一整天试遍了网上所有的说法端口 防火墙 ssh服务都不行就是链接拒绝卧艹不弄了拜拜耳机还坏了喝凉水都塞牙...
2020-02-16 19:44:02
108
原创 降维(未完成 记得继续学)
摘自 https://blog.youkuaiyun.com/weixin_39541558/article/details/80053831整理以后学习方便使用。特征降维,有时候也称之为特征抽取(用于降维的特征选择方法)或数据压缩,因为现实生活中产生的数据是越来越多,数据压缩技术可以帮助我们对数据进行存储和分析。在特征降维技术中 PCA 主成分分析是最为经典和实用的特征降维技术,在图像识别方面表现的也...
2019-11-25 20:25:48
802
原创 朴素贝叶斯
在网上看到的一个关于极大似然估计的解释,感觉通俗易懂。其概率估计方法是极大似然估计,其实很好理解,就是从数据分布估计参数的分布,比如,你现在知道了全班一共50个人,30个男的,20个女的,那你就可以用数据估计出男生大致分布为五分之三,女生为五分之二,数据分布估计参数分布。借用摘自的一个例子https://blog.youkuaiyun.com/zhengzhenxian/article/details/...
2019-11-25 10:27:53
194
原创 决策树与元算法
记决策树及元算法决策树很长一段时间没搞懂树的形成原理,在博客上记录一下方便自己查看,欢迎各位大佬指正。1.除了数据集和类别之外,最好在建立一个列表用来存放所有的特征,每当一个特征被用作子节点划分类别之后就删除掉这个特征2.第一步我们要计算数据集的原始熵,这个熵和特征无关,我们利用分类的每个类别的样本数和总样本数计算原始熵,这里只记录原理公式请自行百度。3.接下来我们划分数据集得到每个特征分...
2019-11-24 20:30:33
155
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人