- 博客(65)
- 资源 (3)
- 收藏
- 关注
原创 Python数据科学技术详解与商业实践 -读书笔记 一
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-04-27 18:23:07
779
原创 csdn查找我的收藏
近日,发现之前收藏的文章太难找了,进入路径为:1.https://i.youkuaiyun.com/#/uc/profile2.右上角头像-我的博客下面的账号设置-然后切换到个人中心
2018-08-31 19:19:48
761
原创 python linecache模块使用心得
linecache模块调用时,如果路径出错,文件找不到是不会抛出异常的在处理文件路径时,文件路径最好不要有中文名,linecache读取不到文件路径,不会提示任何错误linecache读取文件的行号是从1开始的,并不是从0开始
2017-07-26 11:33:54
1749
2
原创 字符串 和 模式匹配(python学习手册4)
1 字符串在python中具有不可变性--创建后不能改变(例如:不能通过对某一位位置进行赋值而改变字符串)2 查看字符串相关文档可以利用 help(str)来查看,同理 help(list) , help(dict) , help(set) ,help(tuple) 或者用 dir(tuple)可以查看 内置类支持的操作,help这种方法更为详细一些.3 s = 'spam'
2017-07-04 20:55:09
448
原创 import和exec运行模块文件的异同(来源于书籍 python学习手册)
exec有着和import类似的效果,但是它从技术上不会导入模块,每次以这种方式调用exec的时候,都会重新运行文件,像在调用它的地方粘贴了代码一样,对于当前正在使用的变量有潜在的默认覆盖的可能(如第二张图所示),但是import不会如此,每个进程只会运行文件一次,并且把文件生成到一个单独的模板名称空间去,它的赋值不会改变原有作用域中的变量,但是付出的代价是,当import的模块在调用完impor
2017-07-04 20:05:25
883
原创 好的学习资源网站
https://github.com/llSourcell/How_to_Make_Data_Amazing引自http://www.10tiao.com/html/692/201706/2247486043/3.html
2017-06-15 14:55:38
991
原创 短文本Python库TextGrocery
http://textgrocery.readthedocs.io/zh/latest/index.html
2017-06-15 14:24:46
440
转载 短文本分类
给text grocery 做个广告。短文本分类因为特征少,无法得到好的效果。另外,文本短提供的信息有限,需要的样本大,无法通过人工标注来做(减少人工)。如何扩展特征?长文本分类方法。84%尝试用Word2vec对tfidf大的词汇进行扩展。 不可用。 尝试用lda来扩展特征。 86%. ------ 因为lda扩展的特征有限。一般一条微博只能扩到1到2个特征。尝试使用bi
2017-06-06 15:07:49
4717
原创 os.path.abspath(sys.argv[0])学习
http://blog.youkuaiyun.com/guowenyan001/article/details/50628713
2017-05-22 14:55:08
3383
原创 导入Beautifulsoup 报错 AttributeError: 'module' object has no attribute '_base'
D:\Python27\Lib\site-packages\html5lib\treebuilders
2017-05-22 14:49:59
1254
转载 Maven报错 解决方案。ERROR: No goals have been specified for this build. You must specify a valid lifecycle
http://www.cnblogs.com/haoliansheng/p/5866149.html(转载自)报错:[ERROR] No goals have been specified for this build. You must specify a valid lifecycle phase or a goal in the format : or :[:]:. Avai
2017-03-23 20:16:48
14799
转载 MyEclipse10中文乱码
MyEclipse10中文乱码1进入window->preferencesgeneral->content types,可以设置Text对应的default encoding值为UTF-8或为空,然后点击update即可。也可能点击Text进入java source file属性,设置default encoding值为UTF-8或为空,点击update。general
2015-06-29 17:28:01
533
转载 @Override must override a superclass method
在用Eclipse开发Java项目时,@Override 注解时会出现以下错误提示:The method *** of type *** must override a superclass method主要是因为该项目的Compiler comliance level的值设置不正确造成的,5.0是不支持@Override等注解,只要把它改为6.0就可以了,当然或者你也可以直接把注解@
2015-06-14 19:44:02
375
转载 常用的机器学习&数据挖掘知识点
Basis(基础):MSE(Mean Square Error均方误差),LMS(LeastMean Square最小均方),LSM(Least Square Methods最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming二次规划), CP(Conditional Probability条件概率)
2015-06-11 18:53:18
639
转载 看懂信息检索和网络数据挖掘领域论文的必备知识总结
http://blog.youkuaiyun.com/xianlingmao/article/details/7667042信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本
2015-06-08 21:17:21
543
转载 网络挖掘技术——微博文本特征提取
http://dichild.com/?p=173转载来源文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过
2015-05-26 10:33:16
3624
转载 Java常见序列化与反序列方法总结
人和电脑在很多方面都是十分相似的,大脑可以看成电脑主机,五官/身体等表面器官就是显示器、鼠标等外设。这篇文章就是想把计算机跟人做类比YY一下序列化和反序列化的机制、用途。 如果你是初学者,心里肯定会问究竟什么是序列化/反序列化?其实我现在正在雨林木风xp系统下载序列化而你正在反序列化:我在写这篇博客的时候就是把大脑中的想法和思想经过梳理写成连续的文字,这就是序列化,而你在读这篇博客的时候
2015-05-23 18:20:42
884
转载 数学之美 七 信息论在信息处理中的应用
摘要 信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何
2015-05-15 10:25:50
639
转载 DataInputStream的过期方法readLine()
http://blog.sina.com.cn/s/blog_62cd5a980100lp0t.html在JDK1.1以后DataInputStream的readLine方法就过期了,所以当我们在电泳的时候会有警告:比如:URL url=new URL(http://www.xupt.edu.cn);URLConnection connection=url.op
2015-05-13 09:50:48
4392
原创 stanford parser使用工具
2.如果要String[] sent从文本输入:eclipse > run > run configuration > arguments > program arguments:输入: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gzC:\Users\minglan\Desktop\test2.txttest2.tx
2015-05-11 19:28:26
515
转载 java集合详细解释和线性安全
http://www.cnblogs.com/fjsnail/p/3475471.html java集合详细解释http://blog.sina.com.cn/s/blog_646c780d0101isyu.html
2015-03-25 16:45:17
715
转载 Java中Array与ArrayList的主要区别(
1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变; ArrayList: 容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!不过当你试着解决更一般化的问题时,Array的功能就可能过于受限
2015-03-23 19:35:30
8580
转载 javaBean【02】javaBean与表单应用
对于javaBean,我们说就是一个*.java文件。对于javaBean的应用必须结合表单才能体现。我们来以一个实例学习javaBean的应用。biaodan.html html> head> title>WEB开发title> head> body> form action="javaBean_01.jsp" method="post"> 姓名:input type="text"
2015-01-08 15:55:18
480
转载 javaBean【01】javaBean简介及基本使用
http://zhaoyuqiang.blog.51cto.com/6328846/1134056没有javaBean的jsp就等于没有学过jsp。 其实从javaBean开始就已经进入了MVC模式的学习了。那么什么是javaBean。 大家还记得在jsp+jdbc连接数据库的时候吧。只要是需要连接数据库的页面都会写那些关于数据库连接的代码,那么多页面都在写重复的代码。那么有
2015-01-08 14:57:50
372
原创 python2.7与python3中print的一点不同之处
headfirst python。实验的时候 print("\t",end='')打印制表符不换行, 出错。print在python3.0中与python 2.x中是不同的在python 2.7中打印输出不换行可以这样写 :i = 10while i > 0: print i, i = i-110 9 8 7 6 5 4 3 2 1
2014-12-21 19:02:35
4830
转载 默认参数python
先定义一个函数,传入一个list,添加一个END再返回:def add_end(L=[]): L.append('END') return L当你正常调用时,结果似乎不错:>>> add_end([1, 2, 3])[1, 2, 3, 'END']>>> add_end(['x', 'y', 'z'])['x', 'y', 'z', 'END']当
2014-12-19 15:30:50
518
转载 財哥面京东dm的经历【帮財哥发的】
关于面京东,感触仅仅有一个,虐的快吐血了。首先说京东分四个板块,有京东商城、京东金融、京东刚收购的拍拍和海外事业部。我这个职位主要是在金融部数据组做数据挖掘和机器学习,还有推荐系统。面试是在周一,本身也没打算正经去面试的,结果被虐了整整一个下午。。。。。。 实话实说,京东在整个互联网行业里待遇基本是最低的,只有平台好,每天有10亿新的用户行为数据,对于DM而言,再好只是了。教主让我多面试
2014-12-16 16:48:11
838
转载 sublime +python 遇到的问题
中文编码问题是用中文的程序员经常头大的问题,在python下也是如此,那么应该怎么理解和解决python的编码问题呢?我们要知道python内部使用的是unicode编码,而外部却要面对千奇百怪的各种编码,比如作为中国程序经常要面对的gbk,gb2312,utf8等,那这些编码是怎么转换成内部的unicode呢?首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就
2014-12-16 16:43:49
1180
转载 文本挖掘技术笔记
我第一次接触自然语言处理还是研一的时候,当时我读的是那本经典书籍《数学之美》,之后我就对NLP/文本挖掘/IR方向兴趣比较大,所以也一直想毕业后去搜索相关公司。但是考虑到自己的基础水平,迟迟没有深入研究,其实主要原因是我一直在补计算机类基础知识呢,因为我是比较看重基础的,现在还差编译原理了,时间不够用了,也得感叹下,要学的知识太多了。前几天双11买了本《统计自然语言处理》,打算深入的研究下,所以这
2014-11-07 18:19:59
7558
转载 Android开发笔记(成长轨迹)
1.控制台输出:called unimplemented OpenGL ES API调用了未实现的OpenGL ES API函数,一般由于导入的第三方库如地图库,里面有用到OpenGL,但是模拟器的硬件默认是没有这个的,所以需要我们编辑模拟器Emulation Options选项勾选 Use Host GPU 然后重启模拟器再尝试,如果还是这个错误,那么我们只好用真机测试了。
2014-08-30 17:27:48
2366
转载 setImageResource和setImageDrawable区别
ImageView设置图片的方式有很多钟,可以在xml里面写android:src=”@drawable/xxx”,也可以在java代码里面设置。在java里面的设置方式也有多种,方法包括:setImageResource,setImageDrawable,setImageBitmap。在xml里面设置实际上和在java里面调用setImageResource是一样的,当然xml多
2014-08-30 08:18:07
2436
转载 Android的intent之间复杂参数的传递
老师在《Lecture03_应用程序框架及关键组件_1》课上有介绍了Intent是Activity与Activity之间,Activity与Service之间传递参数的介质,并有使用Intent和Bundle在组件之间传递数据的用法和例子,而这两种通常实现的是Java基本对象类型和String的传递。在实际项目中,页面之间传值,除了以上几种,经常还有传递Object对象、List类型、List类
2014-08-25 19:47:11
1308
转载 Parcel
Parcel,翻译过来是“打包”的意思。打包干什么呢?是为了序列化。 如果要在进程之间传递一个整数,很简单,直接传就是行了;如果要传一个字符串,就稍微复杂了点:需先分配一块可以容纳字符串的内存,然后将字符串复制到内存中,再传递(新手可能问:为啥不直接把字符串的引用传过去呢?学过C/C++的地球人都知道:进程有自己的内存地址空间,一个进程中的1000地址可能在另一个进程中是100000
2014-08-25 15:27:56
786
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人