
代码
文章平均质量分 73
mlnotes
这个作者很懒,什么都没留下…
展开
-
按版面抓取饮水思源照片
原创 2013-08-01 00:55:03 · 852 阅读 · 0 评论 -
聚类算法(层级聚类,K-Means)
#!/usr/bin/pythonimport syssys.path.append('..')import modules.similarity as sim # http://hi.baidu.com/bithigher/item/6ca6844ac29d0128fb896026 import randomwords = []blogs = []data = []def getData(fi原创 2013-08-01 00:55:31 · 1006 阅读 · 1 评论 -
最简单的中文分词(最大匹配以及反向最大匹配)
原创 2013-08-01 00:55:38 · 1054 阅读 · 0 评论 -
推荐算法(userBased, itemBased)
#!/usr/bin/pythonfrom math import sqrtdef genUserBasedMap(file = 'u.data'): map = {} f = open(file) for line in f: (user, item, rate) = line.split('\t')[0:3] map.setdefault(int(原创 2013-08-01 00:55:29 · 919 阅读 · 0 评论 -
相似度计算(euclidean, cosine, pearson)
#!/usr/bin/pythonfrom math import sqrtdef euclidean(v1, v2): length = min(len(v1), len(v2)) if length == 0: return 0 d = 0 for i in range(length): d += pow((v1[i] - v2[i]), 2)原创 2013-08-01 00:55:34 · 1815 阅读 · 0 评论 -
中文分词算法 mmseg python版本
mmseg算法是对最大匹配算法的扩展。简单来说,mmseg每次匹配时,总会多向后匹配两个单词,然后选择这个三个单词的总体匹配最优的。mmseg 主要做了以下几方面的扩展:假设对字符串C1C2...Cn进行分割 匹配时,从小到大,逐个匹配字典中以C1开头的词每次连续匹配三个词语(three-word chunk ),并列出所有可能的分割选择最匹配的three-word chunk(依次运用以下规则原创 2013-08-01 00:55:40 · 1536 阅读 · 0 评论 -
asm call函数
section .data msg db "Hello, World, via print by myself", 0xA len equ $ - msgsection .textglobal _start_start: ; push two int into stack push msg push len call print add esp, 8 ; pop that t原创 2013-08-01 00:55:11 · 2462 阅读 · 0 评论