
Python
wbj0110
这个作者很懒,什么都没留下…
展开
-
Ubuntu 10.04 安装Twisted、Scrapy爬虫框架
Ubuntu 10.04 安装Twisted、Scrapy爬虫框架Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结 Scrapy Python爬虫框架 logo[1]构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫...原创 2014-01-25 22:54:31 · 212 阅读 · 0 评论 -
Reddit评论排名算法
与文章新闻类排名不同的事,评论类的算法可能发表时间没有什么关系。目前很多网站采用的评论排名主要有两种,即绝对好评数(好评减去差评)和好评率(好评/总评)。这两种评价方式 都存在很明显的缺陷,以下为事例:A:好评550; 差评450B:好评60;差评40C:好评1;差评0D:好评9,差评1首先是A与B比较,A的绝对好评数是550-450=100,B的绝对好评数是60-...原创 2013-09-03 09:27:23 · 401 阅读 · 0 评论 -
Python 神经网络调教程序
01import random02import math03 04from pyneurgen.neuralnet import NeuralNet05from pyneurgen.nodes import BiasNode, Connection06 07pop_len ...原创 2014-02-28 09:14:34 · 734 阅读 · 0 评论 -
Python登录人人网并抓取新鲜事
from sgmllib import SGMLParser02import sys,urllib2,urllib,cookielib03class spider(SGMLParser):04 def __init__(self,email,password):05 SGMLParser...原创 2014-03-07 10:00:32 · 180 阅读 · 0 评论 -
Reddit 排名算法工作原理
Reddit是个社交新闻站点,其口号是“提前于新闻发生,来自互联网的声音”。用户(也叫redditors)能够浏览并且可以提交互联网上内容的链接或发布自己的原创帖子。其他的用户可对发布的链接进行高分或低分的投票,得分突出的链接会被放到首页。另外,用户可对发布的链接进行评论以及回复其他评论者。 本文将跟大家探讨一下Reddit的文章排名算法和评论排名算法的工作原理。Reddit使用的算法也是很简...原创 2013-09-19 11:53:26 · 714 阅读 · 0 评论 -
Python url open 说明
http://blenderartists.org/forum/showthread.php?204431-Python-3-URLlib()原创 2013-10-27 12:11:41 · 443 阅读 · 1 评论 -
用python编写MapReduce
vi mapper.py 输入: #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip() ...原创 2013-11-01 08:40:04 · 148 阅读 · 0 评论