
精准广告
文章平均质量分 81
aican_yu
这个作者很懒,什么都没留下…
展开
-
基于Web开发模式的信息抽取
说明:转载请注明作者和出处;未经许可,不得在平面媒体上发表。 这是本人在信息抽取方面的一些心得和总结,希望对于有志于互联网Web信息抽取的朋友一点启发,有任何问题可以发邮件给我或者加我msn一起讨论。 信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。 主流算法转载 2012-03-28 10:46:02 · 792 阅读 · 0 评论 -
网页文本的排重算法
1.信息指纹算法判断重复网页的思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。判断内容复制的方法中最关键的两点:1、计算信息指纹(Fingerprint)的算法;2、判断信息指纹的相似程度的参数。信息指纹就是提取网页正文信息的特征,通常是一组词或者一组词+权重,转载 2012-03-28 10:49:12 · 740 阅读 · 0 评论 -
google广告分类
Google广告的偏好设置,根据兴趣类别和受众人口统计特点类别来展示广告,可以设置站点Adsense的出现广告的类别,Adsense的分类体系如下:1、类别:1578,不算多,也不算少。2、级别:一级大概是26类,一般行业下是3-4级,只有地理位置达到6-7级。3、详细程度:一般只是到《休闲游戏》,《丰田》,《相机》等比较粗略的大类上,但是具体内容、型号等在每个类别上都有体现的,比如”原创 2012-03-28 10:44:57 · 39416 阅读 · 0 评论