
数学之美
长弓Smile
这个作者很懒,什么都没留下…
展开
-
PageRank
对于一个特定的查询,搜索结果的排名取决于两组信息:关于网页的质量信息以及这个查询与每个网页的相关性信息。 PageRank的核心思想: 在互联网上,如果一个网页被很多其他网页所链接,那么说明它收到普遍的承认和信赖,那么它的排名就高。决定搜索质量最有用的信息是用户的点击数量。 PageRank的计算方法: 假定向量 为第一、第二、…第N个网页的网页排名,矩阵 为网页之间的链接数目...原创 2018-04-23 20:21:44 · 297 阅读 · 0 评论 -
TF-IDF的基本概念
单文本词频 (Term Frequency,TF) 即:关键字的次数/网页的总字数 如:一个网页上有1000个词,其中“原子能”、“的”和“应用”分别出现了2次,35次和5次,那么它们的词频分别是0.002,0.035,0.005。将这几个数相加,就是“原子能的应用”的“单文本词频”。 度量网页和查询的相关性的一个简单方法就是直接使用各个关键词在网页中出现的总词频。具体来讲,如果一个查询包...原创 2018-04-18 15:41:31 · 320 阅读 · 0 评论