机器人的"Blog Network”和Most Popular频道

本文探讨了通过机器自动计算中文博客热点的技术,无需关键词即可发现并聚合热点话题,介绍了该技术的工作原理及应用前景。
部署运行你感兴趣的模型镜像
机器人的“Blog Network”
吕欣欣说“ 有很多东西比“钱”更精彩 ”。
他的blog后面列出了自己手动生成的主题阅读列表:
其实延展阅读这类东西或者“中文博客在讨论什么”这块,可以用机器自行计算出来,不需要有什么“关键词”来作为第一推动力,就可以计算出来热点。
这么出来的东西,不就是机器人的“Blog Network”吗?
 
[      “内容引擎”能够通过对数万乃至数十万篇博文进行分析后,自动算出许多组博文,每一组博文都有很高的内聚性。我们可以认为这一组博文代表了一个中文世界的热点讨论。
      百度、Google是通过用户搜索输入的关键词来判断中文世界的热点。而我们通过分析博客们写作的数十万篇博文来寻找热点的。通过这种主题自动发现技术,可以很容易知道最近中文世界人们在讨论什么、在关注什么。而不需要任何人为的输入关键词来做第一推动力。

譬如说,如下所示的热点组:

-----------主题245------------------

       核心文档:(index=11646507.xml)新快报:韩国人发明汉字

       index=11645945.xml   title=如何拯救我们的文化?

       index=11645979.xml   title=看看韩国对中国犯的七宗罪(随时更新)

       index=11647900.xml   title=汉字真是韩国人发明的又能怎样(图)

       index=11651176.xml   title=韩国人为什么敢意淫汉字?

       index=11654537.xml   title=韩国人疯了宣称“汉字是古代韩国人发明的”!

 

-----------主题246------------------

       核心文档:(index=11646015.xml)财经新闻报道的创新

       index=11645987.xml   title=财经新闻与“利益”视角――财经报道心得点滴谈

       index=11646003.xml   title=我们怎么写财经新闻

       index=11646009.xml   title=美国华人记者看中国财经报纸――《华尔街日报》成长的启示

       index=11646031.xml   title=国外财经媒体的启示:大众化还是专业化

       index=11646037.xml   title=需要财经大视野――新形势下经济报道的新特点分析

可以表明人们在讨论两个热点:“韩国人是否发明了汉字的争论”和“财经新闻如何制作的分析”。

目前,这种计算将会每天计算一次。未来希望能够半天计算一次,这就对爬虫速度以及热点计算速度提出了很高的要求。

]

["上面的热点讨论是系统每隔四小时自动生成的中文博客世界的热点讨论之一。内容引擎可以自行计算出热点,当然也可以允许用户输入中心词或者中心文章来个性化计算热点。"]

"想知道在最近三小时内中文博客们在热烈讨论什么吗?"

那就看我们的“Most Popular”频道吧。

Technorati.com依靠url链接来计算最流行的热点排行榜(Most Popular: http://www.technorati.com/pop/),在中国不可能完全根据链接计算热点,只能靠语义。

 

早先的swordi这篇blog也谈到了类似的意思不过提到的这些都是人手动作的专题并且人有意识提取在先。其实机器可以自己去发现去整理。

{

中文网志年会归来的Blog回响:编辑2.0的时代已经来临

http://swordi.com/2006/11/04/editor20-cnbloggercon-blog-media/

看起来Technorati.com在中国大陆是无法访问了:( 国内的Souyo.com有些差强人意,收录Post的速度滞后很严重,在杭州参加中文网志年会的第二天访问 Souyo.com开设的中文网志年会的专题页面,发现没有新鲜的内容。

今年有许多人在做手工编辑的网志年会内容聚合,例如博客报的Blogsir就不断在Update这个《2006中文网志年会后续报道列表总汇》,虽然不是完整收录,但是手工编辑挑选,也算是弥补了一个Technorati缺席,Souyo滞后的遗憾。

这个简单的体验,也说明Blog的发展在2006-2007将迈向一个新的阶段,在许多人近期的讨论、交流以及贴子上也可以看到端倪,那就是Blog内容的聚合、整理、再编辑、再发布。Douban.com的阿北在年会说Douban.com将推出"Blogger推荐",i.Blogbeta.com

 

早先的swordi这篇blog也谈到了类似的意思不过提到的这些都是人手动作的专题并且人有意识提取在先。其实机器可以自己去发现去整理。

{

中文网志年会归来的Blog回响:编辑2.0的时代已经来临

http://swordi.com/2006/11/04/editor20-cnbloggercon-blog-media/

看起来Technorati.com在中国大陆是无法访问了:( 国内的Souyo.com有些差强人意,收录Post的速度滞后很严重,在杭州参加中文网志年会的第二天访问 Souyo.com开设的中文网志年会的专题页面,发现没有新鲜的内容。

今年有许多人在做手工编辑的网志年会内容聚合,例如博客报的Blogsir就不断在Update这个《2006中文网志年会后续报道列表总汇》,虽然不是完整收录,但是手工编辑挑选,也算是弥补了一个Technorati缺席,Souyo滞后的遗憾。

这个简单的体验,也说明Blog的发展在2006-2007将迈向一个新的阶段,在许多人近期的讨论、交流以及贴子上也可以看到端倪,那就是Blog内容的聚合、整理、再编辑、再发布。Douban.com的阿北在年会说Douban.com将推出"Blogger推荐",i.Blogbeta.com

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

Delphi 12.3 作为一款面向 Windows 平台的集成开发环境,由 Embarcadero Technologies 负责其持续演进。该环境以 Object Pascal 语言为核心,并依托 Visual Component Library(VCL)框架,广泛应用于各类桌面软件、数据库系统及企业级解决方案的开发。在此生态中,Excel4Delphi 作为一个重要的社区开源项目,致力于搭建 Delphi 与 Microsoft Excel 之间的高效桥梁,使开发者能够在自研程序中直接调用 Excel 的文档处理、工作表管理、单元格操作及宏执行等功能。 该项目以库文件与组件包的形式提供,开发者将其集成至 Delphi 工程后,即可通过封装良好的接口实现对 Excel 的编程控制。具体功能涵盖创建与编辑工作簿、格式化单元格、批量导入导出数据,乃至执行内置公式与宏指令等高级操作。这一机制显著降低了在财务分析、报表自动生成、数据整理等场景中实现 Excel 功能集成的技术门槛,使开发者无需深入掌握 COM 编程或 Excel 底层 API 即可完成复杂任务。 使用 Excel4Delphi 需具备基础的 Delphi 编程知识,并对 Excel 对象模型有一定理解。实践中需注意不同 Excel 版本间的兼容性,并严格遵循项目文档进行环境配置与依赖部署。此外,操作过程中应遵循文件访问的最佳实践,例如确保目标文件未被独占锁定,并实施完整的异常处理机制,以防数据损毁或程序意外中断。 该项目的持续维护依赖于 Delphi 开发者社区的集体贡献,通过定期更新以适配新版开发环境与 Office 套件,并修复已发现的问题。对于需要深度融合 Excel 功能的 Delphi 应用而言,Excel4Delphi 提供了经过充分测试的可靠代码基础,使开发团队能更专注于业务逻辑与用户体验的优化,从而提升整体开发效率与软件质量。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值