“搞垮” 微博服务器?每天上亿条用户推送是如何做到的

640?wx_fmt=jpeg

记者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)


想必国内绝大多数网民都有新浪微博的用户账号。据最新数据显示,2018 年第四季度财报,微博月活跃用户突破 4.62 亿,连续三年增长 7000 万 +;微博垂直领域数量扩大至 60 个,月阅读量过百亿领域达 32 个。毫无疑问,从 2009 年 8 月上线至今,微博已是当前业界领先的中文社交媒体,成绩斐然。


当年有一句话叫做 “围观就是力量,舆论改变中国”,明星绯闻、爆炸性新闻等众多热门事件从微博发出传遍全网。直到如今,微博也上线了不少新功能如 “热搜” 、“新鲜事”、“故事” 等,更加强调 “社交”、“全媒体”、“垂直领域” 发展,进一步满足社交属性下人们对获取实时、一手新闻资源的需求。


Push(消息推送)的作用则在于提高用户活跃度和粘性,提高用户留存率,进而进一步提高产品功能和用户参与度。如国内外重大事件的提醒、领域内大事件的提醒、关注人或好友的重要消息推送、感兴趣内容的消息提醒等方式,可引导用户感兴趣的内容打开应用。


然而,另一个事实是,此前频频 “吐槽” 的应对热门事件的流量暴增导致的微博服务器崩溃问题,无论是热搜消息,还是信息流方面,均受到了极大的挑战。随着用户数量和消息并发量的不断上涨,基于移动端的消息推送服务器性能和稳定性也需要经受非常大的考验。例如,在排序方面,微博平台每天的推送量可达到几个亿的规模,如果全部采用全量计算,对服务器的资源消耗会过大,微博团队采用了分片批量计算的方式。


近期,微博研发中心技术专家齐彦杰在接受 AI 科技大本营采访时表示,“微博一直致力于打造基于用户关系的社交媒体平台,让用户及时获取好友动态,随时随地发现新鲜事。如何不错过重要的信息?让用户每 5 分钟去刷新自己的关注列表显然并不现实,更高效的方式是通过系统推送进行消息提醒,但推送是一个强打扰的行为,如何做一个既不过分打扰用户,又能让用户开心吃瓜的 Push 推荐系统,就是一件很有意思的事情了。”


640?wx_fmt=png

齐彦杰,微博研发中心技术专家


在 5 月 25 日 - 5 月 27 日杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)上,齐彦杰将作为机器学习论坛的演讲嘉宾,向大家介绍微博 Push 系统的发展历程,如何利用机器学习进行热点挖掘、博文标注,以及个性化推荐系统的模型升级之路。


机器学习在微博的落地


实际上,微博一步步进化的背后离不开平台技术研发团队在新技术能力上的持续提升。在齐彦杰看来,“微博非常重视新技术的跟进与落地,内部团队做了大量工作。现在也非常注重对外的交流,每年会参与一些比较重要的会议。”


AI 科技大本营:在过去几年,内容推荐和用户增长领域呈现出了哪些比较突出的技术或应用?与过去传统手段有哪些区别和联系?


齐彦杰:过去几年,技术的发展可以说是一日千里,快得令人震惊。如果大家平常关注会议或比赛,会发现每年好的论文或解决方案,进步非常大。而工业界也非常努力,不断提升产品效果,让用户体验越来越好。


列举这些就是想说明,如果论年计,突出的技术也会变得不突出,因为发展太快了。仅仅在模型排序方面,比如几年前 LR + 超大规模特征还是排序标配,后来演变为了 FM+,直到现在则是 Deep+,不得不说技术一直在前进。但不变的是,更加有效地利用数据,通过计算量的提升,提高模型的准确率,服务好用户的个性化需求。


AI 科技大本营:您认为基于微博当前的技术能力,在完成精准、快速个性化推送的过程中,面临着哪些挑战?为什么机器学习方法能够适用于当前的问题解决?


齐彦杰:微博的数据是巨量的,用户行为也是极为丰富的,更别说博文中蕴含的形式、内容、情绪等复杂的信息,这是微博的优势,也是微博机器学习的挑战。如何去理解用户、理解内容,连接用户与用户、用户与内容?这些问题都需要 NLP、计算机视觉、图计算、排序模型等技术解决。也只有基于机器学习,通过超大规模数据的学习与抽象,才可以做到精准的个性化内容分发。


AI 科技大本营:您在之前的分享中,也提到 “博文质量、算法模型与分发效率共同决定了 Push 效果”,那么在您看来,微博用户类型繁多,关注的兴趣点更为广泛,在实践过程中,是如何根据用户画像进行更加精准的内容推荐?


齐彦杰:首先,博文的内容要丰富,满足个性化的需求一定要保障候选博文的范围足够广泛;然后,按需储备,根据用户画像能够知道用户对哪些内容有更大的需求,根据需求挖掘内容更能保障易消费物料的准确性与充足性;再通过丰富的召回方法和高效的排序模型进行推荐分发。


常用的推荐算法包括协同、向量、模型等。


AI 科技大本营:实际上微博文本短小、信息量少(有时还会涉黄、不健康、不适宜内容等信息),很难做到对文本内容进行细粒度表征。对此,在本文理解方面,团队有没有比较好的解决办法?


齐彦杰:这确实是一个很好的问题。前面我提到,用户理解和内容理解是痛点和难点,但也是机器学习在高速进步的领域,当前 NLP、计算机视觉方面的进步给了我们很好的支持,包括去年 BERT 模型的出现,Embedding 的实践,以及人脸识别、物体识别等,对于内容的表征都有很好的表现。


AI 科技大本营:不少人曾提到多模态融合的概念,对此您是如何看待的?在微博的相关业务中已经有实际的应用及成效了吗?


齐彦杰:这个问题和上一个问题可以联系起来看。因为现在随着个人硬件的提升,内容创作的形式也是在不断丰富,从最初的文本,到后来图片的增多,再到视频内容的涌现,甚至直播的加入,用户有太多的形式去表现自己的思想或情绪。单纯的文本维度已经不能完整的表征内容,所以多模态融合对于推荐系统的提高有很大的帮助。据我所知,有很多同事在做相关的内容,也有比较好的效果。


关于齐彦杰本人


据了解,齐彦杰最早服务于行业软件,2010 年进入互联网行业,一直从事爬虫、索引、检索、数据分析等方向的研发工作。后来用户获取信息的习惯逐渐从主动搜索转向被动接受,推荐系统进入高速发展时期,机器学习也开始了对整个社会进行改造。“机器学习最需要就是数据,不管是在数量上,还是在维度上,微博均拥有着巨量的公开语料及行为数据。我认为这是机器学习应用最好的土壤。” 后来,也就是 2016 年,齐彦杰加入新浪微博团队,目前在微博 UG 算法组主要负责 Push 相关方向的业务。


据他的观察,最近几年微博 Push 得到比较大的改造,完成了从编辑推荐向算法推荐、各业务独立到统一 Push 平台的升级,使用户在体验上有了很好的提升。


作为本次杭州 CTA 大会机器学习论坛的演讲嘉宾,齐彦杰表示:“技术的前进离不开先行者的经验,更离不开思想的撞击,期待 CTA2019 的技术盛宴。”


(*本文为 AI科技大本营原创文章,转载请联系原作者)


CTA核心技术及应用峰会


5月25-27日,由中国IT社区优快云与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。


更多重磅嘉宾请识别海报二维码查看。目前会议7折预售票倒计时最后1天,点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。


640?wx_fmt=jpeg


推荐阅读



640?wx_fmt=png


点击阅读原文,了解CTA核心技术及应用峰会

<think>好的,用户让我介绍一下木马和病毒,并且用中文回答。首先,我需要明确这两个术语的定义,以及它们的区别和共同点。用户可能对计算机安全不太熟悉,所以需要用简单易懂的语言解释,避免专业术语过多。 首先,木马,全称是特洛伊木马,这个名字来源于古希腊的故事,所以可能需要简单提一下来源,但重点还是放在计算机领域。木马的特点通常是伪装成正常程序,诱使用户安装,然后执行恶意操作,比如窃取信息、远程控制等。关键点在于木马的隐蔽性和欺骗性,它不像病毒那样自我复制,这一点需要强调。 然后是病毒,计算机病毒的特性是能够自我复制和传播,感染其他文件或系统。病毒的主要破坏方式包括删除文件、损坏数据、占用资源等。这里需要指出病毒和木马的不同之处,尤其是传播方式和目的的不同。病毒更注重破坏和传播,而木马侧重于控制和窃取。 接下来,用户可能需要知道如何防范这些威胁,所以应该简要提到防范措施,比如安装杀毒软件、不随便下载文件、更新系统等。但用户的问题主要是询问定义,所以这部分可以放在最后作为补充,不需要太详细。 还要考虑用户可能的误解,比如认为木马和病毒是一回事,需要明确区分它们的区别。例如,木马通常不会自我复制,而病毒会。同时,恶意软件是一个更大的类别,包括病毒、木马、蠕虫等,这点也可以提一下,帮助用户建立整体的概念。 用户的需求可能是基础的计算机安全知识,所以例子要贴近生活,比如邮件附件中的病毒,或者伪装成游戏外挂的木马程序,这样用户更容易理解。同时,确保语言口语化,避免过于技术化的表述,比如用“潜伏”代替“驻留内存”这样的术语。 最后检查是否有遗漏点,比如木马的远程控制功能,病毒对系统资源的占用,以及两者的传播途径差异。确保回答结构清晰,先分别介绍木马和病毒,再比较它们的区别,最后给出防范建议。</think>木马和病毒都是常见的恶意软件类型,但它们的特点和危害方式有所不同: --- ### **木马(Trojan Horse)** - **名称来源**:源自古希腊特洛伊战争中的“木马计”,通过伪装欺骗目标。 - **特点**: - **伪装性**:伪装成正常软件(如游戏、工具、破解程序等),诱骗用户主动安装。 - **不自我复制**:依赖用户主动运行,不会像病毒一样自动传播。 - **隐蔽控制**:植入后可能窃取敏感信息(如密码、银行卡号)、远程控制设备,或为其他恶意软件开后门。 - **长期潜伏**:通常长期驻留系统中,用户不易察觉。 - **常见形式**:钓鱼邮件附件、盗版软件、虚假外挂等。 ▶ 举例:伪装成“游戏修改器”的木马,运行后窃取用户的账号密码。 --- ### **病毒(Computer Virus)** - **特点**: - **自我复制**:能感染其他文件或程序,通过文件传播(如U盘、邮件、网络下载)。 - **破坏性**:可能删除文件、破坏系统功能、占用资源导致设备卡顿。 - **触发机制**:部分病毒会在特定件(如日期、操作)下激活破坏行为。 - **常见形式**:感染可执行文件(如.exe)、文档宏病毒等。 ▶ 举例:蠕虫病毒通过邮件传播,感染后疯狂发送垃圾邮件拖慢系统。 --- ### **核心区别** | | **木马** | **病毒** | |----------|-------------------------|-----------------------| | **目的** | 窃取信息、远程控制 | 破坏系统或数据 | | **传播** | 依赖用户主动安装 | 自我复制并主动传播 | | **隐蔽性**| 长期潜伏,伪装性强 | 可能快速引发明显异常 | --- ### **如何防范?** 1. 安装可靠的安全软件,定期扫描。 2. 不随意下载不明来源的文件或破解软件。 3. 警惕邮件/链接中的可疑附件。 4. 及时更新系统和软件,修补漏洞。 **总结**:木马像“间谍”,暗中窃取信息;病毒像“破坏者”,直接搞垮系统。两者都属于恶意软件,需提高安全意识防范。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值