【Java】短 URL 生成器设计:百亿短 URL 怎样做到无冲突?

一、问题解析

在社交媒体上,人们经常需要分享一些URL,但是有些URL可能会很长,比如:https://geek.qq.org/hybrid/pvip?utm_source=geek-pc-discover-banner&utm_term=geek-pc-discover-banner

这样长的URL显然体验并不友好。我们期望分享的是一些更短、更易于阅读的短URL,比如像 http://1.cn/ScW4dt 这样的。当用户点击这个短URL的时候,可以重定向访问到原始的链接地址。为此我们将设计开发一个短URL生成器,产品名称是“Fuxi(伏羲)”。

我们预计Fuxi需要管理的短URL规模在百亿级别,并发吞吐量达到数万级别。这个量级的数据对应的存储方案是什么样的?用传统的关系数据库存储,还是有其他更简单的办法?此外,如何提升系统的并发处理能力呢?这些是我们今天要重点考虑的问题。

8.1 需求分析

短URL生成器,也称作短链接生成器,就是将一个比较长的URL生成一个比较短的URL,当浏览器通过短URL生成器访问这个短URL的时候,重定向访问到原始的长URL目标服务器,访问时序图如下。

对于需要展示短URL的应用程序,由该应用调用短URL生成器生成短URL,并将该短URL展示给用户,用户在浏览器中点击该短URL的时候,请求发送到短URL生成器(短URL生成器以HTTP服务器的方式对外提供服务,短URL域名指向短URL生成器),短URL生成器返回HTTP重定向响应,将用户请求重定向到最初的原始长URL,浏览器访问长URL服务器,完成请求服务。

8.1.1 短URL生成器的用例图

  1. 用户client程序可以使用短URL生成器Fuxi为每个长URL生成唯一的短URL,并存储起来。
  2. 用户可以访问这个短URL,Fuxi将请求重定向到原始长URL。
  3. 生成的短URL可以是Fuxi自动生成的,也可以是用户自定义的。用户可以指定一个长URL对应的短URL内容,只要这个短URL还没有被使用。
  4. 管理员可以通过web后台检索、查看Fuxi的使用情况。
  5. 短URL有有效期(2年),后台定时任务会清理超过有效期的URL,以节省存储资源,同时回收短URL地址链接资源。

8.1.2 性能指标估算

Fuxi的存储容量并发量估算如下。

预计每月新生成短URL 5亿条,短URL有效期2年,那么总URL数量120亿。

\(\\small 5亿\\times12月\\times2年=120亿\)

  • 存储空间- 每条短URL数据库记录大约1KB,那么需要总存储空间12TB(不含数据冗余备份)。

\(\\small 120亿\\times1KB=12TB\)

  • 吞吐量- 每条短URL平均读取次数100次,那么平均访问吞吐量(每秒访问次数)2万。

\(\\small(5亿\\times100)\\div(30\\times24\\times60\\times60)\\approx20000\)

一般系统高峰期访问量是平均访问量的2倍,因此系统架构需要支持的吞吐能力应为4万。

  • 网络带宽- 短URL的重定向响应包含长URL地址内容,长URL地址大约500B,HTTP响应头其他内容大约500B,所以每个响应1KB,高峰期需要的响应网络带宽320Mb。

\(\\small 4万(每秒)次请求\\times1KB=40MB\\times8bit=320Mb\)

Fuxi的短URL长度估算如下。

短URL采用Base64编码,如果短URL长度是7个字符的话,大约可以编码4万亿个短URL。

\(\\small 64^{7}\\approx4万亿\)

如果短URL长度是6个字符的话,大约可以编码680亿个短URL。

\(\\small 64^{6}\\approx680亿\)

按我们前面评估,总URL数120亿,6个字符的编码就可以满足需求。因此Fuxi的短URL编码长度6个字符,形如http://l.cn/ScW4dt

8.1.3 非功能需求

  1. 系统需要保持高可用,不因为服务器、数据库宕机而引起服务失效。
  2. 系统需要保持高性能,服务端80%请求响应时间应小于5ms,99%请求响应时间小于20ms,平均响应时间小于10ms。
  3. 短URL应该是不可猜测的,即不能猜测某个短URL是否存在,也不能猜测短URL可能对应的长URL地址内容。

8.2 概要设计

短URL生成器的设计核心就是短URL的生成,即长URL通过某种函数,计算得到一个6个字符的短URL。短URL有几种不同的生成算法。

8.2.1 单项散列函数生成短URL

通常的设计方案是,将长URL利用MD5或者SHA256等单项散列算法,进行Hash计算,得到128bit或者256bit的Hash值。然后对该Hash值进行Base64编码,得到22个或者43个Base64字符,再截取前面的6个字符,就得到短URL了,如图。

但是这样得到的短URL,可能会发生Hash冲突,即不同的长URL,计算得到的短URL是相同的(MD5或者SHA256计算得到的Hash值几乎不会冲突,但是Base64编码后再截断的6个字符有可能会冲突)。所以在生成的时候,需要先校验该短URL是否已经映射为其他的长URL,如果是,那么需要重新计算(换单向散列算法,或者换Base64编码截断位置)。重新计算得到的短URL依然可能冲突,需要再重新计算。

但是这样的冲突处理需要多次到存储中查找URL,无法保证Fuxi的性能要求。

8.2.2 自增长短URL

一种免冲突的算法是用自增长自然数来实现,即维持一个自增长的二进制自然数,然后将该自然数进行Base64编码即可得到一系列的短URL。这样生成的的短URL必然唯一,而且还可以生成小于6个字符的短URL,比如自然数0的Base64编码是字符“A”,就可以用http://1.cn/A作为短URL。

但是这种算法将导致短URL是可猜测的,如果某个应用在某个时间段内生成了一批短URL,那么这批短URL就会集中在一个自然数区间内。只要知道了其中一个短URL,就可以通过自增(以及自减)的方式请求访问其他URL。Fuxi的需求是不允许短URL可预测。

8.2.3 预生成短URL

因此,Fuxi采用预生成短URL的方案。即预先生成一批没有冲突的短URL字符串,当外部请求输入长URL需要生成短URL的时候,直接从预先生成好的短URL字符串池中获取一个即可。

预生成短URL的算法可以采用随机数来实现,6个字符,每个字符都用随机数产生(用0~63的随机数产生一个Base64编码字符)。为了避免随机数产生的短URL冲突,需要在预生成的时候检查该URL是否已经存在(用布隆过滤器检查)。因为预生成短URL是离线的,所以这时不会有性能方面的问题。事实上,Fuxi在上线之前就已经生成全部需要的144亿条短URL并存储在文件系统中(预估需要短URL120亿,Fuxi预生成的时候进行了20%的冗余,即144亿。)

8.2.4 Fuxi的整体部署模型

Fuxi的业务逻辑比较简单,相对比较有挑战的就是高并发的读请求如何处理、预生成的短URL如何存储以及访问。高并发访问主要通过负载均衡与分布式缓存解决,而海量数据存储则通过HDFS以及HBase来完成。具体架构图如下。

系统调用可以分成两种情况,一种是用户请求生成短URL的过程;另一种是用户访问短URL,通过Fuxi跳转到长URL的过程。

对于用户请求生成短URL的过程,在短URL系统Fuxi上线前,已经通过随机数算法预生成144亿条短URL并将其存储在HDFS文件系统中。系统上线运行后,应用程序请求生成短URL的时候(即输入长URL,请求返回短URL),请求通过负载均衡服务器被发送到短URL服务器集群,短URL服务器再通过负载均衡服务器调用短URL预加载服务器集群。

短URL预加载服务器此前已经从短URL预生成文件服务器(HDFS)中加载了一批短URL存放在自己的内存中,这时,只需要从内存中返回一个短URL即可,同时将短URL与长URL的映射关系存储在HBase数据库中,时序图如下。

对于用户通过客户端请求访问短URL的过程(即输入短URL,请求返回长URL),请求通过负载均衡服务器发送到短URL服务器集群,短URL服务器首先到缓存服务器中查找是否有该短URL,如果有,立即返回对应的长URL,短URL生成服务器构造重定向响应返回给客户端应用。

如果缓存没有用户请求访问的短URL,短URL服务器将访问HBase短URL数据库服务器集群。如果数据库中存在该短URL,短URL服务器会将该短URL写入缓存服务器集群,并构造重定向响应返回给客户端应用。如果HBase中没有该短URL,短URL服务器将构造404响应返回给客户端应用,时序图如下。

过期短URL清理服务器会每个月启动一次,将已经超过有效期(2年)的URL数据删除,并将这些短URL追加写入到短URL预生成文件中。

为了保证系统高可用,Fuxi的应用服务器、文件服务器、数据库服务器都采用集群部署方案,单个服务器故障不会影响Fuxi短URL的可用性。

对于Fuxi的高性能要求,80%以上的访问请求将被设计为通过缓存返回。Redis的缓存响应时间1ms左右,服务器端请求响应时间小于3ms,满足80%请求小于5ms的性能目标。对于缓存没有命中的数据,通过HBase获取,HBase平均响应时间10ms,也可以满足设计目标中的性能指标。

对于Redis缓存内存空间估算,业界一般认为,超过80%请求集中在最近6天生成的短URL上,Fuxi主要缓存最近六天生成的短URL即可。根据需求容量估计,最近6天生成的短URL数量约1亿条,因此需要Redis缓存服务器内存空间:\(\\small 1亿\\times1KB=100GB\)。

8.3 详细设计

详细设计关注重定向响应码、短URL预生成文件及加载、用户自定义短URL等几个关键设计点。

8.3.1 重定向响应码

满足短URL重定向要求的HTTP重定向响应码有301和302两种,其中301表示永久重定向,即浏览器一旦访问过该短URL,就将重定向的原始长URL缓存在本地,此后不再请求短URL生成器,直接根据缓存在浏览器(HTTP客户端)的长URL路径进行访问。

302表示临时重定向,每次访问短URL都需要访问短URL生成器。

一般说来,使用301状态码可以降低Fuxi服务器的负载压力,但无法统计短URL的使用情况,而Fuxi的架构设计完全可以承受这些负载压力,因此Fuxi使用302状态码构造重定向响应。

8.3.2 短URL预生成文件及预加载

Fuxi的短URL是在系统上线前全部预生成的,并存储在HDFS文件中。共144亿个短URL,每个短URL 6个字符,文件大小\(\\small 144亿\\times6B=86.4GB\)。

文件格式就是直接将144亿个短URL的ASC码无分割地存储在文件中,如下是存储了3个短URL的文件示例:

Wdj4FbOxTw9CHtvPM1

所以如果短URL预加载服务器第一次启动的时候加载1万个短URL,那么就从文件头读取60K数据,并标记当前文件偏移量60K。下次再加载1万个短URL的时候,再从文件60K偏移位置继续读取60K数据即可。

因此,Fuxi除了需要一个在HDFS记录预生成短URL的文件外,还需要一个记录偏移量的文件,记录偏移量的文件也存储在HDFS中。同时,由于预加载短URL服务器集群部署多台服务器,会出现多台服务器同时加载相同短URL的情况,所以还需要利用偏移量文件对多个服务器进行互斥操作,即利用文件系统写操作锁的互斥性实现多服务器访问互斥

应用程序的文件访问流程应该是:写打开偏移量文件 -> 读偏移量 -> 读打开短URL文件 -> 从偏移量开始读取60K数据 -> 关闭短URL文件 -> 修改偏移量文件 -> 关闭偏移量文件。

由于写打开偏移量文件是一个互斥操作,所以第一个预加载短URL服务器写打开偏移量文件以后,其他预加载短URL服务器无法再写打开该文件,也就无法完成读60K短URL数据及修改偏移量的操作,这样就能保证这两个操作是并发安全的。

加载到预加载短URL服务器的1万个短URL会以链表的方式存储,每使用一个短URL,链表头指针就向后移动一位,并设置前一个链表元素的next对象为null。这样用过的短URL对象可以被垃圾回收。

当剩余链表长度不足2000的时候,触发一个异步线程,从文件中加载1万个新的短URL,并链接到链表的尾部。

与之对应的URL链表类图如下。

URLNode:URL链表元素类,成员变量uRL即短URL字符串,next指向下一个链表元素。

LinkedURL:URL链表主类,成员变量head指向链表头指针元素,uRLAmount表示当前链表剩余元素个数。acquireURL()方法从链表头指针指向的元素中取出短URL字符串,并执行urlAmount– 操作。当urlAmount < 2000的时候,调用私有方法loadURL(),该方法调用一个线程从文件中加载1万个短URL并构造成链表添加到当前链表的尾部,并重置uRLAmount。

8.3.2.1 用户自定义短URL

Fuxi允许用户自己定义短URL,即在生成短URL的时候,由用户指定短URL的内容。为了避免预生成的短URL和用户指定的短URL冲突,Fuxi限制用户自定义短URL的字符个数,不允许用户使用6个字符的自定义短URL,且URL长度不得超过20个字符。

但是用户自定义短URL依然可能和其他用户自定义短URL冲突,所以Fuxi生成自定义短URL的时候需要到数据库中检查冲突,是否指定的URL已经被使用,如果发生冲突,要求用户重新指定。

8.3.2.2 URL Base64编码

标准Base64编码表如下。

其中“+”和“/”在URL中会被编码为“%2B”以及“%2F”,而“%”在写入数据库的时候又和SQL编码规则冲突,需要进行再编码,因此直接使用标准Base64编码进行短URL编码并不合适。URL保留字符编码表如下。

所以,我们需要针对URL场景对Base64编码进行改造,使用URL保留字符表以外的字符对Base64编码表中的62,63进行编码:将“+”改为“-”,将“/”改为“_”,Fuxi最终采用的URL Base64编码表如下。

二、粉丝福利

 

<think>好的,我现在需要解决用户的问题:Java项目中net.sf.json包存在的错误。用户可能遇到了编译或运行时找到这个包的情况。首先,我需要回忆一下常见的依赖问题解决方法,并结合用户提供的引用信息,看看有没有相关的线索。 根据用户提供的引用内容,特别是引用3和引用4提到net.sf.json包已经过时,可能在Maven仓库中版本较老,或者某些IDE无法下载源码。这可能意味着用户的项目配置中可能没有正确添加这个依赖,或者仓库中没有可用的版本。此外,用户可能使用的是Maven或Gradle,需要检查构建配置。 接下来,我应该考虑如何添加net.sf.json的依赖。常见的做法是通过Maven或Gradle引入库。但根据引用3,这个包在2010年停止更新,可能在某些仓库中没有最新版本,或者需要特定的仓库配置。例如,可能需要添加JCenter或特定的仓库源。 另外,用户可能没有正确配置依赖,或者依赖的版本正确。需要给出正确的Maven和Gradle配置示例。同时,用户可能知道这个包的问题,如引用3和4提到的坑,可能建议用户换用其他更现代的库,比如Fastjson、Gson或Jackson,这也是解决问题的另一种方法。 然后,我需要分步骤回答:首先解决如何添加net.sf.json的依赖,然后建议替代方案。同时,要确保语法正确,比如依赖的groupId、artifactId和版本是否正确。例如,net.sf.json的groupId通常是net.sf.json-lib,而artifactId可能有同的版本,如json-lib,并且需要指定jdk版本,如jdk15。 可能还需要考虑用户的项目类型,比如是否是Maven项目,或者是否使用了旧的JDK版本。如果用户添加依赖后仍然有问题,可能需要检查仓库配置,或者是否存在冲突的依赖。 此外,用户可能在转换JSON时遇到问题,如引用1和2提到的异常,但用户当前的问题是关于包存在,所以重点应放在依赖配置上,但可以简要提到替代方案以避免后续问题。 最后,生成相关问题,比如如何替换net.sf.json,或者处理常见的JSON转换错误。</think>### 逐步解决方案 #### 1. 添加Maven依赖(针对传统项目) 若仍坚持使用`net.sf.json`,需在`pom.xml`中添加以下配置,并注意需指定JDK版本适配的依赖分类器(如`jdk15`): ```xml <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.4</version> <classifier>jdk15</classifier> </dependency> ``` *注意*:若仓库未找到该包,需在Maven配置中添加JCenter仓库: ```xml <repository> <id>jcenter</id> <url>https://jcenter.bintray.com</url> </repository> ``` #### 2. 检查Gradle配置 对于Gradle项目,需在`build.gradle`中添加: ```groovy repositories { jcenter() } dependencies { implementation 'net.sf.json-lib:json-lib:2.4:jdk15' } ``` #### 3. 替换为现代JSON库(推荐) 由于`net.sf.json`已停止维护且存在兼容性问题[^3][^4],建议迁移至以下库: - **Fastjson**(阿里): ```xml <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.83</version> </dependency> ``` - **Gson**(谷歌): ```xml <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> <version>2.10.1</version> </dependency> ``` - **Jackson**(Spring默认): ```xml <dependency> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-databind</artifactId> <version>2.15.2</version> </dependency> ``` #### 4. 验证依赖下载 - **Maven**:执行`mvn clean install`并观察控制台是否下载成功 - **IDE**:检查项目依赖树,确认无冲突或缺失 --- ### 根本原因分析 `net.sf.json`包存在错误通常由以下原因导致: 1. **依赖未正确配置**:未指定分类器(如`jdk15`)或版本号错误 2. **仓库缺失**:未配置JCenter等包含该依赖的仓库 3. **版本过旧**:部分私有仓库可能未同步旧版本依赖[^3] --- ### 替代方案示例(Fastjson) ```java // 对象转JSON User user = new User(); String json = JSON.toJSONString(user); // JSON转对象 User parsedUser = JSON.parseObject(json, User.class); ``` ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值