使图像文本具有语义并且可搜索

本文探讨了Web设计师使用图像文本展示特殊字体的方法,以及这种做法对搜索引擎识别的影响。文章提供了使基于图像的文本既美观又保持语义完整性的技巧。
Web 设计师很早就开始使用图像文本显示特殊的字体、脚本,或其他无法在用户电脑上显示的字体。通过基于图像的文本,而不是用户的系统字体,Web 设计师能够很好地控制颜色、字距、线条粗细和字体。然而,如果页面上没有实际的文本,Google 和 Yahoo 等搜索引擎,以及 Google Ads 等广告服务,将在识别站点和对站点进行分类时受到阻碍。本文将解释如何使基于图像的文本变得美观优雅,而且不损害文本在 Web 页面上的语义。

文本依赖于用户的系统,而不是您的系统

Web 的最大好处之一是能够将消息 — 以 Web 页面的形式 — 发送给成千上万的用户系统。您可以对消息进行一番 “打扮”,然后通过一个诱人的 Web 页面将它展示在全球各地的计算机面前。当然,Web 的最大缺点 之一就是您必须同时面对成千上万个用户系统。您会受到他们的软件、操作系统、显示器大小甚至是左右手使用习惯的限制。

事实上,这正是 HTML、CSS、XHTML、ECMAScript、JavaScript 等正在着手解决的问题。通过发布一组标准,您可以合理构建页面,确定您的家人、朋友、客户或其他网络使用者可以访问的内容,以及您自己可以访问的内容。构建一个表或某种样式的字体来突出重点已经不是什么稀奇的事情。但是,虽然 Web 标准已经取得很大的进展,但仍有许多 东西尚未 标准化。

大多数用户都有自己的小型字体集

在用户的系统上,最 可靠的便是字体。首先语言本身存在大量无法克服的问题。一般情况下,日本的计算机很可能没有您喜欢的英语书法字体。尽管您认为您的站点仅由使用相同母语的计算机浏览,但它们也存在大量的字体风格。如果您从事与设计相关的工作,则很可能向计算机自带的标准字体集添加了其他一些字体。

但事实上,大多数用户都不是设计师。他们不是程序员、作家,甚至从事与计算机毫无相关的工作。这意味着您需要处理常见的字体,比如 Arial 或经久不衰的 Times Roman(如果是比较高级的系统,还可能是 Times New Roman)。这里指出了一个常被忽略的事实:虽然您正在阅读 IBM developerWorks 上的文章,但您使用的字体和大多数计算机用户不一样。别指望用户机器当中有 “相当比例的机器” 使用与您相同的字体。

这得出一个明显的结论,那就是在 Web 站点中使用的字体受到巨大的限制。如果您的 Web 页面使用极为不常见的字体,那就会带来困惑、招来抱怨,或使用户沉默不语,因为用户决不会承认他们看过或理解您的站点。因为用户看到的很可能是难看的,甚至是很难辨认的字体,而不是您所选择的字体。他们的文本可能不再适合屏幕,或超出了边框。因为当您选择的字体不可用时,大多数情况下用户系统会调节到对他们 的系统可用的最简单(通常最烦人、最难看)的字体。

这些字体不是绝对可靠的

另外,即使您和用户使用相同的字体集,它们之间也会存在一些差别。在 Microsoft®Windows 的 InDesign 或 Word 文档中使用 “Arial Rounded MT Bold”,然后将该文档发送给具有相同字体的 Mac® 用户。这会导致问题;Mac 用户会抱怨 “Arial Rounded MT Bold (TT)” 不可用。这使得整个文档的字体非常怪异,并且有许多错误颜色或警告。这是什么原因呢?原来是不同的系统的字距不匹配。如果将字体从 Windows XP 转移到 Windows Vista,或从 Mac OS 转移到 Mac OS X,一样存在这样的问题。在 Linux®、Unix®、Solaris® 或其他 *NIX 系统上,情况更加糟糕。

实际上,有时同一系统上的相同字体会有不同的名称。操作系统正在尽力避免字体命名冲突。因此,您的 Times New Roman 版本可能和我的不一样。这造成的后果和前面一样:困惑、零乱的 Web 页面、在您的机器上能很好显示的消息在另一台机器上却异常难看。那么,如何在众多不兼容字体的系统上使您的页面美观可人,同时又避免字体带来的烦恼?





本文转自IBM Developerworks中国

      请点击此处查看全文

 
### 图像文本语义对齐的技术方法 #### 一、基于对比学习的语义对齐 在图像文本语义对齐中,CLIP(Contrastive Language–Image Pre-training)是一种广泛采用的方法。它通过最大化匹配图像文本之间的余弦相似度,同时最小化不匹配对之间的相似度来实现这一目标[^2]。这种方法的核心在于构建一个联合嵌入空间,在该空间中,图像文本能够被映射到相同的向量表示形式。 #### 二、零样本图像文本生成 ZeroCap 提供了一种零样本图像文本生成的方式,其中 CLIP 被用于逆向任务——从图像生成描述性文本[^1]。具体而言,CLIP 结合 GPT-2 语言模型生成输入图像文字说明。尽管此过程无需额外训练,但它依赖于 CLIP 预训练阶段学到的知识,这些知识来源于大规模网络图像-文本对的数据集。 #### 三、自适应布局-语义融合 PLACE 方法展示了另一种语义对齐方式,特别是在语义图像合成领域。作者提出将布局控制图融入特征空间,并设计了特定的学习目标以增强布局一致性以及提升视觉质量[^3]。这种技术不仅实现了精确的空间定位,还保证了生成图像的内容与其对应的语义标签高度一致。 #### 四、共享条件嵌入空间 为了使文本图像能够在同一条件下交互,某些研究采用了共享条件嵌入策略。例如,通过利用 CLIP 的文本编码器和图像编码器提取各自模态下的嵌入矢量,从而形成统一的隐空间表征[^4]。这种方式允许灵活切换不同类型的条件信号,促进了跨模态间的无缝衔接。 ```python import clip from PIL import Image model, preprocess = clip.load("ViT-B/32") image = preprocess(Image.open("example.jpg")).unsqueeze(0) text = clip.tokenize(["a diagram", "a dog", "a cat"]) with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text) cosine_similarities = (image_features @ text_features.T).softmax(dim=-1) print(cosine_similarities.numpy()) ``` 上述代码片段演示了如何使用 CLIP 计算图像与多个候选短句之间的相似度得分。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值