uBlockOrigin-HUGE-AI-Blocklist高级功能:如何结合正则表达式实现精准关键词拦截
你是否在搜索引擎中频繁遇到AI生成内容?想要精准拦截特定关键词却不知从何下手?本文将详细介绍如何利用uBlockOrigin-HUGE-AI-Blocklist项目的高级功能,结合正则表达式实现对AI生成内容的精准拦截,让你的搜索结果更加纯净。
项目简介
uBlockOrigin-HUGE-AI-Blocklist是一个手动整理的大型AI生成内容网站拦截列表,包含1000多个网站,旨在通过uBlock Origin或uBlacklist清理图片搜索引擎(Google Search、DuckDuckGo和Bing)中的AI生成内容。该项目还支持移动设备(iOS、iPadOS、Android)以及pihole/adguard(通过Hosts文件)。
官方文档:README.md
主要拦截列表:list.txt
uBlacklist专用列表:list_uBlacklist.txt
正则表达式基础
正则表达式(Regular Expression,简称Regex)是一种用于匹配文本模式的工具。在拦截AI生成内容时,正则表达式可以帮助我们精准匹配包含特定关键词的内容。
常用正则表达式语法
| 语法 | 说明 | 示例 |
|---|---|---|
* | 匹配前面的字符零次或多次 | ai* 匹配 "a"、"ai"、"aii" 等 |
+ | 匹配前面的字符一次或多次 | ai+ 匹配 "ai"、"aii" 等,但不匹配 "a" |
? | 匹配前面的字符零次或一次 | ai? 匹配 "a" 或 "ai" |
. | 匹配任意单个字符 | a.i 匹配 "aai"、"abi"、"aci" 等 |
[] | 匹配括号内的任意一个字符 | [Aa]i 匹配 "Ai" 或 "ai" |
() | 分组 | (ai\|AI) 匹配 "ai" 或 "AI" |
\| | 或 | ai\|AI 匹配 "ai" 或 "AI" |
^ | 匹配字符串的开始 | ^ai 匹配以 "ai" 开头的字符串 |
$ | 匹配字符串的结束 | ai$ 匹配以 "ai" 结尾的字符串 |
\s | 匹配空白字符 | ai\s 匹配 "ai " |
\w | 匹配字母、数字或下划线 | ai\w 匹配 "ai1"、"ai_" 等 |
uBlock Origin中的正则表达式应用
在uBlock Origin中,我们可以通过自定义过滤器来实现基于正则表达式的关键词拦截。
基本语法
uBlock Origin的过滤器语法支持使用正则表达式,格式如下:
google.com,duckduckgo.com,bing.com##div>a:has-text(/正则表达式/i):upward(div):style(opacity:0!important)
其中,/正则表达式/i中的i表示不区分大小写。
示例:拦截包含"AI生成"的内容
google.com,duckduckgo.com,bing.com##div>a:has-text(/ai\s*生成/i):upward(div):style(opacity:0!important)
这个过滤器会在Google、DuckDuckGo和Bing搜索引擎中,拦截所有包含"AI生成"、"ai生成"、"AI 生成"等变体的搜索结果。
预设关键词过滤器
项目提供了一些预设的关键词过滤器,你可以在README.md的"Extended Filtering"部分找到它们。例如:
google.com,duckduckgo.com,bing.com##div>a:has-text(/Stable Diffusion/i):upward(div):style(opacity:0!important)
google.com,duckduckgo.com,bing.com##div>a:has-text(/AI Art/i):upward(div):style(opacity:0!important)
google.com,duckduckgo.com,bing.com##div>a:has-text(/Generative AI/i):upward(div):style(opacity:0!important)
uBlacklist中的正则表达式应用
uBlacklist同样支持使用正则表达式来过滤搜索结果,其语法与uBlock Origin略有不同。
基本语法
在uBlacklist中,使用正则表达式的格式如下:
/regex/
示例:拦截包含AI生成关键词的网站
/(generative)? *AI *(art|generated|illustration)?/i
这个正则表达式会匹配包含"AI art"、"Generative AI"、"AI generated"等关键词的网站。
预设正则表达式
项目提供的预设uBlacklist正则表达式可以在README.md中找到,例如:
/(ada)?Lo(RA|Con) *(model)?|(stable)?.*diffusion|midjourney|niji|sd *(xl|1.5)|(text|txt|img|image) *(to|2) *(image|img|video)/i
高级技巧:组合多个关键词
有时我们需要同时拦截多个关键词,这时可以使用正则表达式的|操作符来组合多个模式。
示例:同时拦截"AI"和"机器学习"
在uBlock Origin中:
google.com,duckduckgo.com,bing.com##div>a:has-text(/(ai|机器学习)/i):upward(div):style(opacity:0!important)
在uBlacklist中:
/(ai|机器学习)/i
示例:拦截特定模式的URL
如果你想拦截所有包含"ai-generator"的URL,可以使用以下过滤器:
在uBlock Origin中:
*##a[href*="ai-generator"]:upward(li):remove()
在uBlacklist中:
*://*/*ai-generator*
如何添加自定义过滤器
在uBlock Origin中添加
- 点击uBlock Origin图标,打开仪表板。
- 切换到"我的过滤器"选项卡。
- 粘贴你的自定义过滤器。
- 点击"应用更改"按钮。
在uBlacklist中添加
- 打开uBlacklist的选项页面。
- 在文本框中输入你的自定义过滤器。
- 点击"保存"按钮。
注意事项
- 性能影响:过于复杂的正则表达式可能会影响浏览器性能,建议保持正则表达式简洁高效。
- 误拦截:正则表达式可能会误拦截一些非AI生成的内容,你可以通过README.md中介绍的"Allowlisting sites"方法来允许特定网站。
- 定期更新:AI生成内容的网站和关键词不断变化,建议定期更新拦截列表。项目的主要拦截列表是list.txt,uBlacklist专用列表是list_uBlacklist.txt。
总结
通过结合uBlockOrigin-HUGE-AI-Blocklist和正则表达式,我们可以实现对AI生成内容的精准拦截。无论是简单的关键词匹配还是复杂的模式识别,正则表达式都能为我们提供强大的过滤能力。希望本文介绍的方法能帮助你打造更纯净的搜索体验。
如果你有新的关键词或网站需要拦截,可以通过项目的贡献指南README.md来提交PR或issue,共同完善这个拦截列表。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



