27、探索万维网:工具与技巧全攻略

探索万维网:工具与技巧全攻略

在当今数字化时代,万维网(World Wide Web)已经成为我们获取信息、沟通交流的重要平台。它仅次于电子邮件,是互联网上最有用的服务之一。万维网是一个由超文本文档和服务组成的巨大网络,通过超文本传输协议(HTTP)提供服务。任何人都可以在网上发布内容,任何联网的计算机用户都能阅读网上的几乎所有内容。在这篇文章中,我们将详细介绍一些常用的网络工具及其使用方法。

1. 万维网基础

在万维网上,我们通常进行的操作是“浏览”,即使用网页浏览器访问网上发布的文件。网页文件通常采用超文本标记语言(HTML)编写,这些网页包含超文本链接,点击链接即可访问其他文件、网页或网页中的特定位置。每个网页都有一个唯一的地址,称为统一资源定位符(URL),它可以指定网页、本地文件以及通过其他互联网服务(如FTP)可用的文档。在指定URL作为参数时,若URL较为复杂,务必使用引号将其括起来,因为URL中可能包含shell保留字符,如“&”,未加引号时,Bash会将其解释为命令的结束。

2. 使用Mozilla浏览器

Mozilla是一款广受欢迎的浏览器,它是Netscape Navigator浏览器的开源版本。许多网站大量使用图形图像,且商业网站通常针对与Netscape兼容的浏览器进行优化,因此Mozilla适合浏览这类网站。
- 启动Mozilla :安装Mozilla后,可在shell中输入“mozilla”启动,也可通过窗口管理器的菜单选择启动。还可以指定URL作为参数启动,若未指定,Mozilla将加载预设的起始页,起始页可自定义。
- 启动默认起始页:

$ mozilla
- 启动指定URL:
$ mozilla http://gutenberg.net/
  • Mozilla窗口介绍 :Mozilla窗口的标题栏显示网页标题和Mozilla名称。顶部的菜单栏包含下拉菜单,可访问主要功能;导航栏包含控制页面导航的按钮,中间的位置框显示当前加载页面的URL,还有搜索、打印等按钮以及指向Mozilla主页的蓝色“M”按钮。窗口的最大区域用于显示网页,底部的状态栏显示当前网页或文档的状态。
  • 基本浏览快捷键 :Mozilla提供了丰富的快捷键,方便用户操作。以下是一些常用的快捷键:
    |操作类型|快捷键|功能|
    | ---- | ---- | ---- |
    |导航| ALT - ← |返回上一个访问的URL|
    |导航| ALT - → |前往历史记录中的下一个URL|
    |导航| CTRL - H |打开浏览器历史记录|
    |导航| ALT - HOME |前往预设的Mozilla起始页|
    |导航| SHIFT - CTRL - L |打开URL|
    |书签| CTRL - B |在新窗口中打开书签文件|
    |书签| CTRL - D |将当前页面添加到书签文件底部|
    |书签| SHIFT - CTRL - D |将页面添加到书签文件的特定位置,并可编辑属性|
    |窗口操作| CTRL - N |打开新的Mozilla窗口|
    |窗口操作| CTRL - W |关闭当前Mozilla窗口|
    |窗口操作| CTRL - Q |退出Mozilla|
    |查看页面| ESC |停止加载当前页面|
    |查看页面| CTRL - R |重新加载当前页面|
    |查看页面| CTRL - U |查看当前页面的HTML源代码|
    |查看页面| CTRL - I |查看当前页面的文件和服务器信息|
    |查看页面| CTRL - - |减小文本大小|
    |查看页面| CTRL - + |增大文本大小|
    |查看页面| CTRL - E |编辑当前页面|
    |查看页面| CTRL - P |打印当前页面|
    |文本选择| CTRL - A |选择页面上的所有文本|
    |文本选择| CTRL - X |剪切所选文本|
    |文本选择| CTRL - C |复制所选文本|
    |文本选择| CTRL - V |粘贴所选文本|
    |文本选择| DEL |删除所选文本|
    |文本选择| CTRL - Z |撤销上一次文本操作|
    |文本选择| CTRL - Y |重做上一次文本操作|
    |文件操作| CTRL - O |打开文件进行查看|
    |文件操作| CTRL - S |将当前页面保存为文件|

  • 创建新窗口 :有两种方法可以创建新的Mozilla窗口。一是中间点击链接,可在新窗口中打开链接;二是使用快捷键 CTRL - N ,打开包含Mozilla起始页的新窗口。

  • 复制链接和电子邮件地址 :在Mozilla中,右键点击链接并选择“复制链接位置”,即可将链接复制到剪贴板;右键点击电子邮件地址并选择“复制电子邮件地址”,可复制电子邮件地址。然后可通过中键点击将其粘贴到其他位置。
  • 搜索网页源代码 :若要搜索网页源代码,可按 CTRL - U 查看源代码,将鼠标指针移至源代码窗口,按 CTRL - F 查找文本,输入要搜索的文本并按回车键,按 CTRL - G 可重复搜索。
3. 使用Lynx浏览器

Lynx是一款古老而强大的文本浏览器,它不显示图形,但非常适合阅读超文本。在许多Linux系统中,Lynx仍然是标准的Web浏览器。
- 启动Lynx :在shell中输入“lynx”即可启动,若定义了起始页,将加载该起始页。也可以指定URL作为参数打开特定页面。

$ lynx http://www.whitehouse.gov/
  • 基本浏览快捷键 :Lynx也提供了一系列快捷键,方便用户在文本界面中浏览网页。以下是一些常用的快捷键:
    |操作类型|快捷键|功能|
    | ---- | ---- | ---- |
    |文档内导航| |在当前文档的链接中向上移动|
    |文档内导航| |在当前文档的链接中向下移动|
    |文档内导航| CTRL - N |移动到当前文档的下一行|
    |文档内导航| CTRL - P |移动到当前文档的上一行|
    |文档内导航| PgDn CTRL - F SPACEBAR + |向下滚动到当前文档的下一个屏幕|
    |文档内导航| PgUp CTRL - B - |向上滚动到当前文档的上一个屏幕|
    |文档内导航| CTRL - A |移动到当前文档的开头|
    |文档内导航| CTRL - E |移动到当前文档的末尾|
    |文档间导航| g |前往URL,Lynx会提示输入要前往的URL,按 可插入上一次访问的URL并编辑|
    |文档间导航| G |通过编辑当前URL前往新的URL|
    |文档间导航| RET |跟随当前光标选择的超链接|
    |文档间导航| |返回上一个文档|
    |文档间导航| DEL |查看本次会话中访问的所有文档的历史记录|
    |文档间导航| Z |停止下载当前页面|
    |信息和帮助| H ? |显示Lynx帮助文件|
    |信息和帮助| K |显示完整的按键命令列表|
    |信息和帮助| = |显示当前文档的信息,按 返回上一个文档|
    |信息和帮助| \ |在渲染的HTML和源代码显示之间切换|
    |信息和帮助| BKSP |显示当前会话中访问的链接历史记录|
    |退出Lynx| ! |临时退出到shell,按 CTRL - D 返回|
    |退出Lynx| q |退出浏览并退出程序,Lynx会要求确认|
    |退出Lynx| Q CTRL - D |不确认直接退出浏览并退出程序|
  • 保存网页 :可以使用“Print to local file”选项保存网页的渲染内容或HTML源代码。
    • 保存渲染内容:按 P 打开打印选项页面,选择“Print to local file”并按回车键。
    • 保存HTML源代码:按 \ 查看源代码,按 p 打开打印选项页面,选择“Print to local file”。
  • 列出页面中的所有链接 :在浏览页面时,按 L 可查看当前页面包含的所有链接的列表,该列表以HTML格式显示,每个链接都是可点击的。这对于查看包含“隐藏”链接的页面很有用,也可将链接页面保存为HTML注释列表。
  • 将网页文本输出到标准输出 :使用 lynx -dump 选项可将指定URL的文本输出到标准输出,可通过管道将其传递给 less 进行查看,或使用重定向将其保存到文件。还可以使用 -underscore 选项将斜体文本以下划线形式输出,使用 -nolist 选项只返回“纯文本”,使用 -width 选项指定输出的行宽。
    • 查看网页文本:
$ lynx -dump http://www.sc.edu/fitzgerald/winterd/winter.html | less
- 保存纯文本到文件:
$ lynx -dump -nolist -underscore http://sc.edu/fitzgerald/winterd/winter.html > winter_dreams
- 打印纯文本:
$ lynx -dump -width=40 -nolist -underscore http://sc.edu/fitzgerald/winterd/winter.html | enscript -B -Eetext -f "Times-Roman12"
  • 查看需要授权的网站 :若要查看需要注册的网站,可使用 lynx -auth 选项,指定用户名和密码,用户名和密码用冒号分隔。
$ lynx -auth=guest:guest http://www.example.com/archive/
- 保存需要授权的网站内容:
$ lynx -dump -number_links -auth=guest:guest http://www.example.com/archive/ > mynews
  • 查看HTML代码渲染效果 :若要查看HTML源代码的渲染效果,可选择源代码,使用 lynx -stdin 从标准输入读取起始页,将所选内容粘贴到运行Lynx的终端,按 CTRL - D 结束输入,Lynx将渲染并显示HTML代码。若要立即退出,可包含 -dump 选项。
  • 指定键绑定 :可以使用 -emacskeys 选项启用Emacs风格的键绑定,使用 -vikeys 选项启用Vi风格的键绑定。
$ lynx -vikeys http://nostarch.com/
  • 使用鼠标浏览 :使用 -use_mouse 选项可在Lynx中使用鼠标,左键点击链接可跟随链接,右键点击可返回上一个页面。
$ lynx -use_mouse /usr/share/doc
4. 在Emacs中访问Web

在Emacs中可以使用w3-mode访问Web,虽然速度较慢,但具有一定的实用性。
- 启动w3-mode :在Emacs中按 ALT - X w3 可加载w3-mode。
- 打开URL :按 CTRL - O ,在迷你缓冲区中输入要打开的URL,留空则打开w3-mode主页。中键点击链接可在新缓冲区中打开链接。
- 打开指定URL:

$ CTRL - O http://emacs.org/
- 打开w3-mode主页:
$ CTRL - O
  • 特殊命令 :在w3-mode中,有一些特殊的命令,方便用户操作。以下是一些常用的命令:
    |快捷键|功能|
    | ---- | ---- |
    | RET |跟随当前光标处的链接|
    | SPACEBAR |在当前缓冲区中向下滚动|
    | BKSP |在当前缓冲区中向上滚动|
    | ALT - TAB |将当前文档的URL插入到另一个缓冲区|
    | ALT - S |将文档保存到本地磁盘,可选择HTML源代码、格式化文本、LaTEX源代码或二进制格式|
    | CTRL - O |打开URL|
    |B|在访问的URL历史记录堆栈中向后移动|
    |F|在访问的URL历史记录堆栈中向前移动|
    |i|查看当前缓冲区中文档的信息,信息将在名为“Document Information”的新缓冲区中打开|
    |I|查看当前缓冲区中当前光标处链接的信息,信息将在名为“Document Information”的新缓冲区中打开|
    |k|将当前缓冲区中文档的URL放入剪贴板,并使其成为X选择,方便复制和粘贴到其他缓冲区或应用程序|
    |K|将当前缓冲区中当前光标处链接的URL放入剪贴板,并使其成为X选择,方便复制和粘贴到其他缓冲区或应用程序|
    |l|移动到最后访问的缓冲区|
    |o|打开本地文件|
    |q|退出w3-mode,关闭当前缓冲区,并前往最后访问的缓冲区|
    |r|重新加载当前文档|
    |s|查看当前缓冲区中文档的HTML源代码,将在以URL命名的新缓冲区中打开|
    |S|查看当前缓冲区中当前光标处链接的HTML源代码,将在以URL命名的新缓冲区中打开|
    |v|显示当前文档的URL,URL将显示在迷你缓冲区中|
    |V|显示当前缓冲区中当前光标处链接的URL,URL将显示在迷你缓冲区中|
5. 查看Web图像

通常,我们在浏览器中打开图像来查看,但也可以不通过浏览器查看Web图像。
- 使用Lynx查看图像 :将图像的URL作为参数传递给Lynx,Lynx将使用配置的“辅助”应用程序显示图像。

$ lynx ftp://garbo.uwasa.fi/garbo-gifs/garbo01.gif
  • 使用ImageMagick和Libwww-perl查看图像 :若只想查看Web上的图像文件,可使用“display”命令,它使用libwww-perl包中的GET工具获取URL。
$ display http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg
- 自动刷新图像:使用`-remote`选项可在已运行的显示窗口中打开图像,结合`watch`命令可自动刷新图像。
$ display http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg &
$ watch -n 30 'display -remote http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg'
6. 从Web获取文件

使用wget可以从Web下载文件,它支持从http或ftp URL检索文件,能保留文件的原始时间戳,比浏览器更小、更快,还能显示下载进度。
- 下载单个文件 :将文件的URL作为参数传递给wget,可下载文件到当前工作目录,文件名与原始URL相同。若下载中断,可使用 -c 选项从断点处继续下载。
- 下载文件:

$ wget ftp://garbo.uwasa.fi/garbo-gifs/garbo20.gif
- 断点续传:
$ wget -c ftp://garbo.uwasa.fi/garbo-gifs/garbo20.gif
  • 归档整个网站 :使用 wget -m 选项可归档整个网站,它会尽可能保存文件的原始时间戳,并递归下载所有内容。可使用 -t 选项指定错误发生时的重试次数,使用 -o 选项将进度日志写入文件。若要继续中断的归档,可使用 -nc 选项避免重复下载已有的文件。
    • 归档网站:
$ wget -m -t3 http://www.example.org/ -o mirror.log
- 继续归档:
$ wget -nc -m -t3 http://www.example.org/ -o mirror.log
  • 归档部分网站 :使用 -I 选项指定要归档的目录的绝对路径名,可只归档网站的部分内容。还可以使用 -r -l --no-parent 选项控制下载范围,使用 -A 选项指定要接受的文件扩展名,使用 -R 选项指定要拒绝的文件扩展名。
$ wget -m -t3 -I /~jim http://example.edu/~jim/ -o jim.log
$ wget -m -r -l1 --no-parent -A.gz http://www.example.org/~jim/papers/
  • 读取网页头信息 :使用 -S 选项可在检索文件时输出Web服务器的响应头信息,这些信息包含服务器的系统日期、服务器和操作系统软件的名称和版本等。
$ wget -S http://google.com/
7. 记录浏览器历史

browser-history工具可帮助用户记录浏览历史,它比许多浏览器自带的历史功能更强大。
- 启动browser-history :在 .xsession 文件中添加“browser-history &”,可在每次启动X时自动启动该工具。
- 查看浏览器历史 :浏览器历史记录保存在用户主目录下的 .browser-history 隐藏目录中,当前周的历史记录文件名为“history-log.html”,可使用Web浏览器查看。过去的历史记录文件按年份、月份和周命名,并进行了压缩,大多数浏览器可直接打开压缩文件。

$ lynx ~/.browser-history/history-log.html
  • 搜索浏览器历史 :使用 zgrep 可搜索旧的浏览器历史记录,可根据URL或标题进行搜索。
$ zgrep Confessions ~/.browser-history/history-log-2000*
8. 设置起始页

起始页是浏览器在无URL参数启动时自动加载的页面,也可以是点击浏览器“主页”按钮时加载的页面。
- Mozilla起始页设置 :在Mozilla的“Preferences…”菜单中定义主页,可将默认起始页更改为自定义的URL。
1. 从菜单栏的“Edit”菜单中选择“Preferences…”。
2. 左键点击“Location”框。
3. 将内容替换为要设置的起始页URL,如“http://localhost/start”。
4. 左键点击“OK”按钮。
- Lynx起始页设置 :Lynx的起始页在 /etc/lynx.cfg 文件中定义为“STARTFILE”,可编辑该文件将起始页更改为指定URL。需要超级用户权限才能编辑该文件。

STARTFILE:http://localhost/start/
9. 列出文本中的URL

可以使用grep或sed命令列出文本中的URL,可处理Web页面的HTML源代码、文本内容或任何文本文件。
- 使用grep列出URL :使用 grep -o 选项和正则表达式匹配URL,可将文本文件作为第二个参数进行搜索。
- 列出文件中的URL:

$ grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\)' /etc/lynx.cfg
- 列出网页文本中的URL:
$ lynx -dump -nolist http://news.example.com/ | grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\)'
- 列出网页源代码中的URL:
$ wget -q -O - http://news.example.com/ | grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\)'
  • 使用sed列出URL :使用 sed -n 和正则表达式匹配URL,可将文本文件作为参数进行搜索。
    • 列出文件中的URL:
$ sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\).*/\1/p' /etc/lynx.cfg
- 列出网页文本中的URL:
$ lynx -dump -nolist http://news.example.com/ | sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\).*/\1/p'
- 列出网页源代码中的URL:
$ wget -q -O - http://news.example.com/ | sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^  ,;\t<">]*[^  .,;\t<">]\).*/\1/p'
10. 编写HTML

HTML是Web的标记语言,可使用任何文本编辑器编辑HTML文件。以下是一些专门用于编写HTML的工具和方法。
- 使用Mozilla Composer :Mozilla Composer是一款流行的所见即所得HTML编辑器,在Mozilla中可从“Window”菜单选择或按 CTRL - 4 启动。
1. 启动Mozilla:

$ mozilla
2. 按`CTRL - 4`。
  • 使用Bluefish :Bluefish是一款功能齐全、用户友好的HTML编辑器,具有语法高亮功能,可同时打开500多个文档。
$ bluefish
  • 使用GNU Emacs的html-mode :Emacs的html-mode可方便地编辑HTML文件,按 ALT - X html-mode 可启动该模式。该模式支持插入“骨架”结构,Emacs的帮助文本中包含简短的HTML编写教程,按 CTRL - H f html-mode 可查看教程。
  • 添加图像标签参数 :使用imgsizer工具可自动为HTML文件中的图像标签添加HEIGHT和WIDTH参数,提高页面的可用性。
$ imgsizer index.html
11. 转换HTML

可以将HTML文件转换为其他格式,如纯文本、PostScript或PDF。
- 使用Unhtml去除HTML格式 :Unhtml可简单地去除文本中的HTML格式,从标准输入读取文本(或指定文件名),将输出写入标准输出。
- 查看去除标签后的文件:

$ unhtml index.html | less
- 保存去除标签后的文件:
$ unhtml index.html > index.txt
  • 使用Lynx保存为格式化文本 :使用 lynx -dump 选项可将HTML文件或URL保存为格式化文本,保留斜体和超链接信息。可将输出通过管道传递给其他工具进行处理,如打印。
$ lynx -dump -underscore -nolist http://example.com/essay/ | pr -d | enscript -B
  • 使用Html2ps转换为PostScript :Html2ps可将HTML文件转换为PostScript,可用于打印包含图形和图像的网页,或转换为PDF。使用 -u 选项可下划线显示超文本链接的锚文本,使用 -o 选项指定输出文件名。
    • 打印PostScript副本:
$ html2ps http://example.com/essay/ | lpr
- 保存为PostScript文件:
$ html2ps -u -o submission.ps http://example.com/essay/
12. 验证HTML

使用weblint工具可验证HTML文件的基本结构和语法,输出文件存在的问题,如IMG元素是否缺少ALT描述、嵌套元素是否重叠等。

$ weblint index.html
13. 分析Web流量

若拥有网站,可通过分析Web流量了解哪些页面受欢迎、访问者是谁、访问时间和来源。可从服务器获取Web日志文件,使用工具进行分析。
- 使用Analog分析日志 :Analog是一款流行的Web日志分析工具,可生成全面的报告,包括搜索引擎使用的关键词、引用页面、访问者的组织和操作系统、网站的热门目录和文件等。
- 查看日志分析结果:

$ analog ~/web/logs/2005/www.20050408.gz | lynx -stdin
- 保存分析结果:
$ analog ~/web/logs/2005/* > analog.html
  • 使用grep和cut分析日志 :若日志文件遵循标准格式,可使用grep和cut命令提取所需字段,如统计访问特定页面的唯一域名数量。
$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l
14. 使用其他Web浏览器

除了Mozilla和Lynx,还有许多其他的Web浏览器可供选择。以下是一些常见的浏览器:
|浏览器名称|特点|
| ---- | ---- |
|Amaya|由万维网联盟开发,既是图形化Web浏览器,又是所见即所得的HTML编辑器|
|Arena|由万维网联盟开发,是一款非常紧凑、符合HTML 3.0标准的X浏览器|
|Dillo|快速、小巧的图形化Web浏览器|
|Express|在安装了gnome的X环境中运行的小型浏览器|
|Galeon|基于Mozilla的gnome浏览器|
|Gzilla|处于早期开发阶段的图形化X浏览器|
|Links|较新的文本浏览器,一些用户更喜欢它而不是Lynx|
|Skipstone|基于Mozilla的图形化浏览器,但去除了许多多余组件|
|W3m|较新的文本浏览器,支持表格和独特的自由形式光标控制|

通过以上介绍,我们了解了多种访问Web、处理HTML文件和分析Web流量的工具和方法。选择适合自己需求的工具,可提高在Web上的工作效率和体验。希望这些内容对你有所帮助!

探索万维网:工具与技巧全攻略

15. 验证 HTML

在网页开发中,确保 HTML 文件的结构和语法正确至关重要。使用 weblint 工具可以帮助我们完成这一任务。

操作步骤如下:

$ weblint index.html

执行上述命令后, weblint 会检查 index.html 文件,并将发现的问题输出到标准输出。例如,它会指出 IMG 元素是否缺少 ALT 描述,或者嵌套元素是否存在重叠等问题。

16. 分析 Web 流量

对于拥有网站的人来说,分析 Web 流量可以帮助他们了解网站的使用情况,例如哪些页面受欢迎、访问者是谁、访问时间和来源等。以下是两种常见的分析方法:

16.1 使用 Analog 分析日志

Analog 是一款广泛使用的 Web 日志分析工具,它可以生成全面的报告,涵盖多个方面的信息。

操作步骤如下:
- 查看日志分析结果:

$ analog ~/web/logs/2005/www.20050408.gz | lynx -stdin

该命令会读取指定的日志文件,并将分析结果以 HTML 格式输出到标准输出,然后通过 lynx 浏览器显示出来。
- 保存分析结果:

$ analog ~/web/logs/2005/* > analog.html

此命令会对指定目录下的所有日志文件进行分析,并将结果保存到 analog.html 文件中。

生成的报告内容如下表所示:
| 报告内容 | 说明 |
| ---- | ---- |
| 搜索关键词 | 人们在搜索引擎中用于找到您网站的热门词汇 |
| 推荐页面 | 链接到您网站的页面 |
| 访问者组织 | 访问您网站的计算机所属的主要组织 |
| 操作系统 | 访问者使用的操作系统 |
| 热门目录 | 网站中最受欢迎的目录 |
| 热门文件 | 网站中最受欢迎的文件 |

16.2 使用 grep 和 cut 分析日志

如果日志文件遵循标准格式,我们可以使用 grep cut 命令来提取所需的信息。

操作步骤如下:

$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l

该命令会统计访问您网站评论页面的唯一域名数量。具体流程如下:
1. grep reviews ~/private_html/logs/2006/* :在指定目录下的所有日志文件中搜索包含 reviews 的行。
2. cut -f2 -d':' :以冒号为分隔符,提取每行的第二个字段。
3. cut -f1 -d' ' :以空格为分隔符,提取每行的第一个字段。
4. sort -u :对提取的字段进行排序并去除重复项。
5. wc -l :统计唯一域名的数量。

如果日志文件是压缩的,可以使用 zgrep grep -z 命令。

17. 使用其他 Web 浏览器

除了前面介绍的 Mozilla 和 Lynx 浏览器,还有许多其他的 Web 浏览器可供选择。以下是一些常见浏览器的介绍:
| 浏览器名称 | 特点 | 安装信息 |
| ---- | ---- | ---- |
| Amaya | 由万维网联盟开发,既是图形化 Web 浏览器,又是所见即所得的 HTML 编辑器 | DEB: amaya
RPM: amaya
WWW: http://www.w3.org/Amaya/ |
| Arena | 由万维网联盟开发,是一款非常紧凑、符合 HTML 3.0 标准的 X 浏览器 | RPM: arena
WWW: http://www.w3.org/Arena/ |
| Dillo | 快速、小巧的图形化 Web 浏览器 | DEB: dillo
RPM: dillo
WWW: http://www.dillo.org/ |
| Express | 在安装了 gnome 的 X 环境中运行的小型浏览器 | WWW: http://tinyurl.com/32p4d |
| Galeon | 基于 Mozilla 的 gnome 浏览器 | DEB: galeon - common
galeon
RPM: galeon
WWW: http://galeon.sourceforge.net/ |
| Gzilla | 处于早期开发阶段的图形化 X 浏览器 | RPM: gzilla
WWW: http://www.levien.com/gzilla/ |
| Links | 较新的文本浏览器,一些用户更喜欢它而不是 Lynx | DEB: links
RPM: links
WWW: http://artax.karlin.mff.cuni.cz/~mikulas/links/ |
| Skipstone | 基于 Mozilla 的图形化浏览器,但去除了许多多余组件 | RPM: skipstone
WWW: http://www.muhri.net/skipstone/ |
| W3m | 较新的文本浏览器,支持表格和独特的自由形式光标控制 | DEB: w3m
RPM: w3m
WWW: http://w3m.sourceforge.net/ |

18. 综合应用示例

为了更好地理解这些工具和技巧的实际应用,我们来看一个综合示例。假设我们要创建一个个人网站,包含多个页面和图片,并且需要对网站进行维护和分析。

以下是一个简单的流程图,展示了整个过程:

graph LR
    A[规划网站内容] --> B[编写 HTML 文件]
    B --> C[使用 Mozilla Composer 或 Bluefish 编辑]
    C --> D[添加图像标签参数]
    D --> E[使用 imgsizer 工具]
    E --> F[验证 HTML 文件]
    F --> G[使用 weblint 工具]
    G --> H[转换 HTML 格式]
    H --> I[使用 Lynx 或 Html2ps]
    I --> J[部署网站]
    J --> K[记录浏览器历史]
    K --> L[使用 browser - history 工具]
    L --> M[分析 Web 流量]
    M --> N[使用 Analog 或 grep 和 cut]

具体操作步骤如下:
1. 规划网站内容 :确定网站的主题、页面结构和所需的图片。
2. 编写 HTML 文件 :使用文本编辑器或专门的 HTML 编辑工具(如 Mozilla Composer、Bluefish 或 Emacs 的 html - mode)编写 HTML 文件。

# 使用 Bluefish 编辑
$ bluefish
  1. 添加图像标签参数 :为了提高页面的可用性,使用 imgsizer 工具为图像标签添加 HEIGHT WIDTH 参数。
$ imgsizer index.html
  1. 验证 HTML 文件 :使用 weblint 工具检查 HTML 文件的结构和语法。
$ weblint index.html
  1. 转换 HTML 格式 :根据需要,将 HTML 文件转换为其他格式,如纯文本或 PostScript。
# 使用 Lynx 保存为格式化文本
$ lynx -dump -underscore -nolist http://example.com/essay/ | pr -d | enscript -B
# 使用 Html2ps 转换为 PostScript
$ html2ps -u -o submission.ps http://example.com/essay/
  1. 部署网站 :将编写好的 HTML 文件和相关资源上传到服务器。
  2. 记录浏览器历史 :使用 browser - history 工具记录用户的浏览历史。
# 在 .xsession 文件中添加以下内容
browser - history &
  1. 分析 Web 流量 :定期分析网站的访问日志,了解用户的行为和需求。
# 使用 Analog 分析日志
$ analog ~/web/logs/2005/* > analog.html
# 使用 grep 和 cut 统计唯一域名数量
$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l

通过以上步骤,我们可以创建一个功能完善、易于维护的个人网站,并通过分析流量不断优化网站的性能和用户体验。

总之,万维网提供了丰富的资源和工具,通过合理使用这些工具和技巧,我们可以更加高效地访问 Web、处理 HTML 文件和分析 Web 流量。希望本文介绍的内容能够帮助你在万维网的世界中更加得心应手。

训练数据保存为deep_convnet_params.pkl,UI使用wxPython编写。卷积神经网络(CNN)是一种专门针对图像、视频等结构化数据设计的深度学习模型,在计算机视觉、语音识别、自然语言处理等多个领域有广泛应用。其核心设计理念源于对生物视觉系统的模拟,主要特点包括局部感知、权重共享、多层级抽象以及空间不变性。 **1. 局部感知卷积操作** 卷积层是CNN的基本构建块,使用一组可学习的滤波器对输入图像进行扫描。每个滤波器在图像上滑动,以局部区域内的像素值滤波器权重进行逐元素乘法后求和,生成输出值。这一过程能够捕获图像中的边缘、纹理等局部特征。 **2. 权重共享** 同一滤波器在整个输入图像上保持相同的权重。这显著减少了模型参数数量,增强了泛化能力,并体现了对图像平移不变性的内在假设。 **3. 池化操作** 池化层通常紧随卷积层之后,用于降低数据维度并引入空间不变性。常见方法有最大池化和平均池化,它们可以减少模型对微小位置变化的敏感度,同时保留重要特征。 **4. 多层级抽象** CNN通常包含多个卷积和池化层堆叠在一起。随着网络深度增加,每一层逐渐提取更复杂、更抽象的特征,从底层识别边缘、角点,到高层识别整个对象或场景,使得CNN能够从原始像素数据中自动学习到丰富的表示。 **5. 激活函数正则化** CNN中使用非线性激活函数来引入非线性表达能力。为防止过拟合,常采用正则化技术,如L2正则化和Dropout,以增强模型的泛化性能。 **6. 应用场景** CNN在诸多领域展现出强大应用价值,包括图像分类、目标检测、语义分割、人脸识别、图像生成、医学影像分析以及自然语言处理等任务。 **7. 发展演变** CNN的概念起源于20世纪80年代,其影响力在硬件加速和大规模数据集出现后真正显现。经典模型如LeNet-5用于手写数字识别,而AlexNet、VGG、GoogLeNet、ResNet等现代架构推动了CNN技术的快速发展。如今,CNN已成为深度学习图像处理领域的基石,并持续创新。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
内容概要:本文介绍了一种基于CEEMDAN-BiLSTM的中短期天气预测模型,通过将完全集合经验模态分解自适应噪声(CEEMDAN)双向长短期记忆网络(BiLSTM)相结合,实现对复杂气象时间序列的高精度预测。首先利用CEEMDAN对原始气象数据进行多尺度分解,获得多个本征模态函数(IMF)分量和残差,有效解决模式混叠噪声干扰问题;随后对各IMF分量分别构建BiLSTM模型进行独立预测,充分发挥其对前后时序依赖的建模能力;最后通过集成重构输出最终预测结果。文中还包含了数据预处理、特征提取、模型评估可视化等完整流程,并提供了MATLAB实现的部分代码示例。该方法显著提升了天气预测的准确性鲁棒性,适用于多类气象要素的中短期趋势预测。; 适合人群:具备一定机器学习和时间序列分析基础,从事气象、环境、能源等领域研究或工程应用的研发人员、高校研究生及数据科学家。; 使用场景及目标:①应用于温度、风速、降水等气象变量的中短期精准预测;②解决传统模型在非线性、多尺度气象信号建模中的局限性;③构建智能气象预测系统,服务于电力调度、灾害预警、智慧农业等实际业务场景。; 阅读建议:建议结合MATLAB代码实践操作,深入理解CEEMDAN分解机制BiLSTM建模细节,重点关注数据预处理、模型参数调优结果集成策略,同时可扩展至多变量联合预测以提升应用价值。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值