探索万维网:工具与技巧全攻略
在当今数字化时代,万维网(World Wide Web)已经成为我们获取信息、沟通交流的重要平台。它仅次于电子邮件,是互联网上最有用的服务之一。万维网是一个由超文本文档和服务组成的巨大网络,通过超文本传输协议(HTTP)提供服务。任何人都可以在网上发布内容,任何联网的计算机用户都能阅读网上的几乎所有内容。在这篇文章中,我们将详细介绍一些常用的网络工具及其使用方法。
1. 万维网基础
在万维网上,我们通常进行的操作是“浏览”,即使用网页浏览器访问网上发布的文件。网页文件通常采用超文本标记语言(HTML)编写,这些网页包含超文本链接,点击链接即可访问其他文件、网页或网页中的特定位置。每个网页都有一个唯一的地址,称为统一资源定位符(URL),它可以指定网页、本地文件以及通过其他互联网服务(如FTP)可用的文档。在指定URL作为参数时,若URL较为复杂,务必使用引号将其括起来,因为URL中可能包含shell保留字符,如“&”,未加引号时,Bash会将其解释为命令的结束。
2. 使用Mozilla浏览器
Mozilla是一款广受欢迎的浏览器,它是Netscape Navigator浏览器的开源版本。许多网站大量使用图形图像,且商业网站通常针对与Netscape兼容的浏览器进行优化,因此Mozilla适合浏览这类网站。
-
启动Mozilla
:安装Mozilla后,可在shell中输入“mozilla”启动,也可通过窗口管理器的菜单选择启动。还可以指定URL作为参数启动,若未指定,Mozilla将加载预设的起始页,起始页可自定义。
- 启动默认起始页:
$ mozilla
- 启动指定URL:
$ mozilla http://gutenberg.net/
- Mozilla窗口介绍 :Mozilla窗口的标题栏显示网页标题和Mozilla名称。顶部的菜单栏包含下拉菜单,可访问主要功能;导航栏包含控制页面导航的按钮,中间的位置框显示当前加载页面的URL,还有搜索、打印等按钮以及指向Mozilla主页的蓝色“M”按钮。窗口的最大区域用于显示网页,底部的状态栏显示当前网页或文档的状态。
-
基本浏览快捷键 :Mozilla提供了丰富的快捷键,方便用户操作。以下是一些常用的快捷键:
|操作类型|快捷键|功能|
| ---- | ---- | ---- |
|导航|ALT - ←|返回上一个访问的URL|
|导航|ALT - →|前往历史记录中的下一个URL|
|导航|CTRL - H|打开浏览器历史记录|
|导航|ALT - HOME|前往预设的Mozilla起始页|
|导航|SHIFT - CTRL - L|打开URL|
|书签|CTRL - B|在新窗口中打开书签文件|
|书签|CTRL - D|将当前页面添加到书签文件底部|
|书签|SHIFT - CTRL - D|将页面添加到书签文件的特定位置,并可编辑属性|
|窗口操作|CTRL - N|打开新的Mozilla窗口|
|窗口操作|CTRL - W|关闭当前Mozilla窗口|
|窗口操作|CTRL - Q|退出Mozilla|
|查看页面|ESC|停止加载当前页面|
|查看页面|CTRL - R|重新加载当前页面|
|查看页面|CTRL - U|查看当前页面的HTML源代码|
|查看页面|CTRL - I|查看当前页面的文件和服务器信息|
|查看页面|CTRL - -|减小文本大小|
|查看页面|CTRL - +|增大文本大小|
|查看页面|CTRL - E|编辑当前页面|
|查看页面|CTRL - P|打印当前页面|
|文本选择|CTRL - A|选择页面上的所有文本|
|文本选择|CTRL - X|剪切所选文本|
|文本选择|CTRL - C|复制所选文本|
|文本选择|CTRL - V|粘贴所选文本|
|文本选择|DEL|删除所选文本|
|文本选择|CTRL - Z|撤销上一次文本操作|
|文本选择|CTRL - Y|重做上一次文本操作|
|文件操作|CTRL - O|打开文件进行查看|
|文件操作|CTRL - S|将当前页面保存为文件| -
创建新窗口 :有两种方法可以创建新的Mozilla窗口。一是中间点击链接,可在新窗口中打开链接;二是使用快捷键
CTRL - N,打开包含Mozilla起始页的新窗口。 - 复制链接和电子邮件地址 :在Mozilla中,右键点击链接并选择“复制链接位置”,即可将链接复制到剪贴板;右键点击电子邮件地址并选择“复制电子邮件地址”,可复制电子邮件地址。然后可通过中键点击将其粘贴到其他位置。
-
搜索网页源代码
:若要搜索网页源代码,可按
CTRL - U查看源代码,将鼠标指针移至源代码窗口,按CTRL - F查找文本,输入要搜索的文本并按回车键,按CTRL - G可重复搜索。
3. 使用Lynx浏览器
Lynx是一款古老而强大的文本浏览器,它不显示图形,但非常适合阅读超文本。在许多Linux系统中,Lynx仍然是标准的Web浏览器。
-
启动Lynx
:在shell中输入“lynx”即可启动,若定义了起始页,将加载该起始页。也可以指定URL作为参数打开特定页面。
$ lynx http://www.whitehouse.gov/
-
基本浏览快捷键
:Lynx也提供了一系列快捷键,方便用户在文本界面中浏览网页。以下是一些常用的快捷键:
|操作类型|快捷键|功能|
| ---- | ---- | ---- |
|文档内导航|↑|在当前文档的链接中向上移动|
|文档内导航|↓|在当前文档的链接中向下移动|
|文档内导航|CTRL - N|移动到当前文档的下一行|
|文档内导航|CTRL - P|移动到当前文档的上一行|
|文档内导航|PgDn、CTRL - F、SPACEBAR、+|向下滚动到当前文档的下一个屏幕|
|文档内导航|PgUp、CTRL - B、-|向上滚动到当前文档的上一个屏幕|
|文档内导航|CTRL - A|移动到当前文档的开头|
|文档内导航|CTRL - E|移动到当前文档的末尾|
|文档间导航|g|前往URL,Lynx会提示输入要前往的URL,按↑可插入上一次访问的URL并编辑|
|文档间导航|G|通过编辑当前URL前往新的URL|
|文档间导航|→或RET|跟随当前光标选择的超链接|
|文档间导航|←|返回上一个文档|
|文档间导航|DEL|查看本次会话中访问的所有文档的历史记录|
|文档间导航|Z|停止下载当前页面|
|信息和帮助|H或?|显示Lynx帮助文件|
|信息和帮助|K|显示完整的按键命令列表|
|信息和帮助|=|显示当前文档的信息,按←返回上一个文档|
|信息和帮助|\|在渲染的HTML和源代码显示之间切换|
|信息和帮助|BKSP|显示当前会话中访问的链接历史记录|
|退出Lynx|!|临时退出到shell,按CTRL - D返回|
|退出Lynx|q|退出浏览并退出程序,Lynx会要求确认|
|退出Lynx|Q或CTRL - D|不确认直接退出浏览并退出程序| -
保存网页
:可以使用“Print to local file”选项保存网页的渲染内容或HTML源代码。
-
保存渲染内容:按
P打开打印选项页面,选择“Print to local file”并按回车键。 -
保存HTML源代码:按
\查看源代码,按p打开打印选项页面,选择“Print to local file”。
-
保存渲染内容:按
-
列出页面中的所有链接
:在浏览页面时,按
L可查看当前页面包含的所有链接的列表,该列表以HTML格式显示,每个链接都是可点击的。这对于查看包含“隐藏”链接的页面很有用,也可将链接页面保存为HTML注释列表。 -
将网页文本输出到标准输出
:使用
lynx -dump选项可将指定URL的文本输出到标准输出,可通过管道将其传递给less进行查看,或使用重定向将其保存到文件。还可以使用-underscore选项将斜体文本以下划线形式输出,使用-nolist选项只返回“纯文本”,使用-width选项指定输出的行宽。- 查看网页文本:
$ lynx -dump http://www.sc.edu/fitzgerald/winterd/winter.html | less
- 保存纯文本到文件:
$ lynx -dump -nolist -underscore http://sc.edu/fitzgerald/winterd/winter.html > winter_dreams
- 打印纯文本:
$ lynx -dump -width=40 -nolist -underscore http://sc.edu/fitzgerald/winterd/winter.html | enscript -B -Eetext -f "Times-Roman12"
-
查看需要授权的网站
:若要查看需要注册的网站,可使用
lynx -auth选项,指定用户名和密码,用户名和密码用冒号分隔。
$ lynx -auth=guest:guest http://www.example.com/archive/
- 保存需要授权的网站内容:
$ lynx -dump -number_links -auth=guest:guest http://www.example.com/archive/ > mynews
-
查看HTML代码渲染效果
:若要查看HTML源代码的渲染效果,可选择源代码,使用
lynx -stdin从标准输入读取起始页,将所选内容粘贴到运行Lynx的终端,按CTRL - D结束输入,Lynx将渲染并显示HTML代码。若要立即退出,可包含-dump选项。 -
指定键绑定
:可以使用
-emacskeys选项启用Emacs风格的键绑定,使用-vikeys选项启用Vi风格的键绑定。
$ lynx -vikeys http://nostarch.com/
-
使用鼠标浏览
:使用
-use_mouse选项可在Lynx中使用鼠标,左键点击链接可跟随链接,右键点击可返回上一个页面。
$ lynx -use_mouse /usr/share/doc
4. 在Emacs中访问Web
在Emacs中可以使用w3-mode访问Web,虽然速度较慢,但具有一定的实用性。
-
启动w3-mode
:在Emacs中按
ALT - X w3
可加载w3-mode。
-
打开URL
:按
CTRL - O
,在迷你缓冲区中输入要打开的URL,留空则打开w3-mode主页。中键点击链接可在新缓冲区中打开链接。
- 打开指定URL:
$ CTRL - O http://emacs.org/
- 打开w3-mode主页:
$ CTRL - O
-
特殊命令
:在w3-mode中,有一些特殊的命令,方便用户操作。以下是一些常用的命令:
|快捷键|功能|
| ---- | ---- |
|RET|跟随当前光标处的链接|
|SPACEBAR|在当前缓冲区中向下滚动|
|BKSP|在当前缓冲区中向上滚动|
|ALT - TAB|将当前文档的URL插入到另一个缓冲区|
|ALT - S|将文档保存到本地磁盘,可选择HTML源代码、格式化文本、LaTEX源代码或二进制格式|
|CTRL - O|打开URL|
|B|在访问的URL历史记录堆栈中向后移动|
|F|在访问的URL历史记录堆栈中向前移动|
|i|查看当前缓冲区中文档的信息,信息将在名为“Document Information”的新缓冲区中打开|
|I|查看当前缓冲区中当前光标处链接的信息,信息将在名为“Document Information”的新缓冲区中打开|
|k|将当前缓冲区中文档的URL放入剪贴板,并使其成为X选择,方便复制和粘贴到其他缓冲区或应用程序|
|K|将当前缓冲区中当前光标处链接的URL放入剪贴板,并使其成为X选择,方便复制和粘贴到其他缓冲区或应用程序|
|l|移动到最后访问的缓冲区|
|o|打开本地文件|
|q|退出w3-mode,关闭当前缓冲区,并前往最后访问的缓冲区|
|r|重新加载当前文档|
|s|查看当前缓冲区中文档的HTML源代码,将在以URL命名的新缓冲区中打开|
|S|查看当前缓冲区中当前光标处链接的HTML源代码,将在以URL命名的新缓冲区中打开|
|v|显示当前文档的URL,URL将显示在迷你缓冲区中|
|V|显示当前缓冲区中当前光标处链接的URL,URL将显示在迷你缓冲区中|
5. 查看Web图像
通常,我们在浏览器中打开图像来查看,但也可以不通过浏览器查看Web图像。
-
使用Lynx查看图像
:将图像的URL作为参数传递给Lynx,Lynx将使用配置的“辅助”应用程序显示图像。
$ lynx ftp://garbo.uwasa.fi/garbo-gifs/garbo01.gif
- 使用ImageMagick和Libwww-perl查看图像 :若只想查看Web上的图像文件,可使用“display”命令,它使用libwww-perl包中的GET工具获取URL。
$ display http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg
- 自动刷新图像:使用`-remote`选项可在已运行的显示窗口中打开图像,结合`watch`命令可自动刷新图像。
$ display http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg &
$ watch -n 30 'display -remote http://waquarium.otted.hawaii.edu/coralcam/ccam.jpg'
6. 从Web获取文件
使用wget可以从Web下载文件,它支持从http或ftp URL检索文件,能保留文件的原始时间戳,比浏览器更小、更快,还能显示下载进度。
-
下载单个文件
:将文件的URL作为参数传递给wget,可下载文件到当前工作目录,文件名与原始URL相同。若下载中断,可使用
-c
选项从断点处继续下载。
- 下载文件:
$ wget ftp://garbo.uwasa.fi/garbo-gifs/garbo20.gif
- 断点续传:
$ wget -c ftp://garbo.uwasa.fi/garbo-gifs/garbo20.gif
-
归档整个网站
:使用
wget -m选项可归档整个网站,它会尽可能保存文件的原始时间戳,并递归下载所有内容。可使用-t选项指定错误发生时的重试次数,使用-o选项将进度日志写入文件。若要继续中断的归档,可使用-nc选项避免重复下载已有的文件。- 归档网站:
$ wget -m -t3 http://www.example.org/ -o mirror.log
- 继续归档:
$ wget -nc -m -t3 http://www.example.org/ -o mirror.log
-
归档部分网站
:使用
-I选项指定要归档的目录的绝对路径名,可只归档网站的部分内容。还可以使用-r、-l和--no-parent选项控制下载范围,使用-A选项指定要接受的文件扩展名,使用-R选项指定要拒绝的文件扩展名。
$ wget -m -t3 -I /~jim http://example.edu/~jim/ -o jim.log
$ wget -m -r -l1 --no-parent -A.gz http://www.example.org/~jim/papers/
-
读取网页头信息
:使用
-S选项可在检索文件时输出Web服务器的响应头信息,这些信息包含服务器的系统日期、服务器和操作系统软件的名称和版本等。
$ wget -S http://google.com/
7. 记录浏览器历史
browser-history工具可帮助用户记录浏览历史,它比许多浏览器自带的历史功能更强大。
-
启动browser-history
:在
.xsession
文件中添加“browser-history &”,可在每次启动X时自动启动该工具。
-
查看浏览器历史
:浏览器历史记录保存在用户主目录下的
.browser-history
隐藏目录中,当前周的历史记录文件名为“history-log.html”,可使用Web浏览器查看。过去的历史记录文件按年份、月份和周命名,并进行了压缩,大多数浏览器可直接打开压缩文件。
$ lynx ~/.browser-history/history-log.html
-
搜索浏览器历史
:使用
zgrep可搜索旧的浏览器历史记录,可根据URL或标题进行搜索。
$ zgrep Confessions ~/.browser-history/history-log-2000*
8. 设置起始页
起始页是浏览器在无URL参数启动时自动加载的页面,也可以是点击浏览器“主页”按钮时加载的页面。
-
Mozilla起始页设置
:在Mozilla的“Preferences…”菜单中定义主页,可将默认起始页更改为自定义的URL。
1. 从菜单栏的“Edit”菜单中选择“Preferences…”。
2. 左键点击“Location”框。
3. 将内容替换为要设置的起始页URL,如“http://localhost/start”。
4. 左键点击“OK”按钮。
-
Lynx起始页设置
:Lynx的起始页在
/etc/lynx.cfg
文件中定义为“STARTFILE”,可编辑该文件将起始页更改为指定URL。需要超级用户权限才能编辑该文件。
STARTFILE:http://localhost/start/
9. 列出文本中的URL
可以使用grep或sed命令列出文本中的URL,可处理Web页面的HTML源代码、文本内容或任何文本文件。
-
使用grep列出URL
:使用
grep -o
选项和正则表达式匹配URL,可将文本文件作为第二个参数进行搜索。
- 列出文件中的URL:
$ grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\)' /etc/lynx.cfg
- 列出网页文本中的URL:
$ lynx -dump -nolist http://news.example.com/ | grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\)'
- 列出网页源代码中的URL:
$ wget -q -O - http://news.example.com/ | grep -o '\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\)'
-
使用sed列出URL
:使用
sed -n和正则表达式匹配URL,可将文本文件作为参数进行搜索。- 列出文件中的URL:
$ sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\).*/\1/p' /etc/lynx.cfg
- 列出网页文本中的URL:
$ lynx -dump -nolist http://news.example.com/ | sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\).*/\1/p'
- 列出网页源代码中的URL:
$ wget -q -O - http://news.example.com/ | sed -n 's/.*\(\(\(http\(s\)\?\|ftp\|gopher\|telnet\|news\):\/\/\|mailto:\).[^ ,;\t<">]*[^ .,;\t<">]\).*/\1/p'
10. 编写HTML
HTML是Web的标记语言,可使用任何文本编辑器编辑HTML文件。以下是一些专门用于编写HTML的工具和方法。
-
使用Mozilla Composer
:Mozilla Composer是一款流行的所见即所得HTML编辑器,在Mozilla中可从“Window”菜单选择或按
CTRL - 4
启动。
1. 启动Mozilla:
$ mozilla
2. 按`CTRL - 4`。
- 使用Bluefish :Bluefish是一款功能齐全、用户友好的HTML编辑器,具有语法高亮功能,可同时打开500多个文档。
$ bluefish
-
使用GNU Emacs的html-mode
:Emacs的html-mode可方便地编辑HTML文件,按
ALT - X html-mode可启动该模式。该模式支持插入“骨架”结构,Emacs的帮助文本中包含简短的HTML编写教程,按CTRL - H f html-mode可查看教程。 - 添加图像标签参数 :使用imgsizer工具可自动为HTML文件中的图像标签添加HEIGHT和WIDTH参数,提高页面的可用性。
$ imgsizer index.html
11. 转换HTML
可以将HTML文件转换为其他格式,如纯文本、PostScript或PDF。
-
使用Unhtml去除HTML格式
:Unhtml可简单地去除文本中的HTML格式,从标准输入读取文本(或指定文件名),将输出写入标准输出。
- 查看去除标签后的文件:
$ unhtml index.html | less
- 保存去除标签后的文件:
$ unhtml index.html > index.txt
-
使用Lynx保存为格式化文本
:使用
lynx -dump选项可将HTML文件或URL保存为格式化文本,保留斜体和超链接信息。可将输出通过管道传递给其他工具进行处理,如打印。
$ lynx -dump -underscore -nolist http://example.com/essay/ | pr -d | enscript -B
-
使用Html2ps转换为PostScript
:Html2ps可将HTML文件转换为PostScript,可用于打印包含图形和图像的网页,或转换为PDF。使用
-u选项可下划线显示超文本链接的锚文本,使用-o选项指定输出文件名。- 打印PostScript副本:
$ html2ps http://example.com/essay/ | lpr
- 保存为PostScript文件:
$ html2ps -u -o submission.ps http://example.com/essay/
12. 验证HTML
使用weblint工具可验证HTML文件的基本结构和语法,输出文件存在的问题,如IMG元素是否缺少ALT描述、嵌套元素是否重叠等。
$ weblint index.html
13. 分析Web流量
若拥有网站,可通过分析Web流量了解哪些页面受欢迎、访问者是谁、访问时间和来源。可从服务器获取Web日志文件,使用工具进行分析。
-
使用Analog分析日志
:Analog是一款流行的Web日志分析工具,可生成全面的报告,包括搜索引擎使用的关键词、引用页面、访问者的组织和操作系统、网站的热门目录和文件等。
- 查看日志分析结果:
$ analog ~/web/logs/2005/www.20050408.gz | lynx -stdin
- 保存分析结果:
$ analog ~/web/logs/2005/* > analog.html
- 使用grep和cut分析日志 :若日志文件遵循标准格式,可使用grep和cut命令提取所需字段,如统计访问特定页面的唯一域名数量。
$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l
14. 使用其他Web浏览器
除了Mozilla和Lynx,还有许多其他的Web浏览器可供选择。以下是一些常见的浏览器:
|浏览器名称|特点|
| ---- | ---- |
|Amaya|由万维网联盟开发,既是图形化Web浏览器,又是所见即所得的HTML编辑器|
|Arena|由万维网联盟开发,是一款非常紧凑、符合HTML 3.0标准的X浏览器|
|Dillo|快速、小巧的图形化Web浏览器|
|Express|在安装了gnome的X环境中运行的小型浏览器|
|Galeon|基于Mozilla的gnome浏览器|
|Gzilla|处于早期开发阶段的图形化X浏览器|
|Links|较新的文本浏览器,一些用户更喜欢它而不是Lynx|
|Skipstone|基于Mozilla的图形化浏览器,但去除了许多多余组件|
|W3m|较新的文本浏览器,支持表格和独特的自由形式光标控制|
通过以上介绍,我们了解了多种访问Web、处理HTML文件和分析Web流量的工具和方法。选择适合自己需求的工具,可提高在Web上的工作效率和体验。希望这些内容对你有所帮助!
探索万维网:工具与技巧全攻略
15. 验证 HTML
在网页开发中,确保 HTML 文件的结构和语法正确至关重要。使用
weblint
工具可以帮助我们完成这一任务。
操作步骤如下:
$ weblint index.html
执行上述命令后,
weblint
会检查
index.html
文件,并将发现的问题输出到标准输出。例如,它会指出
IMG
元素是否缺少
ALT
描述,或者嵌套元素是否存在重叠等问题。
16. 分析 Web 流量
对于拥有网站的人来说,分析 Web 流量可以帮助他们了解网站的使用情况,例如哪些页面受欢迎、访问者是谁、访问时间和来源等。以下是两种常见的分析方法:
16.1 使用 Analog 分析日志
Analog
是一款广泛使用的 Web 日志分析工具,它可以生成全面的报告,涵盖多个方面的信息。
操作步骤如下:
- 查看日志分析结果:
$ analog ~/web/logs/2005/www.20050408.gz | lynx -stdin
该命令会读取指定的日志文件,并将分析结果以 HTML 格式输出到标准输出,然后通过
lynx
浏览器显示出来。
- 保存分析结果:
$ analog ~/web/logs/2005/* > analog.html
此命令会对指定目录下的所有日志文件进行分析,并将结果保存到
analog.html
文件中。
生成的报告内容如下表所示:
| 报告内容 | 说明 |
| ---- | ---- |
| 搜索关键词 | 人们在搜索引擎中用于找到您网站的热门词汇 |
| 推荐页面 | 链接到您网站的页面 |
| 访问者组织 | 访问您网站的计算机所属的主要组织 |
| 操作系统 | 访问者使用的操作系统 |
| 热门目录 | 网站中最受欢迎的目录 |
| 热门文件 | 网站中最受欢迎的文件 |
16.2 使用 grep 和 cut 分析日志
如果日志文件遵循标准格式,我们可以使用
grep
和
cut
命令来提取所需的信息。
操作步骤如下:
$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l
该命令会统计访问您网站评论页面的唯一域名数量。具体流程如下:
1.
grep reviews ~/private_html/logs/2006/*
:在指定目录下的所有日志文件中搜索包含
reviews
的行。
2.
cut -f2 -d':'
:以冒号为分隔符,提取每行的第二个字段。
3.
cut -f1 -d' '
:以空格为分隔符,提取每行的第一个字段。
4.
sort -u
:对提取的字段进行排序并去除重复项。
5.
wc -l
:统计唯一域名的数量。
如果日志文件是压缩的,可以使用
zgrep
或
grep -z
命令。
17. 使用其他 Web 浏览器
除了前面介绍的 Mozilla 和 Lynx 浏览器,还有许多其他的 Web 浏览器可供选择。以下是一些常见浏览器的介绍:
| 浏览器名称 | 特点 | 安装信息 |
| ---- | ---- | ---- |
| Amaya | 由万维网联盟开发,既是图形化 Web 浏览器,又是所见即所得的 HTML 编辑器 | DEB: amaya
RPM: amaya
WWW: http://www.w3.org/Amaya/ |
| Arena | 由万维网联盟开发,是一款非常紧凑、符合 HTML 3.0 标准的 X 浏览器 | RPM: arena
WWW: http://www.w3.org/Arena/ |
| Dillo | 快速、小巧的图形化 Web 浏览器 | DEB: dillo
RPM: dillo
WWW: http://www.dillo.org/ |
| Express | 在安装了 gnome 的 X 环境中运行的小型浏览器 | WWW: http://tinyurl.com/32p4d |
| Galeon | 基于 Mozilla 的 gnome 浏览器 | DEB: galeon - common
galeon
RPM: galeon
WWW: http://galeon.sourceforge.net/ |
| Gzilla | 处于早期开发阶段的图形化 X 浏览器 | RPM: gzilla
WWW: http://www.levien.com/gzilla/ |
| Links | 较新的文本浏览器,一些用户更喜欢它而不是 Lynx | DEB: links
RPM: links
WWW: http://artax.karlin.mff.cuni.cz/~mikulas/links/ |
| Skipstone | 基于 Mozilla 的图形化浏览器,但去除了许多多余组件 | RPM: skipstone
WWW: http://www.muhri.net/skipstone/ |
| W3m | 较新的文本浏览器,支持表格和独特的自由形式光标控制 | DEB: w3m
RPM: w3m
WWW: http://w3m.sourceforge.net/ |
18. 综合应用示例
为了更好地理解这些工具和技巧的实际应用,我们来看一个综合示例。假设我们要创建一个个人网站,包含多个页面和图片,并且需要对网站进行维护和分析。
以下是一个简单的流程图,展示了整个过程:
graph LR
A[规划网站内容] --> B[编写 HTML 文件]
B --> C[使用 Mozilla Composer 或 Bluefish 编辑]
C --> D[添加图像标签参数]
D --> E[使用 imgsizer 工具]
E --> F[验证 HTML 文件]
F --> G[使用 weblint 工具]
G --> H[转换 HTML 格式]
H --> I[使用 Lynx 或 Html2ps]
I --> J[部署网站]
J --> K[记录浏览器历史]
K --> L[使用 browser - history 工具]
L --> M[分析 Web 流量]
M --> N[使用 Analog 或 grep 和 cut]
具体操作步骤如下:
1.
规划网站内容
:确定网站的主题、页面结构和所需的图片。
2.
编写 HTML 文件
:使用文本编辑器或专门的 HTML 编辑工具(如 Mozilla Composer、Bluefish 或 Emacs 的 html - mode)编写 HTML 文件。
# 使用 Bluefish 编辑
$ bluefish
-
添加图像标签参数
:为了提高页面的可用性,使用
imgsizer工具为图像标签添加HEIGHT和WIDTH参数。
$ imgsizer index.html
-
验证 HTML 文件
:使用
weblint工具检查 HTML 文件的结构和语法。
$ weblint index.html
- 转换 HTML 格式 :根据需要,将 HTML 文件转换为其他格式,如纯文本或 PostScript。
# 使用 Lynx 保存为格式化文本
$ lynx -dump -underscore -nolist http://example.com/essay/ | pr -d | enscript -B
# 使用 Html2ps 转换为 PostScript
$ html2ps -u -o submission.ps http://example.com/essay/
- 部署网站 :将编写好的 HTML 文件和相关资源上传到服务器。
-
记录浏览器历史
:使用
browser - history工具记录用户的浏览历史。
# 在 .xsession 文件中添加以下内容
browser - history &
- 分析 Web 流量 :定期分析网站的访问日志,了解用户的行为和需求。
# 使用 Analog 分析日志
$ analog ~/web/logs/2005/* > analog.html
# 使用 grep 和 cut 统计唯一域名数量
$ grep reviews ~/private_html/logs/2006/* | cut -f2 -d':' | cut -f1 -d' ' | sort -u | wc -l
通过以上步骤,我们可以创建一个功能完善、易于维护的个人网站,并通过分析流量不断优化网站的性能和用户体验。
总之,万维网提供了丰富的资源和工具,通过合理使用这些工具和技巧,我们可以更加高效地访问 Web、处理 HTML 文件和分析 Web 流量。希望本文介绍的内容能够帮助你在万维网的世界中更加得心应手。
超级会员免费看
638

被折叠的 条评论
为什么被折叠?



