HTML基础知识

学习Python爬虫需掌握HTML知识,以便更好理解和分析网页。HTML是网页制作必备编程语言,其结构包括“头”和“主体”部分,“头”提供网页信息,“主体”提供具体内容,表格常用于网页布局。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天学习了HTML知识,我是学pythoon的,学html是为了更好的理解网页,爬虫阶段的时候要分析网页,所以要知道网页的组成部分。很多学员只知道学爬虫,却忽视了HTML的知识,不要求精通最起码能看懂网页吧,不然找个图片的url都找不到。那就很尴尬了
超文本标记语言,标准通用标记语言下的一个应用。是 网页制作必备的编程语言
“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
以下表格列出了 HTML head 元素:
标签
描述

定义了文档的信息 定义了文档的标题 定义了页面链接标签的默认链接地址 定义了一个文档和外部资源之间的关系 定义了HTML文档中的元数据 </meta></link></base>

在这里插入图片描述元素

创建一个超文本标记语言文档。 (头)设置文档标题和其它在网页中不显示的信息,比如direction方向、语言代码Language Code(见实体定义!ENTITY % i18n)、指定字典中的元信息、等等。 文档中不能被该站点辨识的其它所有链接源的URL(统一资源定位器) 定义一个链接和源之间的相互关系,比如引用一个层叠样式表(英文缩写:css)、做一个链接到一个脚本、为某文件做一个链接(可打印的版本)、文档特定的工具栏/菜单。 脚本语句标签,比如引用一个javascript脚本。 文档体,文档的可见部分。 设置文档的标题。 当然,如果不使用以上基本框架结构,而直接使用在实体部分中出现的标记符,在浏览器下也可以解释执行。 内容描述

最大的标题(一号标题)
 预先格式化文本 (英文全称:PREformatted) 
 下划线(英文全称:Underline) 
 黑体字 (英文全称:Bold) 
 斜体字 (英文全称:Italics) 
打字机风格的字体 
引用,通常是斜体 
 强调文本(通常是斜体加黑体、英文全称:EMphasize) 
 加重文本(通常是斜体加黑体) 
 设置字体大小从1到7,颜色使用名字或RGB(中文全称:红绿蓝)的十六进制值 基准字体标记 
 字体加大 
 字体缩小 加删除线 
程式码 
键盘字(英文全称:KeyBoarD) 
 范例(英文全称:SAMPle) 
 变量(英文全称:VARiable) 
向右缩排(向右缩进、块引用) 述语定义(英文全称:DeFiNe)
地址标记 上标字 (英文全称:SUPerscript) 下标字(英文全称:SUBscript) ...;固定宽度字体(在文件中空白、换行、定位功能有效) ...;固定宽度字体(不执行标记符号) ... 固定宽度小字体 ...;字体 颜色 ...;字体 大小等于1(最小)。 ...;字体 样式等于无限增大(100像素) 格式标志标签

创建一个段落 (英文全称:Paragraphs)

将段落按左、中、右对齐
定义新行

从两边缩进文本
定义列表(英文全称:DefinitionList) 放在每个定义术语词前(定义术语、英文全称:DefinitionTerm)
放在每个定义之前(定义说明、英文全称:DefinitionDescription)
    创建一个标有序的列表,默认前面有数字,从数字“1”开始计数,依次叠加,也可以设置为字母或从任何自然数开始计数的列表项 (有序列表、外语全称:OrderedList)
      创建一个无序的列表,默认前面标有圆点,也可以自己设置为none或者其他形状,如空心圆、方块等。(无序列表、外语全称:UnorderedLists)
      • 放在每个列表项之前,若在
          ;之间则每个列表项加上一个数字, 若在
            ;之间则每个列表项加上一个圆点
            用来排版大块HTML段落,也用于格式化表 选项清单 目录清单 强行不换行(英文全称:nobreaking)
            ;水平线(设定宽度、外语全称:horizontalrule)
            水平居中

          网页表格标签
          由于表格可以精确控制文本和图像在网页中的显示位置,所以在很多网站的主页中一般都使用表格来进行布局。
            表格的基本结构如下:

               ...      ...                ...  

          定义整个表格,即表格的内容要放在
          标记中;在中的主要属性:border属性显示表格的边框,width, height属性定义表格的大小。…标记表示一行;一个标记表示一列;定义表头,一般可以不用。
          链接标志表格标志

          :创建超文本链接。

          :创建位于文档内部的书签。

          :创建指向位于文档内部书签的链接。
          使用
          每种HTML标记符在使用中可带有不同的属性项,用于描述该标记符说明的内容显示不同的效果。正文标记符中提供以下属性来改变文本的颜色及页面背景。
          BGCOLOR(外语全称:BackgroundColor)用于定义网页的背景色,BACKGROUND用于定义网页背景图案的图像文件
          TEXT用于定义正文字符的颜色,默认为黑色
          LINK用于定义网页中超级链接字符的颜色,默认为蓝色
          VLINK(外语全称:VisitedLINK)用于定义网页中已被访问过的超接链接字符的颜色,默认为紫红色
          ALINK(中文全称:活动链接)用于定义被鼠标选中,但未使用时超链字符的颜色,默认为红色
          例如:标记将定义页面的背景色为黑色,正文字体显示为白色。
          以上属性使用中,需要对颜色进行说明,在HTML中对颜色可使用3种方法说明颜色属性值,即直接颜色名称、16进制颜色代码、10进制RGB码。
          直接颜色名称,可以在代码中直接写出颜色的英文名称。如 我们,在浏览器上显示时就为红色。
          16进制颜色代码,语法格式: #RRGGBB 。16进制颜色代码之前必须有一个“#”号,这种颜色代码是由三部分组成的,其中前两位代表红色,中间两位代表绿色,后两位代表蓝色。不同的取值代表不同的颜色,他们的取值范围是00–FF。如 我们,在浏览器上显示同样为红色。
          10进制RGB码,语法格式: RGB(RRR,GGG,BBB) 。在这种表示法中,后面三个参数分别是红色、绿色、蓝色,他们的取值范围是0–255。以上两种表达方式可以相互转换,标准是16进制与10进制的相互转换。如 我们,在浏览器上显示字体为红色。
          使用图案代替背景颜色,可以使页面更生动、美观。
          如今用一张大图当做网页的背景已经成为一种流行趋势,高质量的精美照片和抽象的设计图片能够给网站的外观带去深刻的影响。
          可将图像文件“图像.gif”所表示的一幅图像作为页面的背景,若图像幅面不够大,将会将图像重复平铺在窗口中。
          其他版本
          和XHTML之间的差异:
          xmlns 属性在XHTML中是必需的,但在 HTML中不是。不过,即使XHTML文档中的 没有使用此属性,W3C 的验证器也不会报错。这是因为 “xmlns=百度” 是一个固定值,即使您没有包含它,此值也会被添加到 标签中。
          标记符用来定义表格的标题。
            表格的表示以行为单位,在行中包含列。其中:一个

          内容概要:该研究通过在黑龙江省某示范村进行24小时实地测试,比较了燃煤炉具与自动/手动进料生物质炉具的污染物排放特征。结果显示,生物质炉具相比燃煤炉具显著降低了PM2.5、CO和SO2的排放(自动进料分别降低41.2%、54.3%、40.0%;手动进料降低35.3%、22.1%、20.0%),但NOx排放未降低甚至有所增加。研究还发现,经济性和便利性是影响生物质炉具推广的重要因素。该研究不仅提供了实际排放数据支持,还通过Python代码详细复现了排放特征比较、减排效果计算和结果可视化,进一步探讨了燃料性质、动态排放特征、碳平衡计算以及政策建议。 适合人群:从事环境科学研究的学者、政府环保部门工作人员、能源政策制定者、关注农村能源转型的社会人士。 使用场景及目标:①评估生物质炉具在农村地区的推广潜力;②为政策制定者提供科学依据,优化补贴政策;③帮助研究人员深入了解生物质炉具的排放特征和技术改进方向;④为企业研发更高效的生物质炉具提供参考。 其他说明:该研究通过大量数据分析和模拟,揭示了生物质炉具在实际应用中的优点和挑战,特别是NOx排放增加的问题。研究还提出了多项具体的技术改进方向和政策建议,如优化进料方式、提高热效率、建设本地颗粒厂等,为生物质炉具的广泛推广提供了可行路径。此外,研究还开发了一个智能政策建议生成系统,可以根据不同地区的特征定制化生成政策建议,为农村能源转型提供了有力支持。
          评论
          添加红包

          请填写红包祝福语或标题

          红包个数最小为10个

          红包金额最低5元

          当前余额3.43前往充值 >
          需支付:10.00
          成就一亿技术人!
          领取后你会自动成为博主和红包主的粉丝 规则
          hope_wisdom
          发出的红包
          实付
          使用余额支付
          点击重新获取
          扫码支付
          钱包余额 0

          抵扣说明:

          1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
          2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

          余额充值