R语言-HTML 基础与R语言解析

原创已于 2022-09-20 16:48:15 修改 · 983 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#r语言 #开发语言

于 2022-09-20 16:46:23 首次发布

R 专栏收录该内容

29 篇文章

订阅专栏

本文介绍了HTML的基础知识，包括其语法规则、标签、元素和属性等内容，并详细讲解了如何利用R语言中的XML包进行HTML文件的解析。

###6.1 HTML 基础与R语言解析

#额外备注：Python中的scrapy框架，爬虫

#HTML

#hyper text markup language

#超文本标记语言

##6.1HTML的语法规则

#单击鼠标右键，查看源文件/审查元素

##1.标签、元素和属性

#标签，以一对"< >"符号包括起来

#元素，起始标签、内容和终止标签组合成为元素

#终止标签会有一个"/"符号

#<br>标签表示换行，不需要</br>标签来表示终止

<a> 定义锚

<meta> 定义关于HTML文档的元信息

<link> 定义文档与外部资源的关系

<code> 定义计算机代码文本

<p> 定义段落

<h1>-<h6> 定义HTML标题

<div> 定义文档中的节

<span> 定义文档中的节

<form> 定义供用户输入的HTML表单

<script> 定义客户端脚本

#属性就是让标签能够描述其内容处理方式的选项

#具体属性的作用则根据相应的标签来定

#属性总是处于起始标签的内部、标签名的右侧

#一个标签拥有多个属性也是常见操作，多个属性之间用空格分开

##2.树形结构

#例：

<dl class="">

<dt>

<a href="https://www.baidu.com">

<img src="https://imgs.doubanio.com/viw/photo/abcd" alt="菇宝" class=""/>

</a>

</dt>

<dd>

<a href="https://blabla" >

</dd>

</dl>

#第一个元素是<dl>,在这个元素的起始和终止标签内，

#又有几个标签分别起始和终止：<dt>,<a>和<dd>。

#<dt>和<dd>标签作为同级标签都包含在<dl>元素内，

#<a>标签则包含在<dt>标签内。

#HTML还有注释、保留字符和特殊字符、文档定义类型等

##6.1.2 R语言中HTML的解析

#对于HTML，R语言无法直接分析，需要先转换，这个过程就是HTML解析

#为了将HTML文件转换为结构化数据

#需运用一种能够理解HTML结构含义的程序

#并重建HTML文件隐含的层次结构

#使得HTML内容转变为R语言可以分析的形式

#在R语言中，通常使用XML包中的htmlParse()函数来解析HTML文件

#XML有着以C语言为基础的libxml2库的接口

#install.packages(XML)

library(XML)

#install.packages(bitops)

library(bitops)

#install.packages(RCurl)

library(RCrul)

temp = getURL('http://movie.douban.com.subject/blabla')

fanghua = htmlParse(temp)

fanghua

## <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

## <html>

## <head><title>301 Moved Permanently</title></head>

## <body bgcolor="white">

## <center><h1>301 Moved Permanently</h1></center>

## <hr>

## <center>nginx</center>

## </body>

## </html>

##

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。