CCF认证2018093-元素选择器

最新推荐文章于 2021-02-18 22:00:47 发布

原创最新推荐文章于 2021-02-18 22:00:47 发布 · 374 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据结构与算法 #CCF认证

刷题笔记：CCF认证专栏收录该内容

43 篇文章

订阅专栏

本人初学，水平有限，若有不足，恳请赐教！

1 解题思路

1.1 数据结构设计

需要考虑如何存储文档结构信息。显然，输入的文档结构数据具有层次关系。如果用树的思想来考虑的话，输入顺序可以视为对文档结构树的先序遍历。因此，这里采用树来存储文档结构信息。再根据选择器的查找方式可以确定使用树的双亲表示法的存储结构就已经能满足查找要求。将一行文档结构信息视为树的一个结点信息（后文的文档结构信息简称为结点信息），所有的结点用一个向量或数组来保存（结点在向量中的下标同时也表示文档在输入时的行数，这样可以方便查找输出）。于是，还要定义结点类型。根据此前的分析可以得出一个结点应至少记录以下信息：元素（标签）、属性和父结点在向量中的位置（这里用下标来表示）。另外，由于对于每行输入信息需要自行确定其父结点的位置，且输入字符串中唯一能利用做到这一点的数据就是“.”的个数（相当于结点的深度）。因此结点信息中还要记录结点的深度。由此得到的结点信息如下。

typedef struct HTML
{
	string elem = ""; //记录元素即标签
	string id = ""; //记录属性
	int deep = 0; //记录深度，规定根节点即html的深度为0
	int father = 0; //此结点的父亲在向量中的下标
}HTML;

1.2 读取并存储数据

然后，就是设计读取结点信息和选择器（后文简称命令）的函数。对于字符串的处理仍然采取的是有穷状态机的思想。另外，这里有一个需要注意的地方。那就是，cin只能读取不含空格符的字符串，而输入的每行字符串数据中都有可能含有空格。因此需要使用<string>中的getline()来读取整行数据。而且还要注意，在使用getline()之前需要清空缓冲区里的换行符！这里使用的清空方式就是在使用getline()之前先用getchar()取出缓冲区中的换行符。

对于结点信息，可以容易获得其元素、属性和深度。但是父结点的位置则需要使用另外的函数来确定。根据输入的规律，可以发现：如果从上一个处理好的结点开始向前查找，当两结点深度一致说明其为兄弟关系，其拥有同一个父亲；当已存储结点的深度恰好比待查结点深度少1，则说明二者是父子关系。以上两个关系只要满足一个就可以得到结点的父亲结点的位置。

对于命令信息，由于查找时是从后向前进行查找的（例如对于“body div p”是先查找p，再查找div，最后查找body），因此可以考虑用栈来进行命令信息的存储。当然，这里我没有使用<stack>，而是使用向量<vector>来表示的栈。这样做的好处是在进行查找时不必删除命令数据（即出栈操作）从而实现多次查找。

1.3 查找函数

根据题目对输出结果格式按统计个数和行号由小到大的要求，仍可以利用栈来保存查找和统计的结果。具体方式是在保存结点的向量中从后向前查找，每查找到符合条件的结点就将其行号（在向量中的下标）入栈，查找完毕后将统计的结果个数入栈。这样在输出时只要做出栈操作就可以满足要求了。

2具体代码

#include <iostream>
#include <string>
#include <vector>

using namespace std;

typedef struct HTML
{
	string elem = ""; //记录元素即标签
	string id = ""; //记录属性
	int deep = 0; //记录深度，规定根节点即html的深度为0
	int father = 0; //此结点的父亲在向量中的下标
}HTML;

vector<HTML> v(110); //存放各结点，下标等于行号，故从1开始存储

HTML readString(string s) //读取文档结构
{
	HTML temp;
	enum STATE { BEGIN, DOT, ELEM, ID };
	STATE state = BEGIN;
	int deep = 0;
	bool even = false; //用来判断‘.’出现次数是否为偶数次
	for(unsigned i = 0; i < s.size(); i++)
	{
		switch(state)
		{
		case BEGIN:
			if(s[i] == '.') { i--; state = DOT; break; }
			else { i--; state = ELEM; break; }
		case DOT:
			if(s[i] != '.') { temp.deep = deep; i--; state = ELEM; break; } //记录结点深度
			deep = even ? deep + 1 : deep; //计算结点深度
			even = !even;
			break;
		case ELEM:
			if(s[i] == ' ') { state = ID; break; }
			temp.elem += tolower(s[i]); //元素对大小写不敏感故统一按小写存储
			break;
		case ID:
			temp.id += s[i]; //属性对大小写敏感故直接存储
		}
	}
	return temp;
}

void findFather(int k) //查找结点的父结点下标（行号）
{
	//其实这是一个多余的判断，由于已经设置father默认为0，因此k=1时仍能正确计算该结点father为0
	if(k != 1)
	{
		for(int i = k - 1;; i--) //从上一个存储的结点开始向前查找，通过深度判断结点关系
		{
			//两结点深度一致说明其为兄弟关系，拥有同一个父亲
			if(v[i].deep == v[k].deep) { v[k].father = v[i].father; break; }
			//若已存储结点的深度恰好比待查结点深度少1，则说明二者是父子关系
			else if (v[i].deep == v[k].deep - 1) { v[k].father = i; break; }
			//其他情况不予理会
		}
	}
}

void readCommand(string s, vector<string> &cmd) //读取选择器
{
	string buf = "";
	enum STATE {BEGIN, ELEM, ID, STORE};
	STATE state = BEGIN;
	for(unsigned i = 0; i < s.size(); i++)
	{
		switch(state)
		{
		case BEGIN:
			if(s[i] == '#') { i--; state = ID; break; }
			else { i--; state = ELEM; break; }
		case ELEM:
			if(s[i] == ' ') { state = STORE; break; }
			buf += tolower(s[i]);
			break;
		case ID:
			if(s[i] == ' ') { state = STORE; break; }
			buf += s[i];
			break;
		case STORE:
			if(s[i] == '#') { cmd.push_back(buf); buf = ""; i--; state = ID; break; }
			else { cmd.push_back(buf); buf = ""; i--; state = ELEM; break; }
		}
	}
	cmd.push_back(buf);
}

void search(vector<string> &cmd, vector<int> &ans, int n) //查找函数
{
	int all = 0; //记录查找到的结果总数
	for(unsigned i = n; i > 0; i--) //在v向量中从后向前查找，从而保证输出顺序由小到大（栈的性质）
	{
		if(v[i].elem == cmd.back() || v[i].id == cmd.back()) //第一次的匹配必须要成功，否则不符题目要求
		{
			int k = v[i].father; //v向量中定位到父结点
			for(unsigned j = cmd.size() - 2;;) //命令向量（命令栈）中定位到下一条查找命令
			{
				if(j == -1) { all++; ans.push_back(i); break; } //命令栈为空说明查找成功
				if(k == 0) break; //命令栈非空但v向量已到达根结点则必定失败故不必再去尝试（提高查找效率）
				if(v[k].elem != cmd[j] && v[k].id != cmd[j])
					k = v[k].father; //匹配失败则命令栈不动，v向量前移到新的父结点
				else { k = v[k].father; j--; } //匹配成功则二者同时移动
			}
		}
	}
	ans.push_back(all);//最后将结果的总个数入栈
}

int main()
{
	//FILE *stream;
	//freopen_s(&stream, "data.txt", "r", stdin);

	int n, m;
	cin >> n >> m;
	getchar(); //提取缓冲区中的换行符
	for(int i = 1; i < n + 1; i++)
	{
		string s;
		getline(cin, s); //注意含有空格的字符串的读取不能用cin
		v[i] = readString(s); //读取并存储文档结构
		findFather(i);
	}
	vector<vector<string>> vcmd(m); //存储命令向量的向量或者说是命令栈的向量
	for(int i = 0; i < m; i++)
	{
		string c;
		getline(cin, c);
		readCommand(c, vcmd[i]); //读取并存储选择器
	}
	vector<vector<int>> vans(m); //存储各选择器的结果栈的向量
	for(int i = 0; i < m; i++) search(vcmd[i], vans[i], n);
	for(auto &e : vans)
	{
		while(!e.empty()) //用栈的方式弹出数据并输出
		{
			cout << e.back() << ' ';
			e.pop_back();
		}
		cout << endl;
	}

	//fclose(stream);

	return 0;
}

3 反思不足

3.1 题目理解

模拟题的题干信息量都很巨大，从而在读题的过程中很容易忽略细节，而且如果信息背景如果平时没有什么了解的话又很容易陷入思维误区从而影响编码。所以读题的时候一定要认真仔细，最好能边读题边用笔记录关键信息和细节防止遗漏或出错。另外，对于算法的设计最好先在纸上罗列出求解步骤。每个步骤的具体实现最好能先推倒或者模拟一遍。

3.2 STL容器选择与熟练程度

正如之前的分析，我发现本题算法的设计中有许多可以利用栈的地方。然而在正式编码的过程中我发现如果使用栈会不利于多个结果的查找，而要解决这一问题就需要对栈进行复制。因此我放弃了使用<stack>而是使用<vector>来模拟栈的操作。因此我觉得以后若是再遇到需使用栈的地方最好优先考虑用向量来代替（不知道这种做法是否成熟）。

另外，这次解题也暴露了我对于STL认识的浅显和一些相关操作的生疏。

3.3 加快调试速度

由于题目的输入规模较大，因此每次调试时很多时间都用在了输入数据上（而且出错了还要重新输入……）。参考别人的代码时我发现可以利用输入重定向的方式来节省许多时间。具体方式就是先将要输入的数据按照要求的格式写入一个文件当中（例如我用的是默认路径中的data.txt文件），然后在主函数中做如下处理。

int main()
{
	FILE *stream;
    //由于本人使用的是VS2013，所以使用freopen会报错！
	freopen_s(&stream, "data.txt", "r", stdin);

    //主函数其他代码

	fclose(stream);

	return 0;
}

当调试无误后将这三句话注释掉就可以了（第一次提交就是因为忘了注释掉结果编译错误……）。