链接基础-4.section command

最新推荐文章于 2023-06-14 14:29:18 发布

HZero.chen

最新推荐文章于 2023-06-14 14:29:18 发布

阅读量695

点赞数 1

CC 4.0 BY-SA版权

分类专栏：基础知识

原文链接：https://www.cnblogs.com/smartjourneys/p/6957055.html

基础知识专栏收录该内容

13 篇文章

订阅专栏

本文详细介绍了SECTIONS-COMMAND的作用及格式，包括输出section描述、输入section描述等内容，并提供了丰富的示例帮助理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.前言

SECTIONS-COMMAND作用包含如下：

如何把输入文件的sections映射到输出文件的各个section:
如何将输入section合为输出section;
如何把输出section放入程序地址空间(VMA)和进程地址空间(LMA).

2.SECTIONS-COMMAND格式

 SECTIONS
 {
 　　SECTIONS-COMMAND
 　　SECTIONS-COMMAND
 　　…
 }

SECTION-COMMAND有四种:
(1) ENTRY命令
(2) 符号赋值语句
(3) 一个输出section的描述(output section description)
(4) 一个section叠加描述(overlay description)
如果整个连接脚本内没有SECTIONS-COMMAND, 那么ld将所有同名输入section合成为一个输出section内, 各输入section的顺序为它们被连接器发现的顺序.
如果某输入section没有在SECTIONS-COMMAND中提到, 那么该section将被直接拷贝成输出section。

2.1 输出section描述

输出section描述具有如下格式:

section [address] [(type)] :
	[AT(lma)]
	[ALIGN(section_align)]
	[SUBALIGN(subsection_align)]
	[constraint]
	{
		output-section-command
		output-section-command
		...
	} [>region] [AT>lma_region] [:phdr :phdr ...] [=fillexp]

[ ]内的内容为可选选项, 一般不需要.
section：输出section名字
section左右的空白、圆括号、冒号是必须的，换行符和其他空格是可选的。
每个output-section-command为以下四种之一，
（1）符号赋值语句
（2）一个输入section描述
（3）直接包含的数据值
（4）一个特殊的输出section关键字

2.2 输出section名字(section)

输出section名字必须符合输出文件格式要求，比如：a.out格式的文件只允许存在.text、.data和.bss section名。而有的格式只允许存在数字名字，那么此时应该用引号将所有名字内的数字组合在一起；另外，还有一些格式允许任何序列的字符存在于 section名字内，此时如果名字内包含特殊字符(比如空格、逗号等)，那么需要用引号将其组合在一起。

2.3 输出section地址(address)

address是一个表达式，它的值用于设置VMA。如果没有该选项且有region选项，那么连接器将根据region设置VMA；
如果也没有 REGION选项，那么连接器将根据定位符号‘.’的值设置该section的VMA，将定位符号的值调整到满足输出section对齐要求后的值，输出 section的对齐要求为：该输出section描述内用到的所有输入section的对齐要求中最严格的。
例子：

.text . : { *(.text) }

和

.text : { *(.text) }

这两个描述是截然不同的，第一个将.text section的VMA设置为定位符号的值，而第二个则是设置成定位符号的修调值，满足对齐要求后的。
address可以是一个任意表达式，比如ALIGN(0x10)这将把该section的VMA设置成定位符号的修调值，满足16字节对齐后的。
注意：设置address值，将更改定位符号的值。

2.2 输入section描述

最常见的输出section描述命令是输入section描述。
输入section描述是最基本的连接脚本描述。

2.2.1 输入section描述基础

FILENAME([EXCLUDE_FILE (FILENAME1 FILENAME2 ...)] SECTION1 SECTION2 ...)

FILENAME文件名，可以是一个特定的文件的名字，也可以是一个字符串模式。
SECTION名字，可以是一个特定的section名字，也可以是一个字符串模式

输入section描述举例：

*(.text)

表示所有输入文件的.text section

(*(EXCLUDE_FILE (*crtend.o *otherfile.o) .ctors))

表示除crtend.o、otherfile.o文件外的所有输入文件的.ctors section。

data.o(.data)

表示data.o文件的.data section
data.o 表示data.o文件的所有section

*(.text .data)

表示所有文件的.text section和.data section，顺序是：第一个文件的.text section，第一个文件的.data section，第二个文件的.text section，第二个文件的.data section，…

*(.text) *(.data)

表示所有文件的.text section和.data section，顺序是：第一个文件的.text section，第二个文件的.text section，…，最后一个文件的.text section，第一个文件的.data section，第二个文件的.data section，…，最后一个文件的.data section

当FILENAME是一个特定的文件名时，连接器会查看它是否在连接命令行内出现或在INPUT命令中出现。
当FILENAME是一个字符串模式时，连接器仅仅只查看它是否在连接命令行内出现。

注意：如果连接器发现某文件在INPUT命令内出现，那么它会在-L指定的路径内搜寻该文件。

2.2.2 字符串模式匹配

字符串模式内可存在以下通配符：

* ：表示任意多个字符
? ：表示任意一个字符
[CHARS] ：表示任意一个CHARS内的字符，可用-号表示范围，如：a-z
\：表示引用下一个紧跟的字符在文件名内，通配符不匹配文件夹分隔符/，但当字符串模式仅包含通配符*时除外。

任何一个文件的任意section只能在SECTIONS命令内出现一次。看如下例子，

SECTIONS {
.data : { *(.data) }
.data1 : { data.o(.data) }
}

data.o文件的.data section在第一个OUTPUT-SECTION-COMMAND命令内被使用了，那么在第二个OUTPUT-SECTION-COMMAND命令内将不会再被使用，也就是说即使连接器不报错，输出文件的.data1 section的内容也是空的。

再次强调：连接器依次扫描每个OUTPUT-SECTION-COMMAND命令内的文件名，任何一个文件的任何一个section都只能使用一次。

读者可以用-M连接命令选项来产生一个map文件，它包含了所有输入section到输出section的组合信息。
再看个例子，

SECTIONS {
.text : { *(.text) }
.DATA : { [A-Z]*(.data) }
.data : { *(.data) }
.bss : { *(.bss) }
}

这个例子中说明，所有文件的输入.text section组成输出.text section；所有以大写字母开头的文件的.data section组成输出.DATA section，其他文件的.data section组成输出.data section；所有文件的输入.bss section组成输出.bss section。
可以用SORT()关键字对满足字符串模式的所有名字进行递增排序，如SORT(.text*)。

2.2.3 通用符号(common symbol)的输入section

在许多目标文件格式中，通用符号并没有占用一个section。
连接器认为：输入文件的所有通用符号在名为COMMON的section内。
例子，

.bss { *(.bss) *(COMMON) }

这个例子中将所有输入文件的所有通用符号放入输出.bss section内。可以看到COMMOM section的使用方法跟其他section的使用方法是一样的。
有些目标文件格式把通用符号分成几类。例如，在MIPS elf目标文件格式中，把通用符号分成standard common symbols(标准通用符号)和small common symbols(微通用符号，不知道这么译对不对？)，此时连接器认为所有standard common symbols在COMMON section内，而small common symbols在.scommon section内。
在一些以前的连接脚本内可以看见[COMMON]，相当于*(COMMON)，不建议继续使用这种陈旧的方式。

2.2.4 输入section和垃圾回收

在链接命令行内使用了选项–gc-sections后，链接器可能将某些它认为没用的section过滤掉，此时就有必要强制连接器保留一些特定的 section，可用KEEP()关键字达此目的。如

KEEP(*(.text))

或

KEEP(SORT(*)(.text))

2.2.5 输入section简单例子

最后看个简单的输入section相关例子：

SECTIONS {
	outputa 0×10000 :
	{
		all.o
		foo.o (.input1)
	}
	outputb :
	{
		foo.o (.input2)
		foo1.o (.input1)
	}
	outputc :
	{
		*(.input1)
		*(.input2)
	}
}

本例中:

将all.o文件的所有section和foo.o文件的所有(一个文件内可以有多个同名section).input1 section依次放入输出outputa section内，该section的VMA是0×10000；
将foo.o文件的所有.input2 section和foo1.o文件的所有.input1 section依次放入输出outputb section内，该section的VMA是当前定位器符号的修调值(对齐后)；将其他文件(非all.o、foo.o、foo1.o)文件的. input1 section和.input2 section放入输出outputc section内。

2.2.6 在输出section存放数据命令

能够显示地在输出section内填入你想要填入的信息(这样是不是可以自己通过连接脚本写程序？当然是简单的程序)。
BYTE(EXPRESSION) 1 字节
SHORT(EXPRESSION) 2 字节
LOGN(EXPRESSION) 4 字节
QUAD(EXPRESSION) 8 字节
SQUAD(EXPRESSION) 64位处理器的代码时，8 字节
输出文件的字节顺序big endianness 或little endianness，可以由输出目标文件的格式决定；
如果输出目标文件的格式不能决定字节顺序，那么字节顺序与第一个输入文件的字节顺序相同。
如1个字节后跟addr符号的4个字节（?）：

BYTE(1)
LANG(addr)

注意，这些命令只能放在输出section描述内，其他地方不行。

错误：

SECTIONS { 
	.text : { *(.text) } LONG(1) 
	.data : { *(.data) } 
}

正确：

SECTIONS { 
	.text : { *(.text) LONG(1) } 
	.data : { *(.data) } 
}

当前输出section内可能存在未描述的存储区域(比如由于对齐造成的空隙)，可以用FILL(EXPRESSION)命令决定这些存储区域的内容， EXPRESSION的前两字节有效，这两字节在必要时可以重复被使用以填充这类存储区域。如:

FILL(0×9090)

在输出section描述中可以有"=fillexp"属性，它的作用如同FILL命令，但是FILL命令只作用于该FILL指令之后的section区域，而"=fillexp"属性作用于整个输出section区域，且FILL命令的优先级更高！！！

2.2.7 输出section内命令的关键字

CREATE_OBJECT_SYMBOLS
为每个输入文件建立一个符号，符号名为输入文件的名字。每个符号所在的section是出现该关键字的section。
CONSTRUCTORS
与c++内的(全局对象的)构造函数和(全局对象的)析构函数相关，下面将它们简称为全局构造和全局析构。
对于a.out目标文件格式，连接器用一些不寻常的方法实现c++的全局构造和全局析构。当连接器生成的目标文件格式不支持任意section名字时，比如说ECOFF、XCOFF格式，连接器将通过名字来识别全局构造和全局析构，对于这些文件格式，连接器把与全局构造和全局析构的相关信息放入出现 CONSTRUCTORS关键字的输出section内。
符号__CTORS_LIST__表示全局构造信息的的开始处，__CTORS_END__表示全局构造信息的结束处。
符号__DTORS_LIST__表示全局构造信息的的开始处，__DTORS_END__表示全局构造信息的结束处。
这两块信息的开始处是一字长的信息，表示该块信息有多少项数据，然后以值为零的一字长数据结束。
一般来说，GNU C++在函数__main内安排全局构造代码的运行，而__main函数被初始化代码(在main函数调用之前执行)调用。是不是对于某些目标文件格式才这样？？？
对于支持任意section名的目标文件格式，比如COFF、ELF格式，GNU C++将全局构造和全局析构信息分别放入.ctors section和.dtors section内，然后在连接脚本内加入如下，

__CTOR_LIST__ = .;
LONG((__CTOR_END__ – __CTOR_LIST__) / 4 – 2)
*(.ctors)
LONG(0)
__CTOR_END__ = .;
__DTOR_LIST__ = .;
LONG((__DTOR_END__ – __DTOR_LIST__) / 4 – 2)
*(.dtors)
LONG(0)
__DTOR_END__ = .;

如果使用GNU C++提供的初始化优先级支持(它能控制每个全局构造函数调用的先后顺序)，那么请在连接脚本内把CONSTRUCTORS替换成SORT (CONSTRUCTS)，把*(.ctors)换成*(SORT(.ctors))，把*(.dtors)换成*(SORT(.dtors))。一般来说，默认的连接脚本已作好的这些工作。

2.2.8 输出section的丢弃

例子

.foo : { *(.foo) }

如果没有任何一个输入文件包含.foo section，那么连接器将不会创建.foo输出section。但是如果在这些输出section描述内包含了非输入section描述命令(如符号赋值语句)，那么连接器将总是创建该输出section。
有一个特殊的输出section，名为/DISCARD/，被该section引用的任何输入section将不会出现在输出文件内，这就是DISCARD的意思吧。如果/DISCARD/ section被它自己引用呢？想想看。
输出section属性：

2.2.9 输出section属性

我们再回顾一下输出section描述的文法：

SECTION [ADDRESS] [(TYPE)] : [AT(LMA)]
{
	OUTPUT-SECTION-COMMAND
	OUTPUT-SECTION-COMMAND
	…
} [>REGION] [AT>LMA_REGION] [:PHDRHDR ...] [=FILLEXP]

前面我们浏览了SECTION、ADDRESS、OUTPUT-SECTION-COMMAND相关信息，下面我们将浏览其他属性。

TYPE
如果没有指定TYPE类型，那么链接器根据输入section的属性来设置输出section的类型。通过TYPE属性可以覆盖，它可以为以下五种值：
NOLOAD ：该section在程序运行时，不能被载入内存。
DSECT,COPY,INFO,OVERLAY ：这些类型很少被使用，为了向后兼容才被保留下来。这种类型的section具有共同的特点，在程序运行时不能为他们分配内存。
如下例,输出section ROM VMA地址为0，且程序运行时不需要被加载，则链接脚本可定义如下：

SECTIONS {
	ROM 0 (NOLOAD) : { ... }
	...
}

输出section的LMA
每个输出section都有LMA和VMA, 默认情况下，LMA等于VMA，可以通过关键字AT(LMA)指定LMA。也可用 ‘AT>lma_region’ 表达式设置指定该section加载地址的范围，如果没有指定VMA，则会用lma_region作为VMA的范围.如果一个可分配的section既没有指定AT也没有指定AT>，那么链接器将设置LMA，使该部分的VMA和LMA之间的diﬀerence与同一区域的前一个输出section相同。如果前面没有输出section，或者该部分为不可分配，链接器将设置LMA等于VMA。这个属性主要用于构件ROM境象。
例子，

SECTIONS
{
	.text 0×1000 : { *(.text) _etext = . ; }//前面没有输出section,VMA=LMA
	.mdata 0×2000 :
		AT ( ADDR (.text) + SIZEOF (.text) ) //AT设置了LMA
		{ _data = . ; *(.data); _edata = . ; }
	.bss 0×3000 :
		{ _bstart = . ; *(.bss) *(COMMON) ; _bend = . ;}//没有AT/AT>,VMA与LMA的diffrence与前一个输出section相同
}

程序如下，

extern char _etext, _data, _edata, _bstart, _bend;
char *src = &_etext;
char *dst = &_data;
/* ROM has data at end of text; copy it. */
while (dst < &_edata) {
	*dst++ = *src++;
}
/* Zero bss */
for (dst = &_bstart; dst< &_bend; dst++)
	*dst = 0;

通过如上实例体会将ROM映像中的初始化数据复制到它的运行时地址。请注意这段代码是如何利用链接器脚本

2.2.10 强制输出section对齐

可以使用ALIGN关键字强制输出section对齐

SECTIONS { 
	.text : 
	{ 
		*(.text) }
	}
	. = ALIGN(4);
}

2.2.11 输出section区域

通过使用 ‘>region’将一个section指定到先前定义的区域：

MEMORY { rom : ORIGIN = 0x1000, LENGTH = 0x1000 }
SECTIONS { ROM : { *(.text) } >rom }

2.2.12 输出section Phdr

可以使用‘：Phdr’ 将section放入预先定义的程序段(program segment)内。如果某个输出section被指定给一个或多个段，那么接下来分配的section也将被指定给那些段，除非使用了:phdr修改符。例子，

PHDRS { text PT_LOAD ; }
SECTIONS { .text : { *(.text) } :text }//指定将text section放到PT_LOAD程序段

可以通过:NONE指定连接器不把该section放入任何程序段内。

2.2.13 输出section的填充

任何输出section描述内的未指定的内存区域，连链接器用该模版填充该区域。用法：=FILEEXP，前两字节有效，当区域大于两字节时，重复使用这两字节以将其填满。例子，

SECTIONS { .text : { *(.text) } =0×9090 }

2.2.14 覆盖图(overlay)描述

覆盖图描述使两个或多个不同的section占用同一块程序地址空间。覆盖图管理代码负责将section的拷入和拷出。考虑这种情况，当某存储块的访问速度比其他存储块要快时，那么如果将section拷到该存储块来执行或访问，那么速度将会有所提高，覆盖图描述就很适合这种情形。文法如下，

SECTIONS {
	…
	OVERLAY [START] : [NOCROSSREFS] [AT ( LDADDR )]
	{
		SECNAME1
		{
			OUTPUT-SECTION-COMMAND
			OUTPUT-SECTION-COMMAND
			…
		} [:PHDR...] [=FILL]
		SECNAME2
		{
			OUTPUT-SECTION-COMMAND
			OUTPUT-SECTION-COMMAND
			…
		} [:PHDR...] [=FILL]
		…
	} [>REGION] [:PHDR...] [=FILL]
	…
}

由以上文法可以看出，同一覆盖图内的section具有相同的VMA。SECNAME2的LMA为SECTNAME1的LMA加上SECNAME1的大小，同理计算SECNAME2,3,4…的LMA。SECNAME1的LMA由LDADDR决定，如果它没有被指定，那么由START决定，如果它也没有被指定，那么由当前定位符号的值决定。
NOCROSSREFS关键字指定各section之间不能交叉引用，否则报错。
对于OVERLAY描述的每个section，连接器将定义两个符号__load_start_SECNAME和__load_stop_SECNAME，这两个符号的值分别代表SECNAME section的LMA地址的开始和结束。
连接器处理完OVERLAY描述语句后，将定位符号的值加上所有覆盖图内section大小的最大值。
例：

SECTIONS{
	…
	OVERLAY 0×1000 : AT (0×4000)
	{
		.text0 { o1/*.o(.text) }
		.text1 { o2/*.o(.text) }
	}
	…
}

.text0 section和.text1 section的VMA地址是0×1000，.text0 section加载于地址0×4000，.text1 section紧跟在其后。连接器会定义如下的符号:
__load_start_text0, __load_stop_text0,
__load_start_text1, __load_stop_text1.
拷贝.text1到overlay区域的代码如下：

extern char __load_start_text1, __load_stop_text1;
memcpy ((char *) 0x1000, &__load_start_text1,
&__load_stop_text1 - &__load_start_text1);

OVERLAY 命令只是syntactic sugar，因为它所做的一切都可以用更基本的命令来完成。上面的例子可以完全写成:

.text0 0x1000 : AT (0x4000) { o1/*.o(.text) }
PROVIDE (__load_start_text0 = LOADADDR (.text0));
PROVIDE (__load_stop_text0 = LOADADDR (.text0) + SIZEOF (.text0));

.text1 0x1000 : AT (0x4000 + SIZEOF (.text0)) { o2/*.o(.text) }
PROVIDE (__load_start_text1 = LOADADDR (.text1));
PROVIDE (__load_stop_text1 = LOADADDR (.text1) + SIZEOF (.text1));
. = 0x1000 + MAX (SIZEOF (.text0), SIZEOF (.text1));