36、深入理解Go语言的底层编程

bread

于 2025-12-04 10:45:49 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏： Go语言实战精讲文章标签： Go语言 unsafe.Pointer 内存布局

本文链接：https://blog.youkuaiyun.com/bread/article/details/155628169

Go语言实战精讲专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入理解Go语言的底层编程

1. 结构体的内存布局

在不同的平台上，结构体的内存布局会有所不同。以下是典型32位和64位平台上结构体的内存布局信息：
| 平台 | Sizeof(x) | Alignof(x) | Sizeof(x.a) | Alignof(x.a) | Offsetof(x.a) | Sizeof(x.b) | Alignof(x.b) | Offsetof(x.b) | Sizeof(x.c) | Alignof(x.c) | Offsetof(x.c) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 32位 | 16 | 4 | 1 | 1 | 0 | 2 | 2 | 2 | 12 | 4 | 4 |
| 64位 | 32 | 8 | 1 | 1 | 0 | 2 | 2 | 2 | 24 | 8 | 8 |

这些函数虽然名字可能让人觉得不安全，但实际上它们对于理解程序中原始内存的布局很有帮助，特别是在进行空间优化时。

2. unsafe.Pointer

在Go语言中，大多数指针类型写作 *T ，表示“指向类型T变量的指针”。而 unsafe.Pointer 是一种特殊的指针，它可以持有任何变量的地址。不过，我们不能使用 *p 来间接访问 unsafe.Pointer ，因为我们不知道这个表达式应该是什么类型。和普通指针一样， unsafe.Pointer 是可比较的，并且可以和 nil 进行比较， nil 是该类型的零值。

2.1 指针类型转换

普通的 *T 指针可以转换为 unsafe.Pointer ，反之亦然，且转换后的指针类型不一定和原来的 *T 相同。例如，我们可以将 *float64 指针转换为 *uint64 ，从而检查浮点变量的位模式：

package math
func Float64bits(f float64) uint64 { return *(*uint64)(unsafe.Pointer(&f)) }
fmt.Printf("%#016x\n", Float64bits(1.0)) // "0x3ff0000000000000"

通过转换后的指针，我们还可以更新位模式。对于浮点变量来说，这是无害的，因为任何位模式都是合法的。但一般来说， unsafe.Pointer 转换允许我们向内存中写入任意值，从而绕过类型系统。

2.2 与uintptr的转换

unsafe.Pointer 还可以转换为 uintptr ，它持有指针的数值，这样我们就可以对地址进行算术运算。不过，从 uintptr 转换回 unsafe.Pointer 可能会绕过类型系统，因为并非所有数字都是有效的地址。

以下是一个示例，展示了如何通过地址偏移来更新结构体字段的值：

var x struct {
    a bool
    b int16
    c []int
}
// equivalent to pb := &x.b
pb := (*int16)(unsafe.Pointer(
    uintptr(unsafe.Pointer(&x)) + unsafe.Offsetof(x.b)))
*pb = 42
fmt.Println(x.b) // "42"

需要注意的是，下面的代码是错误的：

// NOTE: subtly incorrect!
tmp := uintptr(unsafe.Pointer(&x)) + unsafe.Offsetof(x.b)
pb := (*int16)(unsafe.Pointer(tmp))
*pb = 42

原因是一些垃圾回收器会移动内存中的变量，以减少碎片化或进行簿记操作。从垃圾回收器的角度来看， unsafe.Pointer 是一个指针，其值会随着变量的移动而改变，而 uintptr 只是一个数字，其值不会改变。上述错误代码将指针隐藏在非指针变量 tmp 中，可能导致后续操作访问到错误的内存地址。

2.3 使用建议

目前的Go实现虽然没有使用移动垃圾回收器，但未来可能会有。因此，我们应该尽量减少 unsafe.Pointer 到 uintptr 转换后的操作数量，并在调用返回 uintptr 的库函数时，立即将结果转换为 unsafe.Pointer ，以确保它仍然指向同一个变量。例如：

package reflect
func (Value) Pointer() uintptr
func (Value) UnsafeAddr() uintptr
func (Value) InterfaceData() [2]uintptr // (index 1)

3. 示例：深度等价比较

reflect 包中的 DeepEqual 函数用于报告两个值是否“深度”相等。它比较基本值时就像使用内置的 == 运算符一样；对于复合值，它会递归遍历并比较相应的元素。由于它适用于任何类型的值，因此在测试中得到了广泛的应用。

3.1 DeepEqual的局限性

然而， DeepEqual 的区分有时可能显得有些随意。例如，它不认为 nil 映射与非 nil 的空映射相等，也不认为 nil 切片与非 nil 的空切片相等：

var a, b []string = nil, []string{}
fmt.Println(reflect.DeepEqual(a, b)) // "false"
var c, d map[string]int = nil, make(map[string]int)
fmt.Println(reflect.DeepEqual(c, d)) // "false"

3.2 自定义深度比较函数

为了解决这个问题，我们可以定义一个 Equal 函数，它比较切片和映射时基于它们的元素，并且认为 nil 切片（或映射）与非 nil 的空切片（或映射）相等。

以下是 Equal 函数的实现：

package main

import (
    "fmt"
    "reflect"
    "unsafe"
)

type comparison struct {
    x, y unsafe.Pointer
    t    reflect.Type
}

func equal(x, y reflect.Value, seen map[comparison]bool) bool {
    if !x.IsValid() || !y.IsValid() {
        return x.IsValid() == y.IsValid()
    }
    if x.Type() != y.Type() {
        return false
    }
    // cycle check
    if x.CanAddr() && y.CanAddr() {
        xptr := unsafe.Pointer(x.UnsafeAddr())
        yptr := unsafe.Pointer(y.UnsafeAddr())
        if xptr == yptr {
            return true // identical references
        }
        c := comparison{xptr, yptr, x.Type()}
        if seen[c] {
            return true // already seen
        }
        seen[c] = true
    }
    switch x.Kind() {
    case reflect.Bool:
        return x.Bool() == y.Bool()
    case reflect.String:
        return x.String() == y.String()
    case reflect.Chan, reflect.UnsafePointer, reflect.Func:
        return x.Pointer() == y.Pointer()
    case reflect.Ptr, reflect.Interface:
        return equal(x.Elem(), y.Elem(), seen)
    case reflect.Array, reflect.Slice:
        if x.Len() != y.Len() {
            return false
        }
        for i := 0; i < x.Len(); i++ {
            if !equal(x.Index(i), y.Index(i), seen) {
                return false
            }
        }
        return true
    }
    panic("unreachable")
}

// Equal reports whether x and y are deeply equal.
func Equal(x, y interface{}) bool {
    seen := make(map[comparison]bool)
    return equal(reflect.ValueOf(x), reflect.ValueOf(y), seen)
}

func main() {
    fmt.Println(Equal([]int{1, 2, 3}, []int{1, 2, 3})) // "true"
    fmt.Println(Equal([]string{"foo"}, []string{"bar"})) // "false"
    fmt.Println(Equal([]string(nil), []string{})) // "true"
    fmt.Println(Equal(map[string]int(nil), map[string]int{})) // "true"
    type link struct {
        value string
        tail  *link
    }
    a, b, c := &link{value: "a"}, &link{value: "b"}, &link{value: "c"}
    a.tail, b.tail, c.tail = b, a, c
    fmt.Println(Equal(a, a)) // "true"
    fmt.Println(Equal(b, b)) // "true"
    fmt.Println(Equal(c, c)) // "true"
    fmt.Println(Equal(a, b)) // "false"
    fmt.Println(Equal(a, c)) // "false"
}

在这个实现中，我们定义了一个未导出的递归函数 equal ，并在 Equal 函数中调用它。为了确保算法在处理循环数据结构时能够终止，我们使用了一个 seen 映射来记录已经比较过的变量对。

3.3 流程图

graph TD
    A[开始] --> B{检查x和y是否有效}
    B -- 否 --> C{判断x和y的有效性是否相同}
    C -- 是 --> D[返回true]
    C -- 否 --> E[返回false]
    B -- 是 --> F{检查x和y的类型是否相同}
    F -- 否 --> E
    F -- 是 --> G{检查是否为循环引用}
    G -- 是 --> D
    G -- 否 --> H{根据x的类型进行比较}
    H -- Bool --> I{比较x和y的布尔值}
    I -- 相同 --> D
    I -- 不同 --> E
    H -- String --> J{比较x和y的字符串值}
    J -- 相同 --> D
    J -- 不同 --> E
    H -- Chan/UnsafePointer/Func --> K{比较x和y的指针值}
    K -- 相同 --> D
    K -- 不同 --> E
    H -- Ptr/Interface --> L[递归比较x和y的元素]
    L --> B
    H -- Array/Slice --> M{检查x和y的长度是否相同}
    M -- 否 --> E
    M -- 是 --> N[遍历x和y的元素并递归比较]
    N --> B
    H -- 其他 --> O[抛出异常]

4. 练习

定义一个深度比较函数，当两个数字（任何类型）的差值小于十亿分之一时，认为它们相等。
编写一个函数，报告其参数是否为循环数据结构。

5. 使用cgo调用C代码

在实际开发中，Go程序可能需要使用用C语言实现的硬件驱动、查询用C++实现的嵌入式数据库，或者使用用Fortran实现的线性代数例程。由于C语言长期以来一直是编程的通用语言，许多广泛使用的软件包都会导出与C兼容的API。

5.1 cgo简介

cgo是一个工具，用于为C函数创建Go绑定，这类工具被称为外部函数接口（FFIs）。除了cgo，还有SWIG等工具，不过这里我们主要介绍cgo。

5.2 示例：数据压缩程序

我们将构建一个简单的数据压缩程序，使用bzip2算法，该算法基于优雅的Burrows - Wheeler变换，虽然运行速度比gzip慢，但压缩效果显著更好。标准库中的 compress/bzip2 包提供了bzip2的解压缩器，但目前没有压缩器，我们将使用cgo包装一个C语言实现的bzip2库。

5.2.1 C代码部分

首先，我们需要一个C源文件来包装libbzip2库的部分函数，代码如下：

/* This file is gopl.io/ch13/bzip/bzip2.c, */
/* a simple wrapper for libbzip2 suitable for cgo. */
#include <bzlib.h>

int bz2compress(bz_stream *s, int action,
                char *in, unsigned *inlen, char *out, unsigned *outlen) {
    s->next_in = in;
    s->avail_in = *inlen;
    s->next_out = out;
    s->avail_out = *outlen;
    int r = BZ2_bzCompress(s, action);
    *inlen -= s->avail_in;
    *outlen -= s->avail_out;
    return r;
}

5.2.2 Go代码部分

以下是Go代码的实现：

package bzip

/*
#cgo CFLAGS: -I/usr/include
#cgo LDFLAGS: -L/usr/lib -lbz2
#include <bzlib.h>
int bz2compress(bz_stream *s, int action,
                char *in, unsigned *inlen, char *out, unsigned *outlen);
*/
import "C"

import (
    "io"
    "unsafe"
)

type writer struct {
    w        io.Writer // underlying output stream
    stream   *C.bz_stream
    outbuf   [64 * 1024]byte
}

// NewWriter returns a writer for bzip2-compressed streams.
func NewWriter(out io.Writer) io.WriteCloser {
    const (
        blockSize  = 9
        verbosity  = 0
        workFactor = 30
    )
    w := &writer{w: out, stream: new(C.bz_stream)}
    C.BZ2_bzCompressInit(w.stream, blockSize, verbosity, workFactor)
    return w
}

func (w *writer) Write(data []byte) (int, error) {
    if w.stream == nil {
        panic("closed")
    }
    var total int // uncompressed bytes written
    for len(data) > 0 {
        inlen, outlen := C.uint(len(data)), C.uint(cap(w.outbuf))
        C.bz2compress(w.stream, C.BZ_RUN,
            (*C.char)(unsafe.Pointer(&data[0])), &inlen,
            (*C.char)(unsafe.Pointer(&w.outbuf)), &outlen)
        total += int(inlen)
        data = data[inlen:]
        if _, err := w.w.Write(w.outbuf[:outlen]); err != nil {
            return total, err
        }
    }
    return total, nil
}

// Close flushes the compressed data and closes the stream.
// It does not close the underlying io.Writer.
func (w *writer) Close() error {
    if w.stream == nil {
        panic("closed")
    }
    defer func() {
        C.BZ2_bzCompressEnd(w.stream)
        w.stream = nil
    }()
    for {
        inlen, outlen := C.uint(0), C.uint(cap(w.outbuf))
        r := C.bz2compress(w.stream, C.BZ_FINISH, nil, &inlen,
            (*C.char)(unsafe.Pointer(&w.outbuf)), &outlen)
        if _, err := w.w.Write(w.outbuf[:outlen]); err != nil {
            return err
        }
        if r == C.BZ_STREAM_END {
            return nil
        }
    }
}

在上述代码中， NewWriter 函数调用C函数 BZ2_bzCompressInit 来初始化流的缓冲区； Write 方法将未压缩的数据传递给压缩器，循环调用 bz2compress 函数，直到所有数据都被处理； Close 方法使用循环将流的输出缓冲区中的剩余压缩数据刷新出来，并调用 C.BZ2_bzCompressEnd 释放缓冲区。

5.2.3 主程序

以下是一个使用上述 bzip 包的主程序：

package main

import (
    "io"
    "log"
    "os"
    "gopl.io/ch13/bzip"
)

func main() {
    w := bzip.NewWriter(os.Stdout)
    if _, err := io.Copy(w, os.Stdin); err != nil {
        log.Fatalf("bzipper: %v\n", err)
    }
    if err := w.Close(); err != nil {
        log.Fatalf("bzipper: close: %v\n", err)
    }
}

5.3 测试

以下是一个测试示例，展示了如何使用上述程序压缩和解压缩文件：

$ go build gopl.io/ch13/bzipper
$ wc -c < /usr/share/dict/words
938848
$ sha256sum < /usr/share/dict/words
126a4ef38493313edc50b86f90dfdaf7c59ec6c948451eac228f2f3a8ab1a6ed -
$ ./bzipper < /usr/share/dict/words | wc -c
335405
$ ./bzipper < /usr/share/dict/words | bunzip2 | sha256sum
126a4ef38493313edc50b86f90dfdaf7c59ec6c948451eac228f2f3a8ab1a6ed -

从测试结果可以看出，使用 bzipper 程序将 /usr/share/dict/words 文件从938,848字节压缩到335,405字节，约为原始大小的三分之一，并且压缩前后的SHA256哈希值相同，说明压缩器工作正常。

5.4 注意事项

writer 不是并发安全的，并发调用 Close 和 Write 可能会导致程序在C代码中崩溃。
在使用cgo时，需要注意指针传递的规则，因为从Go到C或反之传递指针的正确规则比较复杂。

5.5 流程图

graph TD
    A[开始] --> B[创建bzip writer]
    B --> C[从标准输入复制数据到writer]
    C --> D{复制是否成功}
    D -- 否 --> E[记录错误并退出]
    D -- 是 --> F[关闭writer]
    F --> G{关闭是否成功}
    G -- 否 --> E
    G -- 是 --> H[结束]