2.3 字符串_分布式存储系统：核心技术、系统实现与Go项目实战-QQ阅读男生中文科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3 字符串

在Go语言中，字符串是一种基础类型。我们可以通过string关键字来创建字符串变量。其实，字符串和切片在很多方面都非常相似，它们都由一个元数据的结构体以及一个连续的内存块组成。然而，字符串的内存块是不可更改的，这意味着字符串是一个不可变的字节序列。正因为这个不可变性，字符串的元数据结构只需要两个字段。字符串的元数据结构定义如代码清单2-12所示。

代码清单2-12 字符串的元数据结构定义

字符串的内容是只读的，其元数据结构包括地址指针和字符串长度，共占用16字节。因此，字符串的总内存占用大小就是这16字节的元数据加上字符串内容本身的内存使用量。

2.3.1 变量的定义

字符串的定义很简单，我们可以使用string关键字来定义一个字符串变量。例如，直接定义字符串变量的方法如下所示：

与数组和切片类似，我们可以使用len()函数来获取字符串的长度。但需注意的是，这里所指的长度是指字符串实际占用的字节数，而非字符的个数。Go语言的字符串默认使用UTF8编码，这与一些多字节编码的字符集是有很大区别的。

例如，若定义一个字符串并赋值为汉字“我”，则这个字符串实际会占用3字节的内存。中文字符串的定义示例如下：

汉字“我”的编码由0xe6、0x88、0x91这3个字节组成。可以使用dlv调试工具来观察中文字符串变量str的内容，如下所示：

我们来深入解释一下dlv的“x”命令中参数的含义：

❑ -fmt hex：指定以十六进制的格式展示数据。

❑ -count 3：指定打印3个数据单元。

❑ -size 1：指定每个数据单元占1字节。

实际上，dlv工具的“x”命令与gdb的“x”命令功能类似，只是格式略有区别。因此，如果你更熟悉gdb的命令，可以使用“x/3bx 0x0000000001065e14”命令来查看指定内存地址的内容。

2.3.2 内存的分配

字符串在内存中的分配通常有两种情形。一种是在只读区域，其内容在编译时就已确定，当进程启动并加载应用程序的二进制文件到内存地址空间时，这部分内容固定存储在只读区域；另一种是运行时分配的内存，如动态生成的字符串，可以被分配在堆上或者栈上。

与C语言不同，在Go语言中，内存分配的控制权不再由程序员直接掌握。程序员无法指定结构体的内存究竟分配在堆上还是栈上。在编译阶段，Go语言会进行一项名为“逃逸分析”的过程，由编译器来决定内存分配的地点。

提示

为了在使用调试工具分析Go程序的内存分配时获取更准确的信息，可以在编译Go程序时添加“-N -l”选项来禁用编译优化，这有助于我们直观地观察和理解内存是如何分配的。

例如，我们定义了一个字符串，如下所示：

在编译后，可以使用dlv调试工具来查看字符串的内存分配地址。下面是使用dlv调试str变量内容的示例：

图2-6直观地展示了这个字符串变量的结构。

在程序中，用var str="apple"这种方式定义的字符串，其内存分配可以在编译期间确定，并存储在二进制程序文件的.rodata段。利用objdump工具反汇编应用程序的二进制文件，执行的命令如下：

图2-6 字符串结构示意

通过上述输出我们可以看到，.rodata的地址范围是[0x458000，0x458000+0x27123]，而我们的字符串内容的存储地址0x4664c7正好位于这个区间内。

由于字符串是不可变的，因此将其放在这一内存区域是合理的。如果尝试修改原始字符串，编译器会在编译期间产生错误。

2.3.3 字符串的操作

在各种编程语言中，字符串的处理是一个普遍且常用的需求。特别是在I/O操作的过程中，字符串会频繁出现。Go语言为此提供了一系列字符串的操作方法。

1.简单操作

首先，字符串作为一种基础数据类型，可以使用便捷的运算符进行操作。例如，通过使用“+”运算可以实现字符串的连接，字符串之间还可以通过比较运算符（如>、<、==等）进行直接比较。

由于字符串具有类似数组的特点，类似数组的操作同样适用于字符串，例如索引访问、字符遍历和转换为切片等。

1）获取字符串内存大小（字节维度）的操作如下：

这里的长度是内存的长度，并不是字符的个数。在宽字符的场景，内存占用和字符个数并不一致。

2）按照字符串索引访问（字节维度）：

请注意，这里索引的取值是按照字节粒度的索引，并不是字符粒度的索引。比如，str="我"占用3个字节——0xe6、0x88和0x91，那么str[1]取到的是0x88。如果是普通的ASCII字符，那么索引读取的和字符的序列编号是一致的。

3）使用range遍历字符串（字符维度）：

这种方式以字符为最小单元进行遍历，比如str="我"，循环将只执行1次。如果想要按照字节维度去遍历读取，那么可以先通过len（str）获取到字节长度，然后通过str[x]索引取值的方式去遍历字符串的字节序列。

4）按照字符串切片的语法，生成子字符串：

生成的子字符串还是字符串类型，内容不可修改。

2.标准库strings的应用

在所有编程语言中，字符串的处理是常见的需求，如字符串的比较、查找、统计、分裂、排序、裁剪等操作频繁出现。为了方便这些操作，Go语言提供了一个专门处理字符串的标准库——strings，该库提供了诸如拼接、替换、比较、查找、裁剪和分裂等一系列实用方法。下面我们将通过一些具体的例子来介绍这些方法的使用。

（1）字符串拼接

在Go语言中，可以使用Join函数来实现字符串的拼接，该函数能把一个字符串数组拼接成一个大字符串。Join函数原型如下：

该函数接受两个参数：一个字符串数组和拼接使用的分隔符。返回值是拼接后生成的新字符串。注意，此操作不会改变原始的字符串。下面是使用Join函数进行字符串拼接的示例：

输出结果是：

（2）字符串替换

Go语言提供了Replace和ReplaceAll函数，用于替换字符串中的子字符串，并返回新的字符串。函数原型如下：

其中，ReplaceAll函数实际上是对Replace函数的封装，效果相当于调用Replace(s,old, new,-1)。以下是字符串替换函数的使用示例：

输出结果是：

（3）字符串比较

字符串比较有两种方式：一种是直接用<、>、==等运算符比较；另一种是使用Compare、EqualFold等函数比较。函数原型如下：

字符串比较示例如下：

输出结果是：

Go的字符串是逐字节比较的。也就是说，字符串的比较是按照字典序进行的。从头开始逐字节比较，若相等则继续向后比较，直至遇到不同的字节为止。以"hello/10" "hello/2""world"这3个字符串为例。首先，比较第一个字节，"w"（ASCII码为119）大于"h"（ASCII码为104），因此"world"最大。"hello/10"和"hello/2"有相同的前缀，继续比较后面的字符，直到发现"2"（ASCII码为50）大于"1"（ASCII码为49）。因此最终结果是："world">"hello/2">"hello/10"。这三个字符串结构示意如图2-7所示。

字典序的比较方式很常见，在数据存储的过程中频繁使用。特别是想要按一定顺序存储数据以优化读取效率时，就涉及数据排序的问题。最典型的例子就是LSM Tree存储引擎的SST（Sorted String Table）文件，我们将在后文中详细阐述这个文件。

（4）字符串查找

Go语言提供了多个函数用于在字符串内部查找子字符串，定位子字符串的位置，以及统计符合要求的字符串的个数。函数原型如下：

图2-7 字符串结构示意

下面是一些字符串查找函数的使用示例：

输出结果是：

以上函数中，有些是在字节维度上操作（如Compare、IndexByte），有些是在字符维度上操作（如Index、IndexAny等），请根据具体需求选择使用，尤其是在处理非ASCII字符时要特别注意。

（5）字符串裁剪和分裂

strings标准库提供了多个函数用于裁剪和分裂字符串。函数原型如下：

下面是一些字符串裁剪和分裂的示例：

输出结果是：

请注意，以上所有的字符串操作都不会修改原始字符串。这些操作都是生成新的字符串，以此保持字符串的不可变性。

2.3.4 类型转换

在Go语言中，字符串可以与某些结构体（比如切片）进行相互转换。这并不意味着Go是一种弱类型语言，相反，Go是一种强类型的语言。这里提到的“转换”是指通过一种类型的变量生成另一种类型的变量，而非改变原有变量的类型。这种转换的可行性主要源于字符串和切片在底层结构的相似性。

由于字符串是不可修改的，因此这个转换必然涉及新的内存的分配和复制。我们需要将字符串的内容复制到一个切片上，下面是字符串转换成切片的代码示例：

进行上述类型转换时，会分配新的内存空间，并将字符串的内容复制到新的内存上。这样做可以保证后续的切片是可以被修改的，同时不影响到原始的字符串。

这种[]byte和string的转换会被编译器转换成对stringtoslicebyte和slicebytetostring函数的调用，这两个函数的主要任务就是分配内存和复制数据，以保证前后的对象在内存上是不相关的，这样就能维护切片和字符串各自的语义。stringtoslicebyte函数的实现如代码清单2-13所示。

代码清单2-13 stringtoslicebyte函数的实现

因此，在处理I/O操作时，如果遇到字符串和切片的转换，我们必须格外小心。此处涉及内存的分配和复制，如果处理的数据量过大或者类型转换过于频繁，可能会对系统性能和资源造成双重消耗。在进行这种操作时，应该仔细权衡其必要性和潜在的代价。