protobuffer中string和bytes类型

从上一节protobuffer的介绍中我们知道字符串类型在protobuffer中有string和bytes两种类型,那这两种类型有什么区别呢,什么时候用string,什么时候用bytes。在C++中两种类型分别对应的是什么类型.下面将揭开迷雾

string与bytes区别

按照经验我们知道bytes一般适用于存储二进制数据的,但在C++中,string既可以存储ASCII文本字符串,也能存储任意多个\0的二进制序列,那两者的区别在哪里呢?

  • string类型(protobuffer中的string,与C++区别开)不能存储非法的UTF-8字符,如果遇到该字符,序列化的时候将会出错。

[libprotobuf ERROR google/protobuf/wire_format.cc:1091] String field ‘str’ contains invalid UTF-8 data when serializing a protocol buffer. Use the ‘bytes’ type if you intend to send raw bytes.

###出现上述错误的原因
这里从ProtoBuf的源码进行分析。protoBuf在序列化的过程中,都会调用SerializeFieldWithCachedSizes这个函数。我们看一下序列化string和bytes在序列化过程中的区别。

对于string类型:

1
2
3
4
5
6
7
8
9
10
11
case FieldDescriptor::TYPE_STRING: {
string scratch;
const string& value = field->is_repeated() ?
message_reflection->GetRepeatedStringReference(
message, field, j, &scratch) :
message_reflection->GetStringReference(message, field, &scratch);
VerifyUTF8StringNamedField(value.data(), value.length(), SERIALIZE,
field->name().c_str());
WireFormatLite::WriteString(field->number(), value, output);
break;
}

对于bytes类型:

1
2
3
4
5
6
7
8
9
case FieldDescriptor::TYPE_BYTES: {
string scratch;
const string& value = field->is_repeated() ?
message_reflection->GetRepeatedStringReference(
message, field, j, &scratch) :
message_reflection->GetStringReference(message, field, &scratch);
WireFormatLite::WriteBytes(field->number(), value, output);
break;
}

从上面可以看到,序列化string和bytes的区别主要在于:string类型序列化调用了VerifyUTF8StringNamedField函数检验string中是否有非法的UTF-8字符。其中VerifyUTF8StringNamedField实现如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
void WireFormat::VerifyUTF8StringFallback(const char* data,
int size,
Operation op,
const char* field_name) {
if (!IsStructurallyValidUTF8(data, size)) {
const char* operation_str = NULL;
switch (op) {
case PARSE:
operation_str = "parsing";
break;
case SERIALIZE:
operation_str = "serializing";
break;
// no default case: have the compiler warn if a case is not covered.
}
string quoted_field_name = "";
if (field_name != NULL) {
quoted_field_name = StringPrintf(" '%s'", field_name);
}
// no space below to avoid double space when the field name is missing.
GOOGLE_LOG(ERROR) << "String field" << quoted_field_name << " contains invalid "
<< "UTF-8 data when " << operation_str << " a protocol "
<< "buffer. Use the 'bytes' type if you intend to send raw "
<< "bytes. ";
}
}

string和bytes类型在C++和Java中的区别

protobuf类型在C++和java中的类型对应如下:

  • 在C++中,string和bytes的实现都是std::string类型。
  • 在Java中string和bytes类型的实现分别是String和ByteString。

为什么bytes类型可以描述string类型,还需要string呢?

根据论坛上说的,string类型在Java中有较多的API可供使用,而bytes较少,所以能定义为string的尽量定义为string,如果字段值确定或者可能含有非法的utf-8编码,则使用bytes类型。

Comment and share

protobuffer学习总结

protobuffer是google开发的一种数据描述语言,它能够将结构化的数据序列化,并切可以将序列化的数据进行反序列化恢复原有的数据结构。一般用于数据存储以及通信协议方面。

如果是第一次使用protobuffer,我们可以将其与json或者xml进行类比,其实它与json或xml类似都可以作为数据的存储方式,不同的是json和xml是文本格式,而protobuffer是二进制格式。二进制格式不利于使用者直观的阅读,但是与json以及xml相比它有更多的优点。

protoBuffer相比于xml的优点

  • 更加简介
  • 体积小:消息大小只需要xml的1/10~1/3
  • 解析速度快:解析速度比xml快20~100倍
  • 使用proto Buffer的编译器,可以生成方便在编程中使用的数据访问代码.
  • 具有更好的兼容性,很好的支持向上或向下兼容的特性
  • 提供多种序列化的出口和入口,如文件流,string流,array流等等

protobuffer语法

消息类型实例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Package example;
message Person{
required string name = 1;
required int32 id = 2;
optional string email = 3;
enum PhoneType{
mobile = 1;
home = 2;
work = 3;
}
message PhoneNumber{
required string number = 1;
optional PhoneType type = 2;
}
repeated PhoneNumber phone = 4;
}

指定字段规则

protobuffer中字段规则包括一下三种:

  • required:实例中必须包含的字段
  • optional:实例中可以选择性包含的字段,若实例没有指定,则为默认值,若没有设置该字段的默认值,其值是该类型的默认值。如string默认值为””,bool默认值为false,整数默认值为0。
  • repeated: 可以有多个值的字段,这类变量类似于vector,可以存储此类型的多个值。

由于一些历史原因,基本数值类型的repeated的字段并没有被尽可能地高效编码。在新的代码中,用户应该使用特殊选项[packed=true]来保证更高效的编码。
一般情况下慎重使用required字段,当此字段一定是必要的时候才使用。

repeated使用实例:

1
2
3
4
5
6
7
8
message Person {
required int32 age = 1;
required string name = 2;
}
message Family {
repeated Person person = 1;
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
int main(int argc, char* argv[])
{
GOOGLE_PROTOBUF_VERIFY_VERSION;
Family family;
Person* person;
// 添加一个家庭成员,John
person = family.add_person();
person->set_age(25);
person->set_name("John");
// 添加一个家庭成员,Lucy
person = family.add_person();
person->set_age(23);
person->set_name("Lucy");
// 添加一个家庭成员,Tony
person = family.add_person();
person->set_age(2);
person->set_name("Tony");
// 显示所有家庭成员
int size = family.person_size();
cout << "这个家庭有 " << size << " 个成员,如下:" << endl;
for(int i=0; i<size; i++)
{
Person psn = family.person(i);
cout << i+1 << ". " << psn.name() << ", 年龄 " << psn.age() << endl;
}
getchar();
return 0;
}

数据类型

protobuffer中的数据类型与C++数据类型之间的关联如下图:

protobuffer类型 C++类型
double double
float float
int32 int32
int64 int64
uint32 uint32
uint64 uint64
sint32 int32
sint64 int64
fixed32 uint32
fixed64 uint64
sfixed32 uint32
sfixed64 uint64
bool bool
string string
bytes string

枚举

当需要定义一个消息类型的时候,我们可能想为某一个字段指定预定义列表中的值。这个时候就需要用到枚举

如:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
message SearchRequest {
required string query = 1;
optional int32 page_number = 2;
optional int32 result_per_page = 3 [default = 10];
enum Corpus {
UNIVERSAL = 0;
WEB = 1;
IMAGES = 2;
LOCAL = 3;
NEWS = 4;
PRODUCTS = 5;
VIDEO = 6;
}
optional Corpus corpus = 4 [default = UNIVERSAL];
}

变量标识号

在proto数据结构中,每一个变量都有唯一的数字标识。这些标识符的作用是在二进制格式中识别各个字段的,一旦开始使用就不可再改变。

此处需要注意的是1-15之内的标号在存储的时候只占一个字节,而大于15到162047之间的需要占两个字符,所以我们尽量为频繁使用的字段分配1-15内的标识号
。另外19000-19999之内的标识号已经被预留,不可用。最大标识号为2^29-1。

嵌套

protobuffer中的消息可以嵌套消息,也就是在一个message中定义另一个message。如上面实例可以看出。

扩展

我们可以通过扩展对proto文件进行扩展,而不需要直接区编辑原文件。

例如有原文件:

1
2
3
4
message Foo{
//...
extensions 100 to 199;
}

上述extensions 100 to 199表示此范围内的标识号被保留为扩展用。我们在扩展文件中就可以使用这些标识号了。

1
2
3
extend Foo{
optional int32 bar = 126;
}

上述为扩展。当用户的Foo消息被编码的时候,数据的传输格式与用户在Foo里定义新字段的效果是完全一样的。然而,要在程序代码中访问扩展字段的方法与访问普通的字段稍有不同——生成的数据访问代码为扩展准备了特殊的访问函数来访问它。例如,下面是如何在C++中设置bar的值:

1
2
Foo foo;
foo.SetExtentions(bar, 15);

注释

与c++注释风格相同。双斜杠

向上且向下兼容更新消息

当在需求不断增加的过程中,数据结构也会不断变化,这个时候就需要我们去更新消息。怎么才能做到更新消息不会影响之前的数据和代码。这个时候我们更新消息需要遵循以下几个原则:

  • 不要更改任何已有的字段的数值标识
  • 所添加的字段必须是optional或者repeated。

包名称解析

为了防止消息明明冲突,我们往往会在文件的开始出生命包,包的作用相当于命名空间。在编译成C++代码时也是namespace。例如:

1
2
3
4
package foo.bar;
message open{
///...
}

在C++对open进行访问的时候的访问方式为:

1
foo::bar::open test;

C++程序使用protobuffer

按照上面的规则我们可以设计出合理的protobuffer类型。然后下一步就是将proto文件生成C++头文件和实现文件,将.proto文件编译成C接口的方法如下:

1
protoc -I=SOURCE_DIR --cpp_out=DIST_DIR test.proto

使用proto生成的头文件进行编译时需要链接protobuffer库。具体为:

1
g++ main.cpp test.pb.cc -lprotobuf

protobuffer编译为C++代码的常用接口

对于C++来说,编译器会为每个.proto文件生成一个.h文件和.cc文件。.proto文件中的每一个消息对应一个类。
protobuffer中常用的函数:

  • has_name() :判断是否有当前成员
  • clear_name() :清空该成员变量值
  • name() :获取成员的变量值
  • set_name(string) :设置变量值
  • set_name(const char*):设置变量值
  • set_name(int) :设置变量值
  • clear() :清空所有元素为空状态
  • void CopyFrom(person):从给定的对象复制。
  • mutable_name() :获取变量name的指针
  • add_name() :为repeated变量增加值
  • ByteSize() :获取变量所占的字节数
    若有元素data属性为repeated,其行为类似于vector,则此时则可用下列函数:
  • add_data() : 添加data元素,返回值为Date*类型。
  • data_size() : 获取repeated元素size,即元素的个数。
  • data(i) : 获取data中地i个元素。
  • ByteSize() : 获取序列化之后的protobuff对象的长度。
  • CopyFrom(const ProtoType&): 从一个protobuf对象拷贝到另一个

常用的序列化方法

C数组的序列化与反序列化的API

如果想将其序列为char并通过socket进行传输,这是使用SerializeToArray来达到目的。
*除了下述的SerializeToArray方法之外,还有方法SerializePartialToArray,两者用法相同,其中唯一的区别在于SerializePartialToArray允许忽略required字段,而前者不允许

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
void* parray = (char*)malloc(256);
//API
bool ParseFromArray(const void* data, int size);
bool SerializeToArray(void* data. int size);
void set_people()
{
wp.set_name("sealyao");
wp.set_id(123456);
wp.set_email("sealyaog@gmail.com");
wp.SerializeToArray(parray,256);
}
void get_people()
{
rap.ParseFromArray(parray,256);
cout << "Get People from Array:" << endl;
cout << "\t Name : " <<rap.name() << endl;
cout << "\t Id : " << rap.id() << endl;
cout << "\t email : " << rap.email() << endl;
}

C++ String的序列化与反序列化API

除了下述的SerializeToString方法之外,还有方法SerializePartialToString,两者用法相同,其中唯一的区别在于SerializePartialToString允许忽略required字段,而前者不允许

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
//C++string序列化和序列化API
bool SerializeToString(string* output) const;
bool ParseFromString(const string& data);
//使用:
void set_people()
{
wp.set_name("sealyao");
wp.set_id(123456);
wp.set_email("sealyaog@gmail.com");
wp.SerializeToString(&pstring);
}
void get_people()
{
rsp.ParseFromString(pstring);
cout << "Get People from String:" << endl;
cout << "\t Name : " <<rsp.name() << endl;
cout << "\t Id : " << rsp.id() << endl;
cout << "\t email : " << rsp.email() << endl;
}

文件描述符序列化与反序列化API

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
//文件描述符的序列化和序列化API
bool SerializeToFileDescriptor(int file_descriptor) const;
bool ParseFromFileDescriptor(int file_descriptor);
//使用:
void set_people()
{
fd = open(path,O_CREAT|O_TRUNC|O_RDWR,0644);
if(fd <= 0){
perror("open");
exit(0);
}
wp.set_name("sealyaog");
wp.set_id(123456);
wp.set_email("sealyaog@gmail.com");
wp.SerializeToFileDescriptor(fd);
close(fd);
}
void get_people()
{
fd = open(path,O_RDONLY);
if(fd <= 0){
perror("open");
exit(0);
}
rp.ParseFromFileDescriptor(fd);
std::cout << "Get People from FD:" << endl;
std::cout << "\t Name : " <<rp.name() << endl;
std::cout << "\t Id : " << rp.id() << endl;
std::cout << "\t email : " << rp.email() << endl;
close(fd);
}

C++ stream 序列化和反序列化API

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
//C++ stream 序列化/反序列化API
bool SerializeToOstream(ostream* output) const;
bool ParseFromIstream(istream* input);
//使用:
void set_people()
{
fstream fs(path,ios::out|ios::trunc|ios::binary);
wp.set_name("sealyaog");
wp.set_id(123456);
wp.set_email("sealyaog@gmail.com");
wp.SerializeToOstream(&fs);
fs.close();
fs.clear();
}
void get_people()
{
fstream fs(path,ios::in|ios::binary);
rp.ParseFromIstream(&fs);
std::cout << "\t Name : " <<rp.name() << endl;
std::cout << "\t Id : " << rp.id() << endl;
std::cout << "\t email : " << rp.email() << endl;
fs.close();
fs.clear();
}

参考链接:

http://blog.csdn.net/mycwq/article/details/19622571
http://colobu.com/2015/01/07/Protobuf-language-guide/
https://worktile.com/tech/share/prototol-buffers
http://tech.meituan.com/serialization_vs_deserialization.html
http://blog.csdn.net/weiwangchao_/article/details/16797763

Comment and share

  • page 1 of 1

魏传柳(2824759538@qq.com)

author.bio


Tencent


ShenZhen,China