编译器和汇编器在工作过程中，往往完成如下的任务：

(1) 读取源代码并且获得程序的结构描述；

(2) 分析程序结构，并且生成相应的目标代码。

Flex和Bison就是为可以帮助完成以上任务。Flex将源代码文件分解为各种词汇(token)，Bison找到这些词汇的组成方式。下面通过例子讲述它们的使用方法，在Cygwin环境下调试。

1. Flex

Flex是一个生成扫描器(scanner)的工具，生成的扫描器能够识别文本中的词法模式(lexical pattern)。Flex接受文本格式的Flex文件（扩展名可以为.l，.flx、.lex或者.flex）作为输入，生成一个c源文件：lex.yy.c，其中定义了一个函数yylex()，该函数就是扫描器。它根据Flex文件中定义的模式(pattern)对输入的文本串进行分析，然后执行对应的动作(Action)，该模式和对应的动作叫做规则。例如，可以定义一个模式识别自定义标识符，并在对应的动作中规定，如果遇到自定义标识符，将该标识符写入某个数组。另外，lex.yy.c可以编译后执行，也可以被其他源文件中的函数调用。

下面看一个简单的例子（example1.lex）：

int num_lines = 0, num_chars = 0;

%option noyywrap

\n num_lines; num_chars;
. num_chars;
%%
int main()
{
yylex();
printf( '# of lines = %d, # of chars = %d\n',num_lines, num_chars );

return 0;
}

在cygwin下，键入如下命令：

$flex example1.lex //该命令生成lex.yy.c文件

$gcc -g -Wall -o scan.exe lex.yy.c //该命令生成可执行文件scan.exe

$./scan 回车

键入几行字符，以Ctrl D结束。扫描程序scan.exe扫描键入的字符串，识别的根据模式执行动作，不识别的直接输出。本例中遇到换行符'\n'变量num_lines和num_chars加1，遇到字符num_chars加1，最后输出结果：

# of lines = 2, # of chars = 15

如果Flex文件中没有定义main函数，gcc编译时，需用参数-lfl链接fl库（gcc -g -Wall -lfl -o scan.exe lex.yy.c），利用其中的main函数。

1.1 Flex文件的结构

Flex文件是词法规范定义文件，给出了单词的构成规则，以及在某个规则下应该执行的动作。它由定义段、规则段和用户代码段三个部分构成，中间用%%隔开。

定义段(definitions section)

规则段(rulessection)

用户代码段(user codesection)

1.1.1 定义段

定义段包括一些简单名字定义和开始条件的声明。段中的定义不能有缩进。缩进的文本或用'%{'和'%}'括起来的文本会原封不动地拷贝到输出文件lex.yy.c中。'%{'和'%}'也必须在单独的行，并且不能缩进。另外，不缩进的注释（用'/*'和'*/'括起来）也拷贝到lex.yy.c中。

1.简单名字定义

格式为：name definition

其中，name(名字)是一个以字母或'_'开始的word，后面可以是0个或多个字母、数字、'_'或'-'。definition(定义)从name后第一个非空白字符开始，一直到行末。对name的definition之后可以通过{name}引用。例如：

Digit [0-9]

ID [a-z][a-z0-9]*

以上定义了两个name Digit和ID。Digit定义为一个正则表达式(regular expression)匹配一个字符，ID定义为一个正则表达式，第一个字符为a-z之间的字符，后面跟着零个或多个a-z之间的字符或0-9之间的数字。如果后面有个引用{DIGIT} '.'{DIGIT}*，等价于([0-9]) '.'([0-9])*。

2.开始条件声明

详见1.3。

1.1.2 规则段

规则段包括一系列如下所示的规则(rules)：

pattern action

1. Pattern(模式)

pattern使用如下所示的一个正则表达式的扩展集表示。

x 符合字符串'x'
. 除了换行以外的任何字符
[xyz] 一个字符类，在这个例子中，输入可以是'x'、'y'、'z'中的一个
[abj-oZ] 一个带范围的字符类，输入可以是'a', 'b', 从'j'到'o'还有'Z'中的字符
[^A-Z] 一个取反的字符类，任何字母除了大写字母。
[^A-Z\n] 任何字符除了大写字母和换行符
r* 零个或更多r，r可以是任意正则表达式
r 一个或更多r
r? 零个或最多一个r
r{2,5} 任何2到5个r
r{2,} 2个或更多r
r{4} 正好4个r
{name} 对name的展开
'[xyz]\'foo'
符合正则表达式 [xyz]'foo 的字符串
\X 如果X是一个'a', 'b', 'f', 'n', 'r', 't', 或者'v',同标准C中\x的处理。否则，就是X，用于对某些符号转义
\0 NUL字符，ASCII码值为0

\123 ASCII码为八进制123的char型

\x2a ASCII码为十六进制0x2a的char型
(r) 符合一个r，括号是用来越过优先级的
rs 正则表达式r，紧跟着一个正则表达式s
r|s 要么是正则表达式r，要么是正则表达式s

r/s 匹配模式r，但是要求其后紧跟着模式s。当需要判断本次匹配是否为“最长匹配（longest match）时，模式s匹配的文本也会被包括进来，但完成判断后开始执行对应的动作（action）之前，这些与模式s相配的文本会被返还给输入。所以动作（action）只能看到模式r匹配到的文本。这种模式类型叫做尾部上下文（trailing context）。（有些‘r/s’组合是flex不能识别的；请参看后面deficiencies/bugs一节中的dangerous trailing context的内容。）
^r 一个r，但是必须是在一行的开始
r$ 一个r，但是必须是在行末
<s>r 一个r，但是之前字符串必须符合条件s
<s1,s2,s3>r 同上，但是必须之前字符串符合s1、s2、s3中的一个
<*>r 不考虑开始字符串类型，只符合r
<<EOF>> 文件末尾
<s1,s2><<EOF>> 前面符合s1或者s2的文件末尾

除了以上正则表达式外，还有一些字符类表达式，它们括在分界符'[:'和':]'之间，使用时必须再用[]括起来。它们是：

[:alnum:] [:alpha:] [:blank:]
[:cntrl:] [:digit:] [:graph:]
[:lower:] [:print:] [:punct:]
[:space:] [:upper:] [:xdigit:]

每一个表达式都指示了一个字符分类，而且其名称与标准C函数isXXXX的名字对应。例如，[:alnum:]就指示了那些经由函数isalnum()检查后返回true的字符，也就是任何的字母或者数字。注意，有些系统上没有给出C函数isblank()的定义，所以flex自己定义了[:blank:]为一个空格或者一个tab。

下面所举的几个例子，都是等价的：

[[:alnum:]] [[:alpha:][:digit:]] [[:alpha:]0-9][a-zA-Z0-9]

如果扫描器是大小写不敏感的（执行flex命令时用了-i选项），则 [:upper:]和[:lower:]同[:alpha:]是等价的。

2. 输入的文本如何匹配模式

当生成的扫描器运行时，它分析输入的文本，寻找匹配规则段中定义的pattern。如果有多个pattern匹配，选择匹配最长字符串的pattern；如果有两个或多个相同长度的匹配，选择flex文件中最先列出的pattern。输入文本中能够匹配某个pattern的字符串叫做一个token。一旦匹配确定，全局字符指针yytext会指向这个token，可以通过该指针引用它，这个token的长度也可通过全局整型变量yyleng读取。同时，该pattern对应的action(动作)会执行，然后，剩余的输入文本会继续被分析匹配。如果没有匹配的pattern，会执行缺省的规则：剩余输入文本中的下一个字符被认为已经匹配，然后拷贝到标准输出中。因此，如果没有定义规则，输入文本会原样不动拷贝到标准输出中。

这里提到一个非常重要的全局变量yytext，它可以定义为字符指针或字符数组。默认是指针型的。可以通过某种方式修改为数组型，这里不多说了。

3. Action(动作)

action(动作)跟在pattern的后面，可以是任意的C语言语句。一行中，pattern以第一个非转义的空白符作为结束标识，剩余部分就是action了。action有如下规则：

(1) 如果某个pattern后的action为空，匹配的token直接舍弃。例如，如果只有一个pattern'zap me'，而后面action为空，会拷贝出zap me之外的字符到输出文件中。

(2) 如果action中包括'{'，则必有一个对应的'}'，中间全部都是pattern对应的action。也可用'%{'和'%}'括起action中语句。

(3) 如果一个action中只有一个'|'，表示执行的action同下一规则。

(4) action中可包含return语句在内的任意c代码。如果有return语句，会返回一个值给yylex()。每次yylex()被调用，它会继续处理上一次没处理的token，直到文件末尾或遇到return。

(5) action中可以包含以下特殊命令：

ECHO：拷贝yytext到扫描器的输出
BEGIN：跟在开始条件后，将扫描器放在对应的开始条件中
REJECT：指示扫描器继续匹配第二好的规则
yymore()：告诉扫描器下次匹配到一个规则时，对应的token加到yytext上。
yyless()：
unput(c)：
input()：
YY_FLUSH_BUFFER：
yyterminate()：

1.1.3 用户代码段

该段中的代码都被原样拷贝到lex.yy.c中。可以定义一些辅助函数或代码，供扫描器yylex()调用，或者调用扫描器（一般来说就是main()了）。这一部分是可选的。如果没有的话，Flex文件中第二个%%是可以省略的。

1.2 扫描器的生成

前面提到，flex的输出是lex.yy.c，它包含扫描例程yylex()、一些用来存放匹配的token的table和一些附加的例程和宏。缺省情况下，yylex()声明如下：

int yylex()
{
... various definitions and the actions in here ...
}

如果要修改扫描例程的名字，可利用'YY_DECL'宏。例如，可以用#define YY_DECL float lexscan( a, b ) float a, b;将扫描例程名字定义为lexscan，返回值为float型，并有两个float型参数。

yylex()被调用后，它从输入文件指针yyin(缺省情况下式stdin)扫描tokens，直到遇到EOF(这是return 0)或action执行了一个return语句。如果扫描器遇到EOF，接下来的调用时未定义的，除非yyin指向一个新的输入文件，或者调用yyrestart()。yyrestart()需要一个文件指针作为参数（如果该指针为nil，则必须设置YY_INPUT从一个源而不是yyin扫描），并使yyin指向那个文件。如果扫描器因为在action遇到return结束，可以重新从结束的地方开始扫描。

缺省情况下，为了提高效率，扫描器通过yyin一次读一个数据块而不是用getc()读一个个字符。如何读可以通过YY_INPUT宏控制。YY_INPUT的调用方法是'YY_INPUT(buf,result,max_size)'。该宏是最多将max_size个字符放在字符数据缓冲区，返回一个整型变量，其值要么是读入的字符数，要么是常量YY_NULL(Unix下是0)指示EOF。YY_INPUT缺省下从yyin读入数据。下面是YY_INPUT的一个定义实例(在flex文件的定义段)：

%{ #define YY_INPUT(buf,result,max_size) { int c = getchar(); \ 定义为每次读入一个字符 result = (c == EOF) ? YY_NULL : (buf[0] = c, 1); } %}

当扫描器从YY_INPUT收到EOF，它会检查yywrap()函数。如果该函数返回false(即0)，则假定该函数已经执行并设置了yyin指向另一个输入文件，扫描继续进行；如果该函数返回true(非0)，扫描器终止，返回0给它的调用者。无论哪种情况，开始条件保持不变，没有变回INITIAL。

如果没有提供自己的yywrap()，则要么使用%option noyywrap(相当于返回1)，要么使用-lfl链接选项获取例程的缺省版本，该版本下总是return 1。

扫描器将ECHO输出写到yyout中(缺省是stdout)，可以通过设置yyout为某个文件指针重新定义。

如下例所示，扫描器扫描a.txt文件，并将ECHO输出和不能识别的内容写到b.txt文件中。

int main(){
yyin=fopen('a.txt','r');
yyout = fopen('b.txt', 'w');
yylex();
fclose(yyin);
fclose(yyout);
return 0;
}

1.3 开始条件

flex提供了机制有条件地激活规则。如果规则的pattern有前缀'<sc>'，表示扫描器在名为'sc'的开始条件下该规则才是活动的。例如，<STRING>[^']*下，pattern [^']*只有在STRING条件下是active的。

开始条件在定义段声明。该行必须不能缩进，并使用%s或%x开始，跟着一个名字列表。%s表示inclusive(包含的)开始条件，%x表示exclusive(排它的)开始条件。开始条件使用BEGIN动作激活。直到下一个BEGIN动作执行，给定开始条件的规则才被激活，其他开始条件变得inactive。如果开始条件是inclusive，没有开始条件的规则都是active的；如果是exclusive的，只有符合开始条件的规则才是active的。如果flex文件中定义了一系列的依赖相同exclusive开始条件的规则，相当于描述了一个独立于其他规则的扫描器。下面通过例子说明inclusive和exclusive的区别。

%s example

%%
<example>foo do_something();
bar something_else();
相当于
%x example
%%
<example>foo do_something();
<INITIAL,example>bar something_else();

第二个例子中，如果没有<INITIAL,example>修饰，bar模式在开始条件满足时将不是active的；如果仅用<example>修饰，则只在条件满足时是active的。但第一个例子中bar是一直active的，因为条件是inclusive。

另外，<*>匹配所有的开始条件。所以，上例还可以写为：

%x example
%%
<example>foo do_something();
<*>bar something_else();

BEGIN(0)返回原始状态，这时只有无开始条件的规则是活动的。这个状态也被叫做开始条件“INITIAL”，所以BEGIN(INITIAL)等价于BEGIN(0)。BEGIN动作也可以在规则段的开始被指定为缩进代码。如下例所示，当yylex()被调用，并且enter_special为真，扫描器会进入'SPECIAL'开始条件。

int enter_special; %x SPECIAL %% if ( enter_special ) BEGIN(SPECIAL); <SPECIAL>blahblahblah ...more rules follow...

为了阐明开始条件的用法，下面给出一个例子。扫描器对像'123.456'这样的字符有两种不同的解释。缺省情况下它被当做3个token，整数123、一个字符'.'和一个整数456。但如果它在的行中前面有字符串'expect-floats'，它会被识别为单个token，浮点数123.456。

%{ #include <math.h> %} %s expect %% expect-floats BEGIN(expect); <expect>[0-9] '.'[0-9] { printf( 'found a float, = %f\n',atof( yytext ) ); } <expect>\n { /* that's the end of the line, so we need another 'expect-number' before we'll recognize any more numbers */ BEGIN(INITIAL); } [0-9] { printf( 'found an integer, = %d\n',atoi( yytext ) ); } '.' printf( 'found a dot\n' );

下面这个扫描器识别并舍弃C语言的注释，并保留当前的输入行。

%x comment %% int line_num = 1; '/*' BEGIN(comment); <comment>[^*\n]* /* eat anything that's not a '*' */ <comment>'*' [^*/\n]* /* eat up '*'s not followed by '/'s */ <comment>\n line_num; <comment>'*' '/' BEGIN(INITIAL);

开始条件名字是整数值，可以当做整数值存储。因此，以上的例子可以扩展如下：

%x comment foo %% int line_num = 1; int comment_caller; '/*' { comment_caller = INITIAL; BEGIN(comment); } ... <foo>'/*' { comment_caller = foo; BEGIN(comment); } <comment>[^*\n]* /* eat anything that's not a '*' */ <comment>'*' [^*/\n]* /* eat up '*'s not followed by '/'s */ <comment>\n line_num; <comment>'*' '/' BEGIN(comment_caller);

而且，当前的开始状态可以通过整型值的YY_START宏访问。例如，上述的对comment_caller的赋值可以写为：comment_caller = YY_START。Flex还为YY_START提供了一个别名：YYSTATE。

如果多个pattern使用相同的开始条件，可以用如下方式描述：

<ESC>{ '\\n' return '\n'; '\\r' return '\r'; '\\f' return '\f'; '\\0' return '\0'; }

1.4 文件尾规则

特殊规则'<<EOF>>'指示当遇到end-of-file并且yywrap()返回非零值时该执行的action。action必须通过做下面四件事情之一结束。

为yyin分配一个新的文件指针
执行一个返回语句
执行yyterminate()动作
用yy_switch_to_buffer()转向一个新的缓冲区

1.5 用户可用的values

下面给出规则段中用户可用的values。

char *yytext。指向当前的token文本。可以被修改，但不能加入字符，即在后面append字符。如果定义段中使用了 %array选项，则定义为char yytext[YYLMAX]，YYLMAX是一个缺省值为8KB的宏，可以在定义段中重新设置大小。
int yyleng。存储当前token的长度。
FILE *yyin。缺省情况下flex从这里读取要分析的文本。它可以被重新定义，但只能在扫描开始前或遇到EOF后。在扫描过程中修改它会引起预料不到的结果，因为flex缓存输入。但在中间可以使用yyrestart()。一点扫描器遇到EOF，可以为yyin分配新的输入文件，并继续扫描。
void yyrestart( FILE *new_file ) 。在扫描中间修改要扫描的文件。
FILE *yyout。ECHO操作的输出文件。
YY_CURRENT_BUFFER。返回一个YY_BUFFER_STATE句柄给当前缓冲区。
YY_START。返回一个对应当前开始条件的整数值。可以接下来用BEGIN重新返回到该开始条件。

参考资料

1. The flex manual page. http://dinosaur.compilertools.net/flex/manpage.html

2. Bison-Flex 笔记. http://www.cppblog.com/woaidongmao/archive/2008/11/23/67635.html

3. 基于MSYS的 Flex & Bison （编译器开发工具）使用教程. https://code.google.com/p/msys-cn/wiki/ChapterFour

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。