“词法分析”的意思、由来-中文百科全书

简介

词法分析（英语：lexical analysis）是计算机科学中将字符序列转换为单词（Token）序列的过程。进行词法分析的程序或者函数叫作词法分析器（Lexical analyzer，简称Lexer），也叫扫描器（Scanner）。词法分析器一般以函数的形式存在，供语法分析器调用。

词法分析阶段是编译过程的第一个阶段，是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序，即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。

单词

这里的单词是一个字符串，是构成源代码的最小单位。从输入字符流中生成单词的过程叫作单词化（Tokenization），在这个过程中，词法分析器还会对单词进行分类。

词法分析器通常不会关心单词之间的关系（属于语法分析的范畴），举例来说：词法分析器能够将括号识别为单词，但并不保证括号是否匹配。

针对如下C语言表达式：

sum=3+2;将其单词化后可以得到下表内容：

语素　单词类型

sum　标识符

=　赋值操作符

3　数字

+　加法操作符

2　数字

;　语句结束　my

单词经常使用正则表达式进行定义，像lex一类的词法分析器生成器就支持使用正则表达式。语法分析器读取输入字符流、从中识别出语素、最后生成不同类型的单词。其间一旦发现无效单词，便会报错。

扫描器

词法分析的第一阶段即扫描器，通常基于有限状态自动机。扫描器能够识别其所能处理的单词中可能包含的所有字符序列（单个这样的字符序列即前面所说的“语素”）。例如“整数”单词可以包含所有数字字符序列。很多情况下，根据第一个非空白字符便可以推导出该单词的类型，于是便可逐个处理之后的字符，直到出现不属于该类型单词字符集中的字符（即最长一致原则）。

单词生成器

单词化（Tokenization）即将输入字符串分割为单词、进而将单词进行分类的过程。生成的单词随后便被用来进行语法分析。

例如对于如下字符串： The quick brown fox jumps over the lazy dog

计算机并不知道这是以空格分隔的九个英语单词，只知道这是普通的43个字符构成的字符串。可以通过一定的方法（这里即使用空格作为分隔符）将语素（这里即英语单词）从输入字符串中分割出来。分割后的结果用XML可以表示如下：

<sentence> <word>The</word>

<word>quick</word>

<word>brown</word>

<word>fox</word>

<word>jumps</word>

<word>over</word>

<word>the</word>

<word>lazy</word>

<word>dog</word></sentence>

然而，语素只是一类字符构成的字符串（字符序列），要构建单词，语法分析器需要第二阶段的评估器（Evaluator）。评估器根据语素中的字符序列生成一个“值”，这个“值”和语素的类型便构成了可以送入语法分析器的单词。一些诸如括号的语素并没有“值”，评估器函数便可以什么都不返回。整数、标识符、字符串的评估器则要复杂的多。评估器有时会抑制语素，被抑制的语素（例如空白语素和注释语素）随后不会被送入语法分析器。

例如对于某程序设计语言的源程序片段：

net_worth_future = (assets - liabilities);

在进行语法分析后可能生成以下单词流（空格被抑制）：

NAME "net_worth_future"EQUALS

OPEN_PARENTHESIS

NAME "assets"

MINUS

NAME "liabilities"

CLOSE_PARENTHESIS

SEMICOLON

尽管在某些情况下需要手工编写词法分析器，一般情况下词法分析器都用自动化工具生成。

词条	词法分析
释义	简介单词扫描器单词生成器简介词法分析（英语：lexical analysis）是计算机科学中将字符序列转换为单词（Token）序列的过程。进行词法分析的程序或者函数叫作词法分析器（Lexical analyzer，简称Lexer），也叫扫描器（Scanner）。词法分析器一般以函数的形式存在，供语法分析器调用。词法分析阶段是编译过程的第一个阶段，是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序，即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。单词这里的单词是一个字符串，是构成源代码的最小单位。从输入字符流中生成单词的过程叫作单词化（Tokenization），在这个过程中，词法分析器还会对单词进行分类。词法分析器通常不会关心单词之间的关系（属于语法分析的范畴），举例来说：词法分析器能够将括号识别为单词，但并不保证括号是否匹配。针对如下C语言表达式： sum=3+2;将其单词化后可以得到下表内容： my 语素　单词类型 sum　标识符 =　赋值操作符 3　数字 +　加法操作符 2　数字 ;　语句结束　my 单词经常使用正则表达式进行定义，像lex一类的词法分析器生成器就支持使用正则表达式。语法分析器读取输入字符流、从中识别出语素、最后生成不同类型的单词。其间一旦发现无效单词，便会报错。扫描器扫描器词法分析的第一阶段即扫描器，通常基于有限状态自动机。扫描器能够识别其所能处理的单词中可能包含的所有字符序列（单个这样的字符序列即前面所说的“语素”）。例如“整数”单词可以包含所有数字字符序列。很多情况下，根据第一个非空白字符便可以推导出该单词的类型，于是便可逐个处理之后的字符，直到出现不属于该类型单词字符集中的字符（即最长一致原则）。单词生成器单词生成器单词化（Tokenization）即将输入字符串分割为单词、进而将单词进行分类的过程。生成的单词随后便被用来进行语法分析。例如对于如下字符串： The quick brown fox jumps over the lazy dog 计算机并不知道这是以空格分隔的九个英语单词，只知道这是普通的43个字符构成的字符串。可以通过一定的方法（这里即使用空格作为分隔符）将语素（这里即英语单词）从输入字符串中分割出来。分割后的结果用XML可以表示如下： <sentence> <word>The</word> <word>quick</word> <word>brown</word> <word>fox</word> <word>jumps</word> <word>over</word> <word>the</word> <word>lazy</word> <word>dog</word></sentence> 然而，语素只是一类字符构成的字符串（字符序列），要构建单词，语法分析器需要第二阶段的评估器（Evaluator）。评估器根据语素中的字符序列生成一个“值”，这个“值”和语素的类型便构成了可以送入语法分析器的单词。一些诸如括号的语素并没有“值”，评估器函数便可以什么都不返回。整数、标识符、字符串的评估器则要复杂的多。评估器有时会抑制语素，被抑制的语素（例如空白语素和注释语素）随后不会被送入语法分析器。例如对于某程序设计语言的源程序片段： net_worth_future = (assets - liabilities); 在进行语法分析后可能生成以下单词流（空格被抑制）： NAME "net_worth_future"EQUALS OPEN_PARENTHESIS NAME "assets" MINUS NAME "liabilities" CLOSE_PARENTHESIS SEMICOLON 尽管在某些情况下需要手工编写词法分析器，一般情况下词法分析器都用自动化工具生成。
随便看	广西师范大学外国语学院广西师范大学文学院广西师范大学学报广西师范大学研究生学院广西师范大学雁山校区广西师范大学音乐学院广西师范大学杂志社广西师范大学政治与行政学院广西师范学院广西师范学院计算机与信息工程学院广西师范学院家教中心广西师范学院马克思主义学院广西师范学院师园学院广西师范学院外国语学院广西师范学院文学院广西师范学院新闻传播学院广西师范学院学报广西师范学院艺术学院广西师范学院政法学院广西师范学院资源与环境科学学院广西师院学生报广西狮寨镇广西诗词学会广西十万大山天然食品有限公司广西十万大山自然保护区生物多样性及其保护体系顺天府大堂顺天得一顺天游顺天者存，逆天者亡顺天者昌，逆天者亡顺套与逆套顺女顺妃顺子顺子顺子SHUNZA 顺孰顺宁红丝线顺安顺实顺导汤顺局顺履顺峰乡顺峰山公园顺川顺差顺带顺平县妇幼保健院顺平县朝阳医院