1.为什么要引入FIRST集的概念?
因为有公共左因子的问题,公共左公因子是指在文法的产生式集合中,某个非终结符的多个候选式具有相同的前缀。
一般来说,公共左公因子的产生式为
A→αβ1│αβ2
A
→
α
β
1
│
α
β
2
如果有公共左因子的问题,那么只能采取试探的方法来分析每一个候选式,分析的过程很可能产生回溯,回溯分析法是一种不确定的方法。
若所有候选式都没有公共左因子就可以选择惟一匹配的候选式,不会产生(公共左公因子引起的)回溯。
为了消除回溯,对任何一个非终结符和当前的待匹配符号,期望
要么只有一个候选式可用
要么没有候选式可用
因此引入以下FIRST集合的概念:
对
α∈(VT⋃VN)∗
α
∈
(
V
T
⋃
V
N
)
∗
,有
FIRST(α)={a|α⟹∗a⋅⋅⋅,a∈VT}
F
I
R
S
T
(
α
)
=
{
a
|
α
⟹
∗
a
⋅
⋅
⋅
,
a
∈
V
T
}
特别地,若
α⟹∗ε
α
⟹
∗
ε
,则
ε∈FIRST(α)
ε
∈
F
I
R
S
T
(
α
)
因此对于每一文法符号
X∈VT⋃VN
X
∈
V
T
⋃
V
N
,构造
FIRST(X)
F
I
R
S
T
(
X
)
的方法为: 使用下列规则,直至每个FIRST集不再增大为止:
若
X∈VT
X
∈
V
T
,则
FIRST(X)={X}
F
I
R
S
T
(
X
)
=
{
X
}
(意思是如果
X
X
是终结符,则其
FIRST
F
I
R
S
T
集合为其自身);
若
X∈VN
X
∈
V
N
,那么
X
X
的产生式分以下三种情况:
X→ε
X
→
ε
则
ε∈FIRST(X)
ε
∈
F
I
R
S
T
(
X
)
X→a⋅⋅⋅
X
→
a
⋅
⋅
⋅
则
a∈FIRST(X)
a
∈
F
I
R
S
T
(
X
)
X→Y⋅⋅⋅
X
→
Y
⋅
⋅
⋅
,且
Y∈VN
Y
∈
V
N
则
FIRST(Y)–{ε}⊆FIRST(X)
F
I
R
S
T
(
Y
)
–
{
ε
}
⊆
F
I
R
S
T
(
X
)
特例:
X→Y1Y2⋅⋅⋅Yi−1Yi⋅⋅⋅Yk
X
→
Y
1
Y
2
⋅
⋅
⋅
Y
i
−
1
Y
i
⋅
⋅
⋅
Y
k
且
Y1,Y2,⋅⋅⋅Yi−1∈VN
Y
1
,
Y
2
,
⋅
⋅
⋅
Y
i
−
1
∈
V
N
Y1,Y2,⋅⋅⋅Yi−1⟹∗ε
Y
1
,
Y
2
,
⋅
⋅
⋅
Y
i
−
1
⟹
∗
ε
则
FIRST(Yj)–{ε}⊆FIRST(X)(1≤j≤i−1),FIRST(Yi)⊆FIRST(X)
F
I
R
S
T
(
Y
j
)
–
{
ε
}
⊆
F
I
R
S
T
(
X
)
(
1
≤
j
≤
i
−
1
)
,
F
I
R
S
T
(
Y
i
)
⊆
F
I
R
S
T
(
X
)
特别地,当
Y1Y2⋅⋅⋅Yi−1Yi⋅⋅⋅Yk⟹∗ε
Y
1
Y
2
⋅
⋅
⋅
Y
i
−
1
Y
i
⋅
⋅
⋅
Y
k
⟹
∗
ε
则
ε∈FIRST(X)
ε
∈
F
I
R
S
T
(
X
)
结论:针对无空产生式的文法G,同一非终结符的任两个产生式的右部符号串的FIRST集无交集,即可进行确定的自顶向下分析。
2.为什么要引入FOLLOW集的概念?
考虑文法G[S]:
S→aA
S
→
a
A
S→d
S
→
d
A→bAS
A
→
b
A
S
A→ε
A
→
ε
求得各终结符和符号串的FIRST集合如下:
FIRST(S)={a,d}
F
I
R
S
T
(
S
)
=
{
a
,
d
}
FIRST(A)={b,ε}
F
I
R
S
T
(
A
)
=
{
b
,
ε
}
FIRST(aA)={a}
F
I
R
S
T
(
a
A
)
=
{
a
}
FIRST(d)={d}
F
I
R
S
T
(
d
)
=
{
d
}
FIRST(bAS)={b}
F
I
R
S
T
(
b
A
S
)
=
{
b
}
FIRST(ε)={ε}
F
I
R
S
T
(
ε
)
=
{
ε
}
若输入串
W=abd
W
=
a
b
d
,则试图推导出abd串的推导过程为
S⇒aA⇒abAS⇒abS⇒abd
S
⇒
a
A
⇒
a
b
A
S
⇒
a
b
S
⇒
a
b
d
从以上推导过程中可以看到,在第2步到第3步的推导中,即
abAS⇒abS
a
b
A
S
⇒
a
b
S
时,因为当前面临的输入符号为
d
d
,但是最左非终结符
A
A
的产生式右部的开始符号集都不包含
d
d
,但有
ε
ε
,因此对于
d
d
的匹配自然认为只能依赖于在可能的推导过程中
A
A
的后面的符号,所以这时候选用产生式
A→ε
A
→
ε
向下推导。而当前
A
A
后面的符号为
S
S
,
S
S
产生式右部的开始符号集包含了
d
d
,所以例子中可用
S→d
S
→
d
推导得到匹配。 语法树如下所示: 很显然,我们从以上叙述中可以得出: 当某一非终结符的产生式中含有空产生式时,它的非空产生式右部的开始符号集两两不相交,并与在推导过程中紧跟该非终结符右部可能出现的终结符集也不相交,则仍可构造确定的自顶向下分析。因此,引入了一个文法符号的后跟符号集合。 引入以下FOLLOW集的概念:
对
A∈VN
A
∈
V
N
,有
FOLLOW(A)={a|S⟹∗⋅⋅⋅Aa⋅⋅⋅,a∈VT}
F
O
L
L
O
W
(
A
)
=
{
a
|
S
⟹
∗
⋅
⋅
⋅
A
a
⋅
⋅
⋅
,
a
∈
V
T
}
若
S⟹∗⋅⋅⋅A
S
⟹
∗
⋅
⋅
⋅
A
,则规定
#∈FOLLOW(A)
#
∈
F
O
L
L
O
W
(
A
)
这里用#作为输入串的结束符,也称为输入串括号。
因此对于每一文法符号
A∈VN
A
∈
V
N
,实际上求
FOLLOW(A)
F
O
L
L
O
W
(
A
)
就是考察A在产生式右端的出现情况,哪些终结符号可以跟随在A后面?
使用下列规则,直至每个FOLLOW集不再增大为止:
首先,设S为文法的开始符号,把
{#}
{
#
}
加入
FOLLOW(S)
F
O
L
L
O
W
(
S
)
中(这里#为句子括号)
若
B→αAβ
B
→
α
A
β
是一个产生式,则
FIRST(β)−{ε}⊆FOLLOW(A)
F
I
R
S
T
(
β
)
−
{
ε
}
⊆
F
O
L
L
O
W
(
A
)
如果
B→αA
B
→
α
A
或者
B→αAβ
B
→
α
A
β
且
β⟹∗ε
β
⟹
∗
ε
,则
FOLLOW(B)⊆FOLLOW(A)
F
O
L
L
O
W
(
B
)
⊆
F
O
L
L
O
W
(
A
)
解释: 因为在推导过程中可能出现如下的句型序列:
S⇒∗⋅⋅⋅α1Bβ1⋅⋅⋅⇒⋅⋅⋅α1αAββ1⋅⋅⋅⇒⋅⋅⋅α1αAβ1⋅⋅⋅
S
⇒
∗
⋅
⋅
⋅
α
1
B
β
1
⋅
⋅
⋅
⇒
⋅
⋅
⋅
α
1
α
A
β
β
1
⋅
⋅
⋅
⇒
⋅
⋅
⋅
α
1
α
A
β
1
⋅
⋅
⋅
例题:
A→BCc | gDB
A
→
B
C
c
|
g
D
B
B→bCDE | ε
B
→
b
C
D
E
|
ε
C→DaB | ca
C
→
D
a
B
|
c
a
D→dD | ε
D
→
d
D
|
ε
E→gAf | c
E
→
g
A
f
|
c
非终结符
FIRST
FOLLOW
A
{a, b, c, d, g}
{f, #}
B
{b,
ε
ε
}
{a, c, d, g, f, #}
C
{a, c, d}
{c, d, g}
D
{d,
ε
ε
}
{a, b, c, g, f, #}
E
{c, g}
{a, c, d, g, f, #}
对于FIRST集合,解释其中的FIRST(A)的求解。
A→BCc
A
→
B
C
c
属于上述产生式的特例情况,很显然
B⇒∗ε,C⇏∗ε
B
⇒
∗
ε
,
C
⇏
∗
ε
,因此
(FIRST(B)−{ε})⋃FIRST(C)⊆FIRST(A)
(
F
I
R
S
T
(
B
)
−
{
ε
}
)
⋃
F
I
R
S
T
(
C
)
⊆
F
I
R
S
T
(
A
)
A→gDB
A
→
g
D
B
属于上述产生式的第二种情况,因此
g∈FIRST(A)
g
∈
F
I
R
S
T
(
A
)
最后得出:
FIRST(A)=(FIRST(B)−{ε})⋃FIRST(C)⋃{g}
F
I
R
S
T
(
A
)
=
(
F
I
R
S
T
(
B
)
−
{
ε
}
)
⋃
F
I
R
S
T
(
C
)
⋃
{
g
}
而
FIRST(B)={b,ε},FIRST(C)={a,c,d}
F
I
R
S
T
(
B
)
=
{
b
,
ε
}
,
F
I
R
S
T
(
C
)
=
{
a
,
c
,
d
}
故
FIRST(A)={a,b,c,d,g}
F
I
R
S
T
(
A
)
=
{
a
,
b
,
c
,
d
,
g
}
对于FOLLOW集合,有如下的计算情况:
FOLLOW(A)=(FIRST(f)−{ε})⋃{#}={f,#}
F
O
L
L
O
W
(
A
)
=
(
F
I
R
S
T
(
f
)
−
{
ε
}
)
⋃
{
#
}
=
{
f
,
#
}
FOLLOW(B) =(FIRST(Cc)−{ε})⋃FOLLOW(A)⋃FOLLOW(C)={a,c,d}⋃{f,#}⋃FOLLOW(C)={a,c,d}⋃{f,#}⋃{c,d,g}={a,c,d,g,f,#}
F
O
L
L
O
W
(
B
)
=
(
F
I
R
S
T
(
C
c
)
−
{
ε
}
)
⋃
F
O
L
L
O
W
(
A
)
⋃
F
O
L
L
O
W
(
C
)
=
{
a
,
c
,
d
}
⋃
{
f
,
#
}
⋃
F
O
L
L
O
W
(
C
)
=
{
a
,
c
,
d
}
⋃
{
f
,
#
}
⋃
{
c
,
d
,
g
}
=
{
a
,
c
,
d
,
g
,
f
,
#
}
FOLLOW(C) =(FIRST(c)−{ε})⋃(FIRST(DE)−{ε})={c}⋃(FIRST(D)−{ε})⋃FIRST(E)={c,d,g}
F
O
L
L
O
W
(
C
)
=
(
F
I
R
S
T
(
c
)
−
{
ε
}
)
⋃
(
F
I
R
S
T
(
D
E
)
−
{
ε
}
)
=
{
c
}
⋃
(
F
I
R
S
T
(
D
)
−
{
ε
}
)
⋃
F
I
R
S
T
(
E
)
=
{
c
,
d
,
g
}
FOLLOW(D) =(FIRST(B)−{ε})⋃FOLLOW(A)⋃(FIRST(E)−{ε})⋃(FIRST(aB)−{ε})={b}⋃{f,#}⋃{c,g}⋃{a}={a,b,c,g,f,#}
F
O
L
L
O
W
(
D
)
=
(
F
I
R
S
T
(
B
)
−
{
ε
}
)
⋃
F
O
L
L
O
W
(
A
)
⋃
(
F
I
R
S
T
(
E
)
−
{
ε
}
)
⋃
(
F
I
R
S
T
(
a
B
)
−
{
ε
}
)
=
{
b
}
⋃
{
f
,
#
}
⋃
{
c
,
g
}
⋃
{
a
}
=
{
a
,
b
,
c
,
g
,
f
,
#
}
FOLLOW(E) =FOLLOW(B)={a,c,d,g,f,#}
F
O
L
L
O
W
(
E
)
=
F
O
L
L
O
W
(
B
)
=
{
a
,
c
,
d
,
g
,
f
,
#
}
3.为什么要引入SELECT集的概念?
由于从2中我们得出结论: 当某一非终结符的产生式中含有空产生式时,它的非空产生式右部的开始符号集两两不相交,并与在推导过程中紧跟该非终结符右部可能出现的终结符集也不相交,则仍可构造确定的自顶向下分析。 因此当文法中含有形如:
A→αA→β
A
→
α
A
→
β
的产生式时,其中
A∈VN,α、β∈V∗
A
∈
V
N
,
α
、
β
∈
V
∗
,若
α
α
和
β
β
不能同时推导出空,假定
α⇏∗ε,β⇒∗ε
α
⇏
∗
ε
,
β
⇒
∗
ε
,则当
FIRST(α)⋂FOLLOW(A)=∅ FIRST(β)⋂FOLLOW(A)=∅
F
I
R
S
T
(
α
)
⋂
F
O
L
L
O
W
(
A
)
=
∅
F
I
R
S
T
(
β
)
⋂
F
O
L
L
O
W
(
A
)
=
∅
也即是
FIRST(α)⋂(FIRST(β)⋃FOLLOW(A))=∅
F
I
R
S
T
(
α
)
⋂
(
F
I
R
S
T
(
β
)
⋃
F
O
L
L
O
W
(
A
)
)
=
∅
时,对于非终结符A的替换仍可唯一地确定候选。为了表示和分析方便,因此引入了SELECT集合。
SELECT集合定义如下:
一个产生式的选择符号集SELECT。给定上下文无关文法的产生式
A→α,A∈VN,α∈V∗
A
→
α
,
A
∈
V
N
,
α
∈
V
∗
,若
α⇏∗ε
α
⇏
∗
ε
,则
SELECT(A→α)=FIRST(α)
S
E
L
E
C
T
(
A
→
α
)
=
F
I
R
S
T
(
α
)
。
如果
α⇒∗ε
α
⇒
∗
ε
,则
SELECT(A→α)=(FIRST(α)−{ε})⋃FOLLOW(A)
S
E
L
E
C
T
(
A
→
α
)
=
(
F
I
R
S
T
(
α
)
−
{
ε
}
)
⋃
F
O
L
L
O
W
(
A
)
。
因此一个上下文无关文法是LL(1)文法的充分必要条件是,对每个非终结符A的两个不同产生式,
A→α,A→β
A
→
α
,
A
→
β
,满足
SELECT(A→α)⋂SELECT(A→β)=∅
S
E
L
E
C
T
(
A
→
α
)
⋂
S
E
L
E
C
T
(
A
→
β
)
=
∅
其中
α、β
α
、
β
不同时能
⇒∗ε
⇒
∗
ε
。
再次回到上述例题
A→BCc | gDB
A
→
B
C
c
|
g
D
B
B→bCDE | ε
B
→
b
C
D
E
|
ε
C→DaB | ca
C
→
D
a
B
|
c
a
D→dD | ε
D
→
d
D
|
ε
E→gAf | c
E
→
g
A
f
|
c
非终结符
FIRST
FOLLOW
A
{a, b, c, d, g}
{f, #}
B
{b,
ε
ε
}
{a, c, d, g, f, #}
C
{a, c, d}
{c, d, g}
D
{d,
ε
ε
}
{a, b, c, g, f, #}
E
{c, g}
{a, c, d, g, f, #}
右部产生式
FIRST
BCc
{a, b, c, d}
gDB
{ g }
bCDE
{ b }
ε
ε
{
ε
ε
}
DaB
{a, d}
ca
{ c }
dD
{ d }
gAf
{ g }
c
{ c }
因此根据以上所求得的FIRST集和FOLLOW集,可求得各产生式的SELECT集合如下:
SELECT(A→BCc)={a,b,c,d}SELECT(A→gDB)={g}SELECT(B→bCDE)={b}SELECT(B→ε)={a,c,d,g,f,#}SELECT(C→DaB)={a,d}SELECT(C→ca)={c}SELECT(D→dD)={d}SELECT(D→ε)={a,b,c,g,f,#}SELECT(E→gAf)={g}SELECT(E→c)={c}
S
E
L
E
C
T
(
A
→
B
C
c
)
=
{
a
,
b
,
c
,
d
}
S
E
L
E
C
T
(
A
→
g
D
B
)
=
{
g
}
S
E
L
E
C
T
(
B
→
b
C
D
E
)
=
{
b
}
S
E
L
E
C
T
(
B
→
ε
)
=
{
a
,
c
,
d
,
g
,
f
,
#
}
S
E
L
E
C
T
(
C
→
D
a
B
)
=
{
a
,
d
}
S
E
L
E
C
T
(
C
→
c
a
)
=
{
c
}
S
E
L
E
C
T
(
D
→
d
D
)
=
{
d
}
S
E
L
E
C
T
(
D
→
ε
)
=
{
a
,
b
,
c
,
g
,
f
,
#
}
S
E
L
E
C
T
(
E
→
g
A
f
)
=
{
g
}
S
E
L
E
C
T
(
E
→
c
)
=
{
c
}
由上可知,有相同左部产生式的SELECT集合的交集为空,所以文法是LL(1)文法。