Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 103 стр.

UptoLike

- месяц-год-словоформа (сентября 2003 года) - 01.09.03;
- число-месяц-год-словоформа (6 сентября 2002 года) - 06.09.02.
В результате группа ДАТА заносится как лексема х
i
в исходное множество лексем Х,
осуществляется обновление вектора V
i
, в котором элементу v
i1
присваивается значение «дата», а все
остальные лексемы х
i+1
, х
i+2
, х
i+3
удаляются из множества Х.
Для распознавания элементов группы дата введем сорт b
4
={b
41
, b
42
, b
43
, b
44
, b
45
}, где
b
41
= {январь, февраль, … , декабрь} - множество названий месяцев;
b
42
= {01, 02, … ,12} - множество идентификаторов месяцев;
b
43
= {1, 2, … ,31} - множество значений дней;
b
44
= {1900, 1901, … ,2010} - множество значений года;
b
45
= {год, г., году, годах, годом} - множество словоформ слова «год».
Тогда правило построения синтаксической группы ДАТА можно представить в виде четырех
ситуаций, каждая из которых соответствует определенной схеме.
Ситуация первая: лексемы х
i
, х
i+1
образуют синтаксическую группу ДАТА тогда и только
тогда, когда имеет место закономерность, описываемая конъюнкцией следующих фактов:
1) х
i
имеет характеристику v
i1
V
i
со значением «числительное» - (х
i
:X) Р(x
i
, t(v
i1
,
числительное));
2) х
i
принадлежит сорту b
4k
- P
f
(t
in
(x
i
), y
1
, f
1
);
3) сорт b
4k
имеет значение b
43
- P
E
(y
1
, b
43
);
4) х
i+1
имеет характеристику v
(i+1)1
V
i+1
со значением «существительное» - (x
i+1
:X) Р(x
i+1
,
t(v
(i+1)1
, существительное));
5) х
i+1
принадлежит сорту b
4t
- P
f
(t
in
(x
i+1
), y
2
, f
1
);
6) сорт b
4t
имеет значение b
41
- P
E
(y
2
, b
41
).
7) х
i+2
имеет характеристику v
(i+2)1
V
i+2
со значением «числительное» - (х
i+2
:X) Р(x
i+2
,
t(v
(i+2)1
, числительное));
8) х
i+2
принадлежит сорту b
4j
- P
f
(t
in
(x
i+2
), y
1
, f
1
);
9) сорт b
4j
имеет значение b
44
- P
E
(y
1
, b
44
);
10) х
i+3
имеет характеристику v
(i+3)1
V
i+3
со значением «существительное» - (х
i+3
:X) Р(x
i+3
,
t(v
(i+3)1
, существительное));
11) х
i+3
принадлежит сорту b
4h
- P
f
(t
in
(x
i+3
), y
1
, f
1
);
12) сорт b
4h
имеет значение b
45
- P
E
(y
1
, b
45
).
Тогда продукция записывается в виде:
pr
22
s
=<q
22
s
, r
22
s
>, где
q
22
s
= (х
i
:X) Р(x
i
, t(v
i1
, числительное)) P
f
(t
in
(x
i
), y
1
, f
1
) P
E
(y
1
, b
43
) (x
i+1
:X) Р(x
i+1
, t(v
(i+1)1
,
существительное))
P
f
(t
in
(x
i+1
), y
2
, f
1
) P
E
(y
2
, b
41
) (х
i+2
:X) Р(x
i+2
, t(v
(i+2)1
, числительное))
P
f
(t
in
(x
i+2
), y
1
, f
1
) P
E
(y
1
, b
44
) (х
i+3
:X) Р(x
i+3
, t(v
(i+3)1
, существительное)) P
f
(t
in
(x
i+3
), y
1
, f
1
) P
E
(y
1
,
b
45
) (х
i
:X) (x
i+1
:X) (x
i+2
:X) Р
2
(ДАТА, t(х
i
, x
i+1
, x
i+2
));
r
22
s
= add [(x
i
, «x
i
.x
i+1
.x
i+2
») P
5
(ДАТА, x
i
) (v
i1
, дата)]; elim [(X, {х
i+1
, х
i+2
, х
i+3
}].
Для второй ситуации продукция имеет вид: pr
23
s
=<q
23
s
, r
23
s
>, где
q
23
s
= (x
i
:X) Р(x
i
, t(v
i1
, существительное)) P
f
(t
in
(x
i
), y
2
, f
1
) P
E
(y
2
, b
41
) (х
i+1
:X) Р(x
i+1
, t(v
(i+1)1
,
числительное))
P
f
(t
in
(x
i+1
), y
1
, f
1
) P
E
(y
1
, b
44
) (х
i+2
:X) Р(x
i+2
, t(v
(i+2)1
, существительное))
102
        - месяц-год-словоформа (сентября 2003 года) - 01.09.03;
        - число-месяц-год-словоформа (6 сентября 2002 года) - 06.09.02.
        В результате группа ДАТА заносится как лексема хi в исходное множество лексем Х,
осуществляется обновление вектора Vi, в котором элементу vi1 присваивается значение «дата», а все
остальные лексемы хi+1, хi+2, хi+3 удаляются из множества Х.
        Для распознавания элементов группы дата введем сорт b4={b41, b42, b43, b44, b45}, где
        b41 = {январь, февраль, … , декабрь} - множество названий месяцев;
        b42 = {01, 02, … ,12} - множество идентификаторов месяцев;
        b43 = {1, 2, … ,31} - множество значений дней;
        b44 = {1900, 1901, … ,2010} - множество значений года;
        b45 = {год, г., году, годах, годом} - множество словоформ слова «год».
        Тогда правило построения синтаксической группы ДАТА можно представить в виде четырех
ситуаций, каждая из которых соответствует определенной схеме.
        Ситуация первая: лексемы хi, хi+1 образуют синтаксическую группу ДАТА тогда и только
тогда, когда имеет место закономерность, описываемая конъюнкцией следующих фактов:
        1) хi имеет характеристику vi1∈Vi со значением «числительное» - (∃хi:X) Р(xi, t(vi1,
числительное));
        2) хi принадлежит сорту b4k - Pf(tin(xi), y1, f1);
        3) сорт b4k имеет значение b43 - PE(y1, b43);
        4) хi+1 имеет характеристику v(i+1)1∈Vi+1 со значением «существительное» - (∃xi+1:X) Р(xi+1,
t(v(i+1)1, существительное));
        5) хi+1 принадлежит сорту b4t - Pf(tin(xi+1), y2, f1);
        6) сорт b4t имеет значение b41 - PE(y2, b41).
        7) хi+2 имеет характеристику v(i+2)1∈Vi+2 со значением «числительное» - (∃хi+2:X) Р(xi+2,
t(v(i+2)1, числительное));
        8) хi+2 принадлежит сорту b4j - Pf(tin(xi+2), y1, f1);
        9) сорт b4j имеет значение b44 - PE(y1, b44);
        10) хi+3 имеет характеристику v(i+3)1∈Vi+3 со значением «существительное» - (∃хi+3:X) Р(xi+3,
t(v(i+3)1, существительное));
        11) хi+3 принадлежит сорту b4h - Pf(tin(xi+3), y1, f1);
        12) сорт b4h имеет значение b45 - PE(y1, b45).
        Тогда продукция записывается в виде: pr22s =, где
        q22s= (∃хi:X) Р(xi, t(vi1, числительное)) ∧ Pf(tin(xi), y1, f1)∧ PE(y1, b43)∧ (∃xi+1:X) Р(xi+1, t(v(i+1)1,
существительное))∧ Pf(tin(xi+1), y2, f1)∧ PE(y2, b41) ∧(∃хi+2:X) Р(xi+2, t(v(i+2)1, числительное)) ∧
Pf(tin(xi+2), y1, f1)∧ PE(y1, b44)∧ (∃хi+3:X) Р(xi+3, t(v(i+3)1, существительное))∧ Pf(tin(xi+3), y1, f1)∧ PE(y1,
b45)↔ (∃хi:X) (∃xi+1:X) (∃xi+2:X) Р2(ДАТА, t(хi, xi+1, xi+2));
        r22s = add [(xi, «xi.xi+1.xi+2») ∧ P5(ДАТА, xi) ∧ (vi1, дата)]; elim [(X, {хi+1, хi+2, хi+3}].
   Для второй ситуации продукция имеет вид: pr23s =, где
     q23s= (∃xi:X) Р(xi, t(vi1, существительное))∧ Pf(tin(xi), y2, f1)∧ PE(y2, b41) ∧(∃хi+1:X) Р(xi+1, t(v(i+1)1,
числительное)) ∧ Pf(tin(xi+1), y1, f1)∧ PE(y1, b44)∧ (∃хi+2:X) Р(xi+2, t(v(i+2)1, существительное))∧

                                                       102