ВУЗ:
Составители:
Рубрика:
69
2
1
(log),
k
ii
i
Hpp
=
=-
å
где p
i
= (n
i
+1)/(N+k) — оценка вероятности i-го дискретного значения за-
висимой переменной; k — число дискретных значений зависимой пере-
менной; n
i
— число наблюдений i-го дискретного значения зависимой пе-
ременной; N — общее число наблюдений;
¨ если проводилась дискретизация переменной путём разбиения на
квантили — по формуле log
2
k, где k — число квантилей.
Остаточная энтропия зависимой дискретной переменной при посту-
плении информации о j-м состоянии влияющей дискретной переменной
вычисляется по формуле
2
1
(log),
k
jijij
i
Hpp
=
=-
å
где p
ij
= (n
ij
+1)/(N
j
+k) — оценка вероятности i-го дискретного значения
зависимой переменной при j-м значении влияющей переменной; k — число
дискретных значений зависимой переменной; n
ij
— число наблюдений i-го
дискретного значения зависимой переменной при j-м значении влияющей
переменной; N
j
— число наблюдений j-го значения влияющей переменной.
Средняя информативность влияющей переменной относительно данной за-
висимой переменной составляет
1
,
l
jj
j
IHpH
=
=-
å
где p
j
— оценка вероятности j-го дискретного значения влияющей пере-
менной, получаемая аналогично оценке для зависимой переменной.
Решение об исключени входной переменной из модели принимают в сле-
дующих случаях:
¨ если в качестве зависимой переменной принимается выходная —
если величина I/H меньше величины
a
/Q, где Q — число входных пере-
70
менных, а параметр надёжности
a
, не превышающий 1, выбирается субъ-
ективно
1
. Чем больше его значение, тем труднее выполнить требования к
переменной, включаемой в модель;
¨ если в качестве зависимой переменной принимается входная —
если величина I/H больше
a
.
7. Некоторые полезные статистические функции
табличного процессора Microsoft Excel
=ДИСП(Ряд)
Вычисляет дисперсию выборочных данных, содержащихся в интер-
вале Ряд.
=ДИСПР(Ряд)
Вычисляет дисперсию генеральной совокупности данных, содержа-
щейся в интервале Ряд.
=ДОВЕРИТ(Значимость;СтандОткл;ЧислоНаблюдений)
Вычисляет одностороннюю предельную ошибку среднего для нор-
мально распределённой совокупности данных для уровня доверия, равного
(1–Значимость), при заданных среднеквадратичном отклонении Стан-
дОткл и численности наблюдений ЧислоНаблюдений.
=КОРРЕЛ(Ряд1;Ряд2)
Вычисляет коэффициент парной линейной корреляции по Пирсону
для двух совокупностей данных, содержащихся в интервалах Ряд1 и
Ряд2. Число ячеек в обоих рядах должно быть одинаковым. Все они
должны содержать числовые данные (пустые ячейки не допускаются).
=МАКС(Ряд)
Находит наибольшее значение среди данных, содержащихся в ин-
тервале Ряд.
=МЕДИАНА(Ряд)
Находит медиану совокупности данных, содержащихся в интервале
Ряд.
=МИН(Ряд)
Находит наименьшее значение среди данных, содержащихся в ин-
тервале Ряд.
1
Для целей данного практикума можно принять его равным 0,3.
k менных, а параметр надёжности a, не превышающий 1, выбирается субъ- H = å (- pi log 2 pi ), i =1 ективно1. Чем больше его значение, тем труднее выполнить требования к переменной, включаемой в модель; где pi = (ni+1)/(N+k) — оценка вероятности i-го дискретного значения за- ¨ если в качестве зависимой переменной принимается входная — если величина I/H больше a. висимой переменной; k — число дискретных значений зависимой пере- менной; ni — число наблюдений i-го дискретного значения зависимой пе- 7. Некоторые полезные статистические функции ременной; N — общее число наблюдений; табличного процессора Microsoft Excel ¨ если проводилась дискретизация переменной путём разбиения на квантили — по формуле log2 k, где k — число квантилей. =ДИСП(Ряд) Остаточная энтропия зависимой дискретной переменной при посту- Вычисляет дисперсию выборочных данных, содержащихся в интер- плении информации о j-м состоянии влияющей дискретной переменной вале Ряд. вычисляется по формуле =ДИСПР(Ряд) k Вычисляет дисперсию генеральной совокупности данных, содержа- H j = å (- pij log 2 pij ), щейся в интервале Ряд. i =1 =ДОВЕРИТ(Значимость;СтандОткл;ЧислоНаблюдений) Вычисляет одностороннюю предельную ошибку среднего для нор- где pij = (nij +1)/(Nj+k) — оценка вероятности i-го дискретного значения мально распределённой совокупности данных для уровня доверия, равного зависимой переменной при j-м значении влияющей переменной; k — число (1–Значимость), при заданных среднеквадратичном отклонении Стан- дискретных значений зависимой переменной; nij — число наблюдений i-го дОткл и численности наблюдений ЧислоНаблюдений. =КОРРЕЛ(Ряд1;Ряд2) дискретного значения зависимой переменной при j-м значении влияющей Вычисляет коэффициент парной линейной корреляции по Пирсону переменной; Nj — число наблюдений j-го значения влияющей переменной. для двух совокупностей данных, содержащихся в интервалах Ряд1 и Ряд2. Число ячеек в обоих рядах должно быть одинаковым. Все они Средняя информативность влияющей переменной относительно данной за- должны содержать числовые данные (пустые ячейки не допускаются). висимой переменной составляет =МАКС(Ряд) Находит наибольшее значение среди данных, содержащихся в ин- l тервале Ряд. I = H - pj å H j , j =1 =МЕДИАНА(Ряд) Находит медиану совокупности данных, содержащихся в интервале где pj — оценка вероятности j-го дискретного значения влияющей пере- Ряд. =МИН(Ряд) менной, получаемая аналогично оценке для зависимой переменной. Находит наименьшее значение среди данных, содержащихся в ин- тервале Ряд. Решение об исключени входной переменной из модели принимают в сле- дующих случаях: ¨ если в качестве зависимой переменной принимается выходная — если величина I/H меньше величины a/Q, где Q — число входных пере- 1 Для целей данного практикума можно принять его равным 0,3. 69 70