Лекции по параллельным вычислениям. Гергель В.П - 143 стр.

UptoLike

Составители: 

143
ного графа все пересылки блоков могут быть выполнены одновременно, поэто-
му длительность операции равна времени передачи одного матричного блока.
Для сети с топологией гиперкуба операция циклического сдвига требует вы-
полнения log
2
q итераций. Для сети с кольцевой структурой связей требуемое
количество итераций равно q–1.
Для наиболее распространенного класса кластерных вычислительных сис-
тем с топологией связи в виде полного графа время начального перераспреде-
ления блоков определяется как
/2
21
,
snwT
comms
.
Величина n
2
/s размер пересылаемых блоков, а коэффициент 2 соответствует
двум выполняемым операциям циклического сдвига.
После умножения матричных блоков процессоры передают свои блоки
предыдущим процессорам по строкам (для блоков матрицы A) и столбцам ля
блоков матрицы B) процессорной решетки. Эти операции также могут быть вы-
полнены параллельно, так что
/2
22
,
snwT
comms
. (10.12)
Поскольку количество итераций алгоритма q, с учетом оценки (10.7) об-
щее время выполнения параллельных вычислений:
2 2 2 2
,
2 / 1 2 2 /
s comm
T q n s n q n s q w n s
.
Здесь по-прежнему sq - размер решетки процессоров.