ВУЗ:
Составители:
Рубрика:
- 40 -
зволяющая (прозрачными для пользователя) средствами достигать соответст-
вия кэшей процессоров (что требует дополнительных ресурсов и, соответст-
венно, снижает производительность). Типичным образцом ccNUMA-машины
является HP Superdome (2
÷
64 суперскалярных процессора P-8600/P-8700 с
возможностью дальнейшего наращивания, 256 Гбайт оперативной памяти,
пиковая производительность 192 Гфлопс в 64-процессорном варианте,
http://www.hp.com/go/superdome
).
В системах с архитектурой COMA (Cache-Only Memory Architecture) на
вычислительных узлах предусмотрены дополнительные (построенные по-
добно структуре кэш-памяти) и называемые AM (Attraction Memory, ‘притя-
гивающая память’) локальные модули памяти. При обращении к фрагменту
памяти стороннего процессора поступивший фрагмент размещается как в
кэш-памяти запрашивающего процессора, так и в его AM (ранее размещен-
ный фрагмент
при этом может быть выгружен); при неудачном поиске (про-
махе) в кэш-памяти контроллер памяти просматривает AM и, если нужного
фрагмента нет и там, инициирует запрос на его копирование из локальной
памяти соответствующего вычислительного узла [4].
2.2 Распределение вычислений и данных в многопроцессорных вы-
числительных системах с распределенной памятью
В случае
наличия в составе многопроцессорной вычислительной системы
(не-NUMA структуры) вычислительных узлов с локальной оперативной па-
мятью кроме распределения частей вычисления по отдельным ВУ важно ра-
циональным образом распределить по имеющимся ВУ данные (например,
блоки обрабатываемых матриц значительной размерности). Дело в том, что
затраты времени на обмен данными между обрабатывающими эти данные
ВУ
и ВУ, хранящими эти данные в своей локальной ОП, может на порядки за-
медлить процесс вычислений.
Ясно, что расположение большого пула данных на одном (например, пер-
вом в списке) ВУ вряд ли целесообразно вследствие неизбежной значитель-
ной потери времени на организацию пересылок отдельных блоков этих дан-
ным обрабатывающим
ВУ (не говоря уже о возможной нехватке ОП). С дру-
гой стороны, чисто формальное разбиение данных на равное числу ВУ число
блоков чревато тем же.
Рациональное распределение данных по локальным ОП вычислительных
узлов должно совершаться с учетом частоты обращения каждого ВУ к
каждому блоку данных, расположенных на соответствующих ВУ при
стремлении
к минимизации числа обменов, что требует определения тонкой
информационной структуры алгоритма.
Казалось бы, в общем случае возможно построение некоей функции тру-
доемкости (например, в смысле времени) вычислений, учитывающей как ре-
- 40 -
зволяющая (прозрачными для пользователя) средствами достигать соответст-
вия кэшей процессоров (что требует дополнительных ресурсов и, соответст-
венно, снижает производительность). Типичным образцом ccNUMA-машины
является HP Superdome (2 ÷ 64 суперскалярных процессора P-8600/P-8700 с
возможностью дальнейшего наращивания, 256 Гбайт оперативной памяти,
пиковая производительность 192 Гфлопс в 64-процессорном варианте,
http://www.hp.com/go/superdome).
В системах с архитектурой COMA (Cache-Only Memory Architecture) на
вычислительных узлах предусмотрены дополнительные (построенные по-
добно структуре кэш-памяти) и называемые AM (Attraction Memory, ‘притя-
гивающая память’) локальные модули памяти. При обращении к фрагменту
памяти стороннего процессора поступивший фрагмент размещается как в
кэш-памяти запрашивающего процессора, так и в его AM (ранее размещен-
ный фрагмент при этом может быть выгружен); при неудачном поиске (про-
махе) в кэш-памяти контроллер памяти просматривает AM и, если нужного
фрагмента нет и там, инициирует запрос на его копирование из локальной
памяти соответствующего вычислительного узла [4].
2.2 Распределение вычислений и данных в многопроцессорных вы-
числительных системах с распределенной памятью
В случае наличия в составе многопроцессорной вычислительной системы
(не-NUMA структуры) вычислительных узлов с локальной оперативной па-
мятью кроме распределения частей вычисления по отдельным ВУ важно ра-
циональным образом распределить по имеющимся ВУ данные (например,
блоки обрабатываемых матриц значительной размерности). Дело в том, что
затраты времени на обмен данными между обрабатывающими эти данные ВУ
и ВУ, хранящими эти данные в своей локальной ОП, может на порядки за-
медлить процесс вычислений.
Ясно, что расположение большого пула данных на одном (например, пер-
вом в списке) ВУ вряд ли целесообразно вследствие неизбежной значитель-
ной потери времени на организацию пересылок отдельных блоков этих дан-
ным обрабатывающим ВУ (не говоря уже о возможной нехватке ОП). С дру-
гой стороны, чисто формальное разбиение данных на равное числу ВУ число
блоков чревато тем же.
Рациональное распределение данных по локальным ОП вычислительных
узлов должно совершаться с учетом частоты обращения каждого ВУ к
каждому блоку данных, расположенных на соответствующих ВУ при
стремлении к минимизации числа обменов, что требует определения тонкой
информационной структуры алгоритма.
Казалось бы, в общем случае возможно построение некоей функции тру-
доемкости (например, в смысле времени) вычислений, учитывающей как ре-
Страницы
- « первая
- ‹ предыдущая
- …
- 38
- 39
- 40
- 41
- 42
- …
- следующая ›
- последняя »
