Параллельные вычисления. Баканов В.М. - 40 стр.

UptoLike

ВУЗ:

МИРЭА | Москва

Составители:

Баканов В.М.

Рубрика:

Программирование

- 40 -

зволяющая (прозрачными для пользователя) средствами достигать соответст-

вия кэшей процессоров (что требует дополнительных ресурсов и, соответст-

венно, снижает производительность). Типичным образцом ccNUMA-машины

является HP Superdome (2

64 суперскалярных процессора P-8600/P-8700 с

возможностью дальнейшего наращивания, 256 Гбайт оперативной памяти,

пиковая производительность 192 Гфлопс в 64-процессорном варианте,

http://www.hp.com/go/superdome

В системах с архитектурой COMA (Cache-Only Memory Architecture) на

вычислительных узлах предусмотрены дополнительные (построенные по-

добно структуре кэш-памяти) и называемые AM (Attraction Memory, ‘притя-

гивающая память’) локальные модули памяти. При обращении к фрагменту

памяти стороннего процессора поступивший фрагмент размещается как в

кэш-памяти запрашивающего процессора, так и в его AM (ранее размещен-

ный фрагмент

при этом может быть выгружен); при неудачном поиске (про-

махе) в кэш-памяти контроллер памяти просматривает AM и, если нужного

фрагмента нет и там, инициирует запрос на его копирование из локальной

памяти соответствующего вычислительного узла [4].

2.2 Распределение вычислений и данных в многопроцессорных вы-

числительных системах с распределенной памятью

В случае

наличия в составе многопроцессорной вычислительной системы

(не-NUMA структуры) вычислительных узлов с локальной оперативной па-

мятью кроме распределения частей вычисления по отдельным ВУ важно ра-

циональным образом распределить по имеющимся ВУ данные (например,

блоки обрабатываемых матриц значительной размерности). Дело в том, что

затраты времени на обмен данными между обрабатывающими эти данные

ВУ

и ВУ, хранящими эти данные в своей локальной ОП, может на порядки за-

медлить процесс вычислений.

Ясно, что расположение большого пула данных на одном (например, пер-

вом в списке) ВУ вряд ли целесообразно вследствие неизбежной значитель-

ной потери времени на организацию пересылок отдельных блоков этих дан-

ным обрабатывающим

ВУ (не говоря уже о возможной нехватке ОП). С дру-

гой стороны, чисто формальное разбиение данных на равное числу ВУ число

блоков чревато тем же.

Рациональное распределение данных по локальным ОП вычислительных

узлов должно совершаться с учетом частоты обращения каждого ВУ к

каждому блоку данных, расположенных на соответствующих ВУ при

стремлении

к минимизации числа обменов, что требует определения тонкой

информационной структуры алгоритма.

Казалось бы, в общем случае возможно построение некоей функции тру-

доемкости (например, в смысле времени) вычислений, учитывающей как ре-

                                  - 40 -


зволяющая (прозрачными для пользователя) средствами достигать соответст-
вия кэшей процессоров (что требует дополнительных ресурсов и, соответст-
венно, снижает производительность). Типичным образцом ccNUMA-машины
является HP Superdome (2 ÷ 64 суперскалярных процессора P-8600/P-8700 с
возможностью дальнейшего наращивания, 256 Гбайт оперативной памяти,
пиковая производительность 192 Гфлопс в 64-процессорном варианте,
http://www.hp.com/go/superdome).
   В системах с архитектурой COMA (Cache-Only Memory Architecture) на
вычислительных узлах предусмотрены дополнительные (построенные по-
добно структуре кэш-памяти) и называемые AM (Attraction Memory, ‘притя-
гивающая память’) локальные модули памяти. При обращении к фрагменту
памяти стороннего процессора поступивший фрагмент размещается как в
кэш-памяти запрашивающего процессора, так и в его AM (ранее размещен-
ный фрагмент при этом может быть выгружен); при неудачном поиске (про-
махе) в кэш-памяти контроллер памяти просматривает AM и, если нужного
фрагмента нет и там, инициирует запрос на его копирование из локальной
памяти соответствующего вычислительного узла [4].

  2.2 Распределение вычислений и данных в многопроцессорных вы-
      числительных системах с распределенной памятью

  В случае наличия в составе многопроцессорной вычислительной системы
(не-NUMA структуры) вычислительных узлов с локальной оперативной па-
мятью кроме распределения частей вычисления по отдельным ВУ важно ра-
циональным образом распределить по имеющимся ВУ данные (например,
блоки обрабатываемых матриц значительной размерности). Дело в том, что
затраты времени на обмен данными между обрабатывающими эти данные ВУ
и ВУ, хранящими эти данные в своей локальной ОП, может на порядки за-
медлить процесс вычислений.
  Ясно, что расположение большого пула данных на одном (например, пер-
вом в списке) ВУ вряд ли целесообразно вследствие неизбежной значитель-
ной потери времени на организацию пересылок отдельных блоков этих дан-
ным обрабатывающим ВУ (не говоря уже о возможной нехватке ОП). С дру-
гой стороны, чисто формальное разбиение данных на равное числу ВУ число
блоков чревато тем же.
  Рациональное распределение данных по локальным ОП вычислительных
узлов должно совершаться с учетом частоты обращения каждого ВУ к
каждому блоку данных, расположенных на соответствующих ВУ при
стремлении к минимизации числа обменов, что требует определения тонкой
информационной структуры алгоритма.
  Казалось бы, в общем случае возможно построение некоей функции тру-
доемкости (например, в смысле времени) вычислений, учитывающей как ре-

Заказать работу

Вы здесь

Параллельные вычисления. Баканов В.М. - 40 стр.

UptoLike

ВУЗ:

Баканов В.М.

Программирование

Страницы