Вычислительные машины и системы. Ремонтов А.П - 91 стр.

UptoLike

91
изводительность 1 ПЭ - около 2MIPS. Количество процессорных элементов достигало 64
тысяч, разделенных на 4 блока, каждый блок управлялся ЭВМ-секвенсором, отвечавшей
за обмен между блоками, а управление всей системой осуществляла фронтальная ЭВМ,
транслировавшая высокоуровневый поток команд в поток инструкций для ПЭ. Одна
фронтальная ЭВМ могла управлять до 2 млн. процессорных элементов ! Система CM-1
достигала производительности в 100 Gflops (1984 г), а система Connection Machines - 5
c 256 тыс. процессоров -уже до 1 TFlops (1991 г).
В других системах с массовой параллельной обработкой процессорные элементы
представляют собой достаточно мощные и автономные вычислительные устрой-
ства (например, высокопроизводительные процессоры общего назначения), выполняю-
щие собственные программы вычислений. В таких системах может использоваться
кластерная организация.
Важную роль в эффективной реализации вычислений в таких системах (как и в парал-
лельных вычислительных системах вообще) играют организация обмена информацией
между процессорными элементами, организация памяти и, конечно, программное обеспе-
чение.
Наиболее естественным кажется использовать для обмена общую память (shared
memory). При этом адресное пространство памяти доступно всем процессорам, кото-
рые помещают результаты своей работы, а также - считывают исходную информацию из
общедоступного ресурса (в зависимости от характера и объемов обрабатываемой ин-
формации она может храниться в оперативной памяти, либо - во внешней). Как уже
отмечалось ранее, общая память может быть физически распределенной (Non-UMA),
либо - с одинаковым временем доступа (UMA). Проблемы возникают при синхрониза-
ции работы с общими областями памяти (здесь задействуются механизмы семафоров,
транзакций, атомарных операций и т.д.), при организации виртуальной памяти,
при ускорении доступа к памяти в физически распределенной системе памяти и так да-
лее. Дополнительную сложность представляет синхронизация работы разделяемой
оперативной памяти и локальной кэш-памяти процессоров (проблема когерентности
кэш-памяти). Синхронизация достигается применением нетривиальных алгоритмов, на-
пример, MESI. Для упрощения синхронизации памяти и для ускорения обмена в целом
предпочтительнее обмен крупными блоками данных, выполняемый реже, по сравнению
с частым обменом мелкими порциями данных. К другим способам ускорения обмена с
памятью в многопроцессорных системах можно отнести коммутацию типа «точка-
точка», при которой память разбивается на банки, каждый из которых связан с каждым
процессором через интеллектуальный коммутатор.
изводительность 1 ПЭ - около 2MIPS. Количество процессорных элементов достигало 64
тысяч, разделенных на 4 блока, каждый блок управлялся ЭВМ-секвенсором, отвечавшей
за обмен между блоками, а управление всей системой осуществляла фронтальная ЭВМ,
транслировавшая высокоуровневый поток команд в поток инструкций для ПЭ. Одна
фронтальная ЭВМ могла управлять до 2 млн. процессорных элементов ! Система CM-1
достигала производительности в 100 Gflops (1984 г), а система Connection Machines - 5
c 256 тыс. процессоров -уже до 1 TFlops (1991 г).
   В других системах с массовой параллельной обработкой процессорные элементы
представляют собой достаточно мощные и автономные вычислительные устрой-
ства (например, высокопроизводительные процессоры общего назначения), выполняю-
щие собственные программы вычислений. В таких системах может использоваться
кластерная организация.
   Важную роль в эффективной реализации вычислений в таких системах (как и в парал-
лельных вычислительных системах вообще) играют организация обмена информацией
между процессорными элементами, организация памяти и, конечно, программное обеспе-
чение.
   Наиболее естественным кажется использовать для обмена общую память (shared
memory). При этом адресное пространство памяти доступно всем процессорам, кото-
рые помещают результаты своей работы, а также - считывают исходную информацию из
общедоступного ресурса (в зависимости от характера и объемов обрабатываемой ин-
формации она может храниться в оперативной памяти, либо - во внешней). Как уже
отмечалось ранее, общая память может быть физически распределенной (Non-UMA),
либо - с одинаковым временем доступа (UMA). Проблемы возникают при синхрониза-
ции работы с общими областями памяти (здесь задействуются механизмы семафоров,
транзакций, атомарных операций и т.д.), при организации виртуальной памяти,
при ускорении доступа к памяти в физически распределенной системе памяти и так да-
лее. Дополнительную сложность представляет синхронизация работы разделяемой
оперативной памяти и локальной кэш-памяти процессоров (проблема когерентности
кэш-памяти). Синхронизация достигается применением нетривиальных алгоритмов, на-
пример, MESI. Для упрощения синхронизации памяти и для ускорения обмена в целом
предпочтительнее обмен крупными блоками данных, выполняемый реже, по сравнению
с частым обменом мелкими порциями данных. К другим способам ускорения обмена с
памятью в многопроцессорных системах можно отнести коммутацию типа «точка-
точка», при которой память разбивается на банки, каждый из которых связан с каждым
процессором через интеллектуальный коммутатор.


                                     91