Организация микропроцессорных систем. Учебное пособие. Могнонов П.Б. - 163 стр.

UptoLike

Составители: 

одну операцию загрузки регистров за такт (L), а третий портодну операцию записи в
память (ST) за такт.
Одновременная обработка шести потоков данных достигается за счет механизма
ускоренного выполнения. Арифметический логический модуль, производящий вычисления с
целыми числами, работает в два раза быстрее основного ядра, что вкупе с большой тактовой
частотой процессора позволяет увеличить скорость выполнения программ.
Увеличение числа стадий конвейера и использование механизма расширенного
динамического выполнения позволяет обрабатывать одновременно в разных стадиях
конвейера до 126 микроопераций, что втрое больше, чем у Pentium III, и предсказывать
оптимальную последовательность их исполнения.
Таким образом, анализ отличительных особенностей микроархитектуры Net Burst
позволяют Pentium 4 достигать наивысшей производительности при работе с длинными
векторами, что характерно для многих приложений научного характера. Такие приложения
позволяют получать хорошую локализацию в кэш-памяти, которые не будут вызывать
потери производительности из-за неверного предсказания переходов.
При использовании SSE2 расширения будут также ускоряться такие приложения, как
трехмерная графика, распознавание речи, обработка изображений и другие мультимедийные
приложения. Для популярных офисных приложений и некоторых программ делового
назначения со случайным обращением в память выигрыш в производительности может
оказаться несущественным.
6.6.Перспективные архитектуры микропроцессоров
Хотя достигнутый уровень конвейеризации и распараллеливания процесса в Р6 и
Pentium 4 позволил резко повысить их производительность, дальнейшее повышение
скорости обработки связаны с решением ряда проблем, стоящими перед этими
процессорами.
Среди этих проблем можно отметить сложность логики, обеспечивающих загрузку
функциональных исполнительных устройств (ФУ); проблемы пропускной способности и
задержек при обращении к разным уровням иерархии памяти - от кэша до оперативной
памяти; проблемы предсказания переходов и т.д. Нерешенность этих проблем грозит
простоями ФУ современных суперскалярных микропроцессоров и невозможность
дальнейшего повышения их производительности.
Один из подходов увеличения степени загрузки основных ФУ в настоящее время
базируется на известной концепции VLIW (Very Large Instruction World – сверхбольшое
командное слово). Этот подход использован при создании фирмами HР и Intel
микропроцессора IA-64 (Itanium). В основе его лежит два наиболее принципиальных
нововведения по сравнению с процессорами RISC-архитектуры: применение технологии
явного параллелизма на уровне команд (EPIC – Explicitly Parallel Instruction Computing) и
использование предикатных вычислений.
Между тем близкий к этому подход уже был реализован в нашей стране - в
произведенном в единственном экземпляре суперкомпьютере Эльбрус-3, выпущенным в
1991 году. Далее появившееся сообщение весной 1999 года о разработке группой российских
компанийЭльбрус микропроцессора Е2К представляет большой интерес и говорит о
сходности архитектуры IA-64 с Е2К.
Основной идеей в архитектуре VLIW является введение в командное слово компонент
управляющие отдельными блоками микропроцессора, которые вводят явный параллелизм на
уровне команд. При этом задача распараллеливания работы отдельных блоков возлагается на
компилятор, который должен сгенерировать машинные команды, содержащие явные
указания на одновременное исполнение операций в разных блоках. В современных
суперскалярных микропроцессорах такое распараллеливание вычислительного процесса
осуществляется в ходе выполнения команд аппаратным способом.
одну операцию загрузки регистров за такт (L), а третий порт – одну операцию записи в
память (ST) за такт.
       Одновременная обработка шести потоков данных достигается за счет механизма
ускоренного выполнения. Арифметический логический модуль, производящий вычисления с
целыми числами, работает в два раза быстрее основного ядра, что вкупе с большой тактовой
частотой процессора позволяет увеличить скорость выполнения программ.
       Увеличение числа стадий конвейера и использование механизма расширенного
динамического выполнения позволяет обрабатывать одновременно в разных стадиях
конвейера до 126 микроопераций, что втрое больше, чем у Pentium III, и предсказывать
оптимальную последовательность их исполнения.
       Таким образом, анализ отличительных особенностей микроархитектуры Net Burst
позволяют Pentium 4 достигать наивысшей производительности при работе с длинными
векторами, что характерно для многих приложений научного характера. Такие приложения
позволяют получать хорошую локализацию в кэш-памяти, которые не будут вызывать
потери производительности из-за неверного предсказания переходов.
       При использовании SSE2 расширения будут также ускоряться такие приложения, как
трехмерная графика, распознавание речи, обработка изображений и другие мультимедийные
приложения. Для популярных офисных приложений и некоторых программ делового
назначения со случайным обращением в память выигрыш в производительности может
оказаться несущественным.

                  6.6.Перспективные архитектуры микропроцессоров

       Хотя достигнутый уровень конвейеризации и распараллеливания процесса в Р6 и
Pentium 4 позволил резко повысить их производительность, дальнейшее повышение
скорости обработки связаны с решением ряда проблем, стоящими перед этими
процессорами.
       Среди этих проблем можно отметить сложность логики, обеспечивающих загрузку
функциональных исполнительных устройств (ФУ); проблемы пропускной способности и
задержек при обращении к разным уровням иерархии памяти - от кэша до оперативной
памяти; проблемы предсказания переходов и т.д. Нерешенность этих проблем грозит
простоями ФУ современных суперскалярных микропроцессоров и невозможность
дальнейшего повышения их производительности.
       Один из подходов увеличения степени загрузки основных ФУ в настоящее время
базируется на известной концепции VLIW (Very Large Instruction World – сверхбольшое
командное слово). Этот подход использован при создании фирмами HР и Intel
микропроцессора IA-64 (Itanium). В основе его лежит два наиболее принципиальных
нововведения по сравнению с процессорами RISC-архитектуры: применение технологии
явного параллелизма на уровне команд (EPIC – Explicitly Parallel Instruction Computing) и
использование предикатных вычислений.
       Между тем близкий к этому подход уже был реализован в нашей стране - в
произведенном в единственном экземпляре суперкомпьютере Эльбрус-3, выпущенным в
1991 году. Далее появившееся сообщение весной 1999 года о разработке группой российских
компаний “Эльбрус” микропроцессора Е2К представляет большой интерес и говорит о
сходности архитектуры IA-64 с Е2К.
       Основной идеей в архитектуре VLIW является введение в командное слово компонент
управляющие отдельными блоками микропроцессора, которые вводят явный параллелизм на
уровне команд. При этом задача распараллеливания работы отдельных блоков возлагается на
компилятор, который должен сгенерировать машинные команды, содержащие явные
указания на одновременное исполнение операций в разных блоках. В современных
суперскалярных микропроцессорах такое распараллеливание вычислительного процесса
осуществляется в ходе выполнения команд аппаратным способом.