Основы САПР пищевых производств. Коротков В.Г - 63 стр.

UptoLike

63
- переработанные блоки операций с мультимедийными данными и
числами с плавающей запятой;
- огромный набор новых инструкций;
- новая 100 МГц шина, передающая по 4 пакета данных за такт (что
эмулирует результирующую частоту в 400 МГц);
- конвейер выполнения инструкций из 20 шагов.
Стартовой рабочей частоты процессора в 1,5 ГГц удалось добиться за
счет новой архитектуры конвейера выполнения инструкций. Очевидно, что чем
длиннее конвейер, тем легче наращивать тактовую частоту, но тем меньше
производительности получается на каждый тактовый импульс. Дело в том, что
большее количество стадий конвейера распределяет меньше работы на от-
дельный такт и тем самым этот такт выполняется быстрее. Pentium Ш имеет
конвейер длиной 12 стадий (17 стадий FPU), Athlon - 10 стадий (15 стадий
FPU). Pentium 4 при длине конвейера 20 стадий имеет самое меньшее время
выполнения такта, позволяющее достичь максимальной тактовой частоты, но и
получает самые большие задержки для связанных друг с другом операций
(второй операции придется ожидать 20 тактов, пока не завершится первая
операция) [5].
Эта проблема частично решается за счет буфера, некоторые инструкции, из
которого можно выполнять независимо от результата предыдущих.
Новинкой процессорной архитектуры стал кэш с механизмом упорядочи-
вания инструкций. Его задачей является хранение инструкций в том порядке, в
каком они исполняются. То есть, если первая - инструкция, находящаяся по
адресу 100, выполняет переход на вторую инструкцию, находящуюся по адресу
200, то в этом кэше вторая инструкция будет находиться именно в том порядке,
как она исполняется - непосредственно за первой, и т. д. [8].
Еще один инструмент ускорения работы - Advanced Dynamic Execution,
улучшенная версия механизма суперскалярного внеочередного выполнения
инструкций, когда процессор нарушает естественную их последовательность с
целью более плотной загрузки исполнительных модулей.
Не менее важным для эффективности процессора является производи-
тельность модулей, непосредственно выполняющих те или иные операции - с
целыми числами, с числами с плавающей запятой, со специфическими
данными, когда одна инструкция оперирует сразу несколькими пакетами
данных (SIMP).
В Pentium 4 блок целочисленных операций работает на удвоенной скорости
относительно скорости процессора (назовем ее базовой скоростью) - то есть
при базовой частоте 1,5 ГГц скорость работы целочисленных модулей
составляет 3 ГГц за счет выполнения операций за половину такта. В идеальном
случае два имеющихся модуля могут выполнять по 4 операции с целыми
числами за один такт работы процессора.
Вместе с тем важным преимуществом Pentium 4 является блок обработки
SIMD (Single instruction - multiple data) инструкций. 64-битные инструкции
рассчитаны на обработку чисел с плавающей запятой, а 128-битные - на це-
лочисленные данные. Таких модулей у Pentium 4 также два: один для регист-
      - переработанные блоки операций с мультимедийными данными и
числами с плавающей запятой;
      - огромный набор новых инструкций;
      - новая 100 МГц шина, передающая по 4 пакета данных за такт (что
эмулирует результирующую частоту в 400 МГц);
      - конвейер выполнения инструкций из 20 шагов.
      Стартовой рабочей частоты процессора в 1,5 ГГц удалось добиться за
счет новой архитектуры конвейера выполнения инструкций. Очевидно, что чем
длиннее конвейер, тем легче наращивать тактовую частоту, но тем меньше
производительности получается на каждый тактовый импульс. Дело в том, что
большее количество стадий конвейера распределяет меньше работы на от-
дельный такт и тем самым этот такт выполняется быстрее. Pentium Ш имеет
конвейер длиной 12 стадий (17 стадий FPU), Athlon - 10 стадий (15 стадий
FPU). Pentium 4 при длине конвейера 20 стадий имеет самое меньшее время
выполнения такта, позволяющее достичь максимальной тактовой частоты, но и
получает самые большие задержки для связанных друг с другом операций
(второй операции придется ожидать 20 тактов, пока не завершится первая
операция) [5].
     Эта проблема частично решается за счет буфера, некоторые инструкции, из
которого можно выполнять независимо от результата предыдущих.
      Новинкой процессорной архитектуры стал кэш с механизмом упорядочи-
вания инструкций. Его задачей является хранение инструкций в том порядке, в
каком они исполняются. То есть, если первая - инструкция, находящаяся по
адресу 100, выполняет переход на вторую инструкцию, находящуюся по адресу
200, то в этом кэше вторая инструкция будет находиться именно в том порядке,
как она исполняется - непосредственно за первой, и т. д. [8].
     Еще один инструмент ускорения работы - Advanced Dynamic Execution,
улучшенная версия механизма суперскалярного внеочередного выполнения
инструкций, когда процессор нарушает естественную их последовательность с
целью более плотной загрузки исполнительных модулей.
     Не менее важным для эффективности процессора является производи-
тельность модулей, непосредственно выполняющих те или иные операции - с
целыми числами, с числами с плавающей запятой, со специфическими
данными, когда одна инструкция оперирует сразу несколькими пакетами
данных (SIMP).
     В Pentium 4 блок целочисленных операций работает на удвоенной скорости
относительно скорости процессора (назовем ее базовой скоростью) - то есть
при базовой частоте 1,5 ГГц скорость работы целочисленных модулей
составляет 3 ГГц за счет выполнения операций за половину такта. В идеальном
случае два имеющихся модуля могут выполнять по 4 операции с целыми
числами за один такт работы процессора.
     Вместе с тем важным преимуществом Pentium 4 является блок обработки
SIMD (Single instruction - multiple data) инструкций. 64-битные инструкции
рассчитаны на обработку чисел с плавающей запятой, а 128-битные - на це-
лочисленные данные. Таких модулей у Pentium 4 также два: один для регист-
                                                                          63