Архитектура и производительность серверных ЦП

В январе 1998 г. была выпущена модифицированная версия UltraSPARC II UltraSPARC Hi. В ядро ЦП встроили контроллер оперативной памяти

Архитектура и производительность серверных ЦП

Курсовой проект

Компьютеры, программирование

Другие курсовые по предмету

Компьютеры, программирование

Сдать работу со 100% гаранией
очисленных, 32 64-бит вещественных и семь вспомогательных «теневых» (для обработки прерываний) регистров.

Вещественные регистры также могли быть адресованы как 64 32-бит или 16 128-бит. Использовалась 48-бит схема виртуальной адресации, расширенная с выходом спецификации PA-RISC 2.0 до 64-бит. Первые серийно выпускаемые ЦП уже соответствовали спецификации PA-RISC 1.1, наиболее существенным отличием от первой версии было использование раздельных шин и кэшей для команд и данных.

Первым ЦП архитектуры PA-RISC стал РА-7000, анонсированный в 1989 г. Его тактовая частота достигала 66 МГц при двухслойном 1,0-мкм технологическом процессе. Он располагал только одним пятистадийным целочисленным конвейером в составе Е-box, на который были также возложены функции А-box. Был предусмотрен (факультативно) и внешний математический сопроцессор. Подключались внешние асинхронные I-cache и D-cache размером до 256 Кбайт каждый, причем ширина шины к I-cache составляла 32 бит, а к D-cache 64 бит. Каждый кэш был оснащен TLB, емкость которого равнялась 96 записям. Работа в многопроцессорном режиме предусмотрена не была.

Выпущенный в 1992 г. РА-7100 был уже суперскалярным RISC-процессором, располагающим, помимо одного целочисленного конвейера, одним вещественным. Соответственно отпала необходимость во внешнем математическом сопроцессоре. Благодаря переходу на трехслойный 800-нм процесс удалось поднять тактовые частоты до 100 МГц. Был увеличен и размер кэшей: I-cache до 1 Мбайт, D-cache до 2 Мбайт (оба на микросхемах асинхронной SRAM), а шина к I-cache была расширена до 64 бит, предусмотрен единый TLB на 120 записей и двухпроцессорный режим. Вскоре была выпущена незначительная модификация этого ЦП, РА-7150 (добавлена совместимость с cache bypass, а также внесены некоторые изменения в функциональной части ядра), тактовая частота которой была увеличена до 125 МГц.

В 1994 г. появился PA-7100LC (Low Cost, низкая цена), предназначавшийся для массовых систем. Это был однокристальный процессор со встроенным контроллером оперативной памяти FPM или EDO DRAM, со 128-бит шиной (с 16-бит каналом ЕСС). I-cache и D-cache были сведены в один унифицированный кэш объемом до 2 Мбайт, кроме того, был предусмотрен встроенный в ядро 1-Кбайт кэш команд. В структуру Е-box был добавлен второй конвейер. Количество записей в TLB сократилось до 64. Многопроцессорный режим предусмотрен не был. Для связи с периферией использовалась 32-бит шина GSC (General System Connect), причем данные и адреса передавались по одному и тому же каналу (мультиплексировались). Процессор изготавливался по трехслойному 75-нм технологическому процессу и был рассчитан на тактовые частоты до 100 МГц. Еще одним важным новшеством стало появление дополнительного набора команд МАХ-1, позволяющего проводить векторные расчеты, моделируя два 16-бит кванта данных в одном целочисленном регистре, что заметно ускоряло обработку однородных потоковых данных, например MPEG-кадров. Таким образом, Hewlett-Packard оказалась первой компанией, которая ввела поддержку SIMD-команд в архитектуру ЦП общего назначения.

На смену РА-7100 в 1995 г. пришел РА-7200. Он обладал всеми функциональными достоинствами РА-7100LC и был оснащен новой высокоскоростной системной шиной Runway, обеспечивающей скорость обмена данными до 960 Мбайт/с при частоте 120 МГц. Внешние I-cache и D-cache остались без изменений, но в ядро ЦП был встроен вспомогательный унифицированный 2-Кбайт кэш. ЦП мог быть использован в многопроцессорных системах до четырех ЦП, подключенных к общей шине Runway. Добавилась поддержка порядка следования байт little-endian. Процессор изготавливался по 550-нм проектным нормам, тактовые частоты удалось довести до 140 МГц.

Появившийся в середине 1996 г. PA-7300LC оказался последним 32-бит ЦП этой архитектуры. Данный процессор представлял собой доработанный вариант PA-7100LC, в который благодаря четырехслойному 500-нм технологическому процессу удалось встроить 64-Кбайт I-cache и D-cache с двухканальной ассоциативностью. Был предусмотрен и внешний унифицированный B-cache с прямым отображением и сквозной записью, его объем мог достигать 8 Мбайт. Встроенный контроллер оперативной памяти был сохранен. Использовалась более скоростная модифицикация системной шины, GSC+. Как и у PA-7100LC, работа в многопроцессорном режиме не была предусмотрена. Хотя тактовые частоты возросли до 180 МГц, а показатели производительности этого ЦП были довольно хороши, лидером он не стал. Например, по результатам SPECint95 рабочая станция HP Visualize C160L, оборудованная 160-МГц PA-7300LC с 1-Мбайт B-cache, показывала производительность, близкую DEC AlphaStation 500/266 (266-МГц 21164 с 2-Мбайт B-cache), Sun Ultra 2 1200 (200-МГц UltraSPARC с 1-Мбайт B-cache) или Dell Dimension XPS Pro (200-МГц Pentium Pro с 256-Кбайт S-cache). По результатам SPECfp95 DEC AlphaStation 500/266 оказалась быстрее HP Visualize C160L на 47%, Sun Ultra 2 1200 на 51%, a Dell Dimension

XPS Pro медленнее на 16%. Таким образом, HP Visualize C160L вряд ли могла составить достойную конкуренцию 64-бит рабочим станциям на 21164 и UltraSPARC, а 32-бит рабочие станции на Pentium Pro находились в более низкой ценовой категории.

Необходимо отметить, что существовали и другие 32-бит ЦП архитектуры РА-RISC компании Hitachi. В 1993 г. появился РА/50 (изготавливаемый по трехслойному 600-нм техпроцессу) в двух вариантах:

PA/50L с тактовой частотой до 33 МГц и напряжением питания ядра 3,3 В предназначался для систем с низким энергопотреблением,

РА/50М с тактовой частотой до 66 МГц и напряжением питания ядра Б В для стандартных конфигураций.

По архитектуре ядра обе модификации идентичны: только два конвейера (один целочисленный и один вещественный) и небольшие встроенные 8-Кбайт I-cache и 4-Кбайт D-cache оба с двухканальной ассоциативностью. Традиционный для РА-7х00 большой скоростной внешний кэш отсутствовал. Имелся TLB I-cache на 32 записи и TLB D-cache на 64 записи. Был предусмотрен встроенный контроллер оперативной памяти с поддержкой SDRAM и аппаратной предвыборки данных (data prefetch).

Представленный в августе того же года на конференции Hot Chips процессор HARP-1 (Hitachi Advanced RISC Processor) обладал всеми функциональными достоинствами РА/50. Размер D-cache был увеличен до 16 Кбайт при сохранении двухканальной ассоциативности. Емкости обоих TLB были расширены до 128 записей каждый. Были добавлены внешние кэши команд и данных по 512 Кбайт каждый. Благодаря более совершенному четырехслойному 500-нм технологическому процессу, а также более высокому порогу энергопотребления, тактовые частоты ядра достигли 150 МГц.

Возвращаясь к продукции Hewlett-Packard, хотелось бы заметить, что к 1996 г. спрос на 32-бит RISC-серверы и рабочие станции упал, а конкуренты уже предлагали 64-бит решения. Поэтому не было ничего удивительного в том, что в январе вышла в свет уже 64-бит архитектура PA-RISC 2.0 и был представлен первый ЦП нового поколения РА-8000.

Ядро ЦП было полностью перепроектировано, было реализовано внеочередное выполнение команд (предусмотрен буфер переупорядочения емкостью в 56 команд). Количество конвейеров ФУ увеличилось в несколько раз: четыре на Е-box (два основных и два вспомогательных), четыре на F-box (два для обработки операций умножения и сложения, два для расчета деления и вычисления квадратного корня), два на А-box (универсальные, т. е. каждый в состоянии рассчитывать виртуальные адреса и выполнять операции загрузки-сохранения). Учитывая ограничения пятислойного 500-нм техпроцесса, разработчики РА-8000 пошли на кардинальный шаг, вовсе отказавшись от интеграции кэш-памяти в ядро ЦП. А так как конвейеры ФУ остались довольно короткими (хотя мы и не располагаем информацией о точном количестве стадий каждого конвейера), то это фактически исключало возможность работы ЦП на высоких тактовых частотах. Это позволило использовать внешние I-cache и D-cache (оба двухпортовые и с прямым отображением, изготовленные из микросхем статической памяти), работающие на частоте, близкой к частоте ядра ЦП и подключенные к нему независимыми шинами. На практике использовались 6,7-нс синхронные 1-Мбит микросхемы SRAM с отложенной записью, формирующие кэши размером по 1 Мбайт. Был предусмотрен унифицированный полноассоциативный двухпортовый TLB на 96 записей, а также таблица истории условных переходов на 256 записей и кэш адресов переходов на 32 записи. Поддерживалось как статическое, так и динамическое предсказание условных переходов. В качестве системного интерфейса была применена уже опробованная с РА-7200 шина Runway. Также сохранилась работа в четырехканальном многопроцессорном режиме.

РА-8000 оказался вторым после POWER2 по количеству контактов на корпусе 1085. Учитывая 64-бит целочисленную реализацию, был обновлен вспомогательный набор команд, который получил название МАХ-2 и предназначался для одновременной обработки уже четырех 16-бит квантов данных, находящихся в любом целочисленном регистре. Сохранилась впервые примененная в РА-7200 поддержка порядка следования байт little-endian, в дополнение к изначально заложенной в архитектуру big-endian. Важно, что при столь серьезных изменениях гарантировалась полная обратная совместимость с существующей 32-бит программной базой, написанной для предыдущих ЦП.

В мае 1997 г. была выпущена незначительно доработанная версия РА-8200, работающая на более высоких тактовых частотах, насколько это было возможно в рамках того же техпроцесса. Модификации подверглась логика предсказания условных переходов, отныне оперирующая таблицей истории переходов на 1024 записи. Емкость TLB была увеличена до 120 записей. Благодаря появлению на рынке 5-нс синхронных 4-Мбит микросхем SRAM с отложенной записью, объемы I-cache и D-cache увеличились вдвое. Заметим, что на момент выхода РА-8000 этот процессор обошел по производительности лидировавшего до этого 21164: при сравнении HP Visualize C180-XP (180-МГц РА-8000 с 1

Похожие работы

<< < 4 5 6 7 8 9 10 11 12 > >>