800px-T64 and pencil.jpg Это незавершённая статья.
Вы можете помочь проекту, исправив и дополнив её.

NEC SX-Aurora TSUBASA — векторный процессор семейства NEC SX[1][2]. В отличие от предыдущих суперкомпьютеров этого семейства, SX-Aurora TSUBASA поставляется в виде карты PCIe, называемой NEC «Vector Engine» (VE). Восемь карт Vector Engine можно вставить в векторный хост (VH), который обычно представляет собой сервер x86-64 под управлением операционной системы Linux.

О продукте было объявлено в пресс-релизе 25 октября 2017 года, а начало продаж состоялось в феврале 2018 года.

Модель NEC SX-Aurora TSUBASA пришла на смену SX-ACE.

Оборудование

SX-Aurora TSUBASA является преемником серий NEC SX и SUPER-UX, векторных компьютерных систем, на которых основан суперкомпьютер Earth Simulator.

Его аппаратное обеспечение состоит из хостов Linux x86 с векторными движками (VE), подключенными через соединение PCI Express (PCIe).

Высокая пропускная способность памяти (0,75–1,2 ТБ/с) обеспечивается за счет восьми ядер и шести модулей памяти HBM2, объединённых на кремниевом интерпозере, оформленном в форм-факторе карты PCIe полной длины, полной высоты и двойной ширины. Функциональность операционной системы для VE переносится на VH и обрабатывается в основном демонами пользовательского пространства, на которых работает VEOS.

В зависимости от тактовой частоты (1,4 или 1,6 ГГц) каждый процессор VE имеет восемь ядер и пиковую производительность 2,15 или 2,45 терафлопс при вычислениях с двойной точностью. Процессор впервые в мире оснащен шестью модулями HBM2 на кремниевом интерпозере с общим объемом памяти 24 или 48 ГБ с высокой пропускной способностью.

На сервере, поставляемом NEC может размещаться до восьми VE, кластеры VH могут масштабироваться до произвольного количества узлов.

Версии Vector Engine

По состоянию на 2023 год были разработаны и выпущены на рынок следующие версии TSUBASA:

Version 1 Vector Engine
SKU 10A 10B 10C 10AE 10BE 10CE
Частота процессора Ггц 1.6 1.4 1.4 1.584 1.408 1.400
Число векторных ядер в процессоре 8 8 8 8 8 8
Пиковая производительность ядра

(double precision GFLOPS)

307.2 268.8 268.8 304 270 268
Пиковая производительность ядра

(single precision GFLOPS)

537 608 540 537
Пиковая производительность процессора

(double precision TFLOPS)

2.45 2.15 2.15 2.43 2.16 2.15
Пиковая производительность процессора

(single precision TFLOPS)

4.9 4.3 4.3 4.86 4.32 4.30
Пропускная способность памяти (ТБ/с) 1.2 1.2 0.75 1.35 1.35 1.00
Ёмкость памяти (Гб) 48 48 24 48 48 24
Ёмкость кэш-памяти (Мб) 16 16 16 16 16 16

Версия 1.0 Vector Engine была произведена по 16-нм техпроцессу FinFET (от TSMC) и выпущена в трех основных версиях продукта (в доработанных версиях добавляется буква E в конце):

По состоянию на ноябрь 2023 года из перечисленных моделей поставляются только модели 10AE и 10CE.

Version 2 Vector Engine
SKU 20A 20B
Частота процессора Ггц 1.6 1.6
Число векторных ядер в процессоре 10 8
Пиковая производительность ядра

(double precision GFLOPS)

307 307
Пиковая производительность ядра

(single precision GFLOPS)

614 614
Пиковая производительность процессора

(double precision TFLOPS)

3.07 2.45
Пиковая производительность процессора

(single precision TFLOPS)

6.14 4.91
Пропускная способность памяти (ТБ/с) 1.53 1.53
Ёмкость памяти (Гб) 48 48
Ёмкость кэш-памяти (Мб) 16 16
Version 3 Vector Engine
SKU 30A
Частота процессора Ггц 1.6
Число векторных ядер в процессоре 16
Пиковая производительность ядра

(double precision GFLOPS)

307
Пиковая производительность ядра

(single precision GFLOPS)

614
Пиковая производительность процессора

(double precision TFLOPS)

4.91
Пиковая производительность процессора

(single precision TFLOPS)

9,82
Пропускная способность памяти (ТБ/с) 2.45
Ёмкость памяти (Гб) 96
Ёмкость кэш-памяти (Мб) 64

Архитектура процессора

Каждое из ядер Aurora имеет 64 логических векторных регистра. Регистры имеют глубину 256, т.е. каждому логическому регистру соответствует 256 ячеек, в которых хранятся значения, используемые последовательно выполняемыми операциями. Конструкция регистра представляет собой гибрид обычного для векторных процессоров пайплайна и элементов памяти, предназначенных для SIMD-обработки, объединённых по 32. Процессор может выполнять с ними как векторную команду, так и SIMD-инструкцию. Регистры подключены к трём блоками умножения и сложения (FMA) с плавающей запятой, которые могут работать параллельно, двум арифметико-логических блокам ALU, обрабатывающих операции с фиксированной запятой, а также конвейеру деления и квадратного корня.

Используя только блоки FMA и их 32-кратный SIMD-параллелизм, векторное ядро способно выполнять 192 операции двойной точности за цикл.

В «упакованных» векторных операциях, когда два значения одинарной точности загружаются в пространство одного слота двойной точности в векторных регистрах, векторный модуль выполняет вдвое больше операций за такт по сравнению с двойной точностью. Скалярное процессорное устройство (SPU) обрабатывает невекторные инструкции на каждом из ядер.

Память и кэш

Память процессора SX-Aurora TSUBASA состоит из шести высокоскоростных модулей памяти HBM2, реализованных в том же корпусе, что и центральный процессор, с помощью технологии Chip-on-Wafer-on-Substrate. В зависимости от модели процессора модули HBM2 представляют собой 4 или 8[3] 3D-модулей с емкостью 4 или 8 ГБ каждый. Таким образом, процессоры SX-Aurora имеют память HBM2 объемом 24, 48 или 96 ГБ. Модели, оснащенные большими модулями HBM2, имеют пропускную способность памяти 1,2 ТБ/с. Ядра векторного движка первого и второго поколения совместно используют 16 МБ кэша последнего уровня (LLC) - кэша обратной записи, напрямую подключенного к векторным регистрам, и кэша L2 SPU. Размер строки кэша LLC составляет 128 байт. Приоритет хранения данных в LLC можно в некоторой степени контролировать программно, что позволяет программисту указать, какие переменные или массивы должны сохраняться в кеше, что сравнимо с функцией Advanced Data Buffer (ADB) NEC SX-ACE. В третьем поколении системы ёмкость этого кэша увеличена до 64Мб.

Поставляемые платформы

Программное обеспечение

Операционная система

Операционная система Vector Engine (VE) называется «VEOS» и выполняется полностью вне хост-системы (Vector Host, VH).

VEOS состоит из модулей ядра и демонов пользовательского пространства, которые:

  • управляют процессами VE и их планированием на VE
  • управляют адресными пространствами виртуальной памяти процессов VE
  • обрабатывают обмен между памятью VH и VE с помощью механизмов VE DMA
  • обрабатывают прерывания и исключения процессов VE, а также их системные вызовы.
  • VEOS поддерживает многозадачность в VE, и почти все системные вызовы Linux поддерживаются в библиотеке VE libc.
  • Разгрузка служб операционной системы на VH устраняет дрожание ОС от VE за счет увеличения задержек.
  • Все пакеты, связанные с операционной системой VE, лицензируются по лицензии GNU General Public License и опубликованы на github.com/veos-sxarr-nec.

Разработка ПО

Перспективы развития

NEC в декабре 2022 года анонсировала дальнейшее развитие платформы - были более-менее твёрдо показаны характеристики четвёртого поколения Vector Engine, на представленном в презентации roadmap присутствовали пятое и шестое. Однако, в марте 2023 года распространились слухи, что компания отказалась от дальнейшего развития системы, оценивая как бесперспективную конкуренцию с ускорителями AMD Instinct и NVidia. После нескольких запросов к официальным лицам компании, те, не приводя подробности, ответили, что отказ от развития относится только к энерегоэффективной версии тех же процессоров, LX (эта ветка развития архитектуры SX, кажется, официально никуда не поставлялась), а развитие SX-Aurora будет продолжено.

Aurora TSUBASA в России

Примечания

  1. Ошибка цитирования Неверный тег <ref>; для сносок nec-product-page не указан текст
  2. Ошибка цитирования Неверный тег <ref>; для сносок 2017-next-platform не указан текст
  3. Относительно третьего поколения VE не известно, увеличилось ли вдвое число модулей, или емкость каждого из них. В любом случае, общая ёмкость памяти HBM2 в них удвоена.