Материалы по тегу: cpu

23.09.2020 [16:00], Алексей Степин

Intel представила новые 10-нм индустриальные процессоры: от Atom x6000E до Core i7 Tiger Lake

На мероприятии Intel Industrial Summit компания показала новые решения для периферийных вычислений и промышленных систем: платформу Atom x6000E, а также новые процессоры Pentium и Celeron серий N/J и индустриальные версии Core i3/i5/i7 11-го поколения известного как Tiger Lake. Для x6000E, Pentium и Celeron используется классический, «старый» 10 нм, а кристаллы Tiger Lake производятся с использованием «нового» 10 нм, так называемого SuperFIN.

Платформа Intel Atom x6000E (Elkhart Lake) универсальна и позволяет решать широкий круг задач. Она может применяться в производящей промышленности и энергетике, в системах управления «умного города», в здравоохранении и медицине и во многих других отраслях, где требуется обработка достаточно серьёзных входных потоков данных в реальном времени. При этом платформа отвечает самым строгим требованиям безопасности.

По сравнению с предыдущими процессорами Atom аналогичного назначения в серии x6000E однопоточная производительность возросла в 1,7 раза, многопоточная — в 1,5 раза, а производительность графической подсистемы вдвое. Для повышенной временной точности в новинках реализована поддержка технологий Intel Time Coordinated Computing (TCC) и Time-Sensitive Networking (TSN).

Как и полагается современной SoC для периферийных вычислений, в составе x6000E имеются блоки критографических ускорителей, а для IoT имеется интегрированный микроконтроллер ARM Cortex-M7, отвечающий за работу Intel Programmable Services Engine (Intel PSE). Он работает независимо от остальных блоков и предоставляет возможности удалённого управления SoC, обработки низкоскоростного ввода-вывода от различных сенсоров, запуск приложений реального времени и синхронизацию. Есть также и чисто аппаратные средства обеспечения ИТ-безопасности, объединённые под именем Intel Safety Island.

Также в целях обеспечения надёжности реализован широкий спектр средств удалённого мониторинга и управления, как в режиме in-band, так и в out-of-band. Включение, выключение, сброс и перезагрузку можно выполнять даже если система в целом не отвечает. Модели Atom x6427FE и x6200FE отвечают стандартам функциональной безопасности IEC 61508 и ISO 13849, они прошли соответствующую сертификацию, так что использовать их можно и в системах жизнеобеспечения, в комплексах управления АЭС или нефтеперабатывающего предприятия.

Серия Intel Atom x6000E включает в себя процессоры с двумя или четырьмя ядрами, их частотный диапазон составляет от 1,0 до 1,9 ГГц, в турборежиме частота может временно увеличиваться до 3,0 ГГц. Аналогичные частотные формулы имеют и Pentium/Celeron, базирующиеся на ядрах Tiger Lake (11 поколение). Контроллер памяти может работать либо с LPDDR4x (4×32 бита, максимум 4267 Мт/с, 16 Гбайт при 3200 МГц, всего до 64 Гбайт) или DDR4 (2×64 бита, 3200 Мт/с, максимум 32 Гбайт, всего до 64 Гбайт), есть поддержка in-band ECC для обычных модулей без ECC. Объём кеша составляет 1 Мбайт у самой младшей модели, во всех остальных случаях он равен 1,5 Мбайт.

В соответствии с современными требованиями к графике, новинки Atom поддерживают подключение до трёх независимых дисплеев с разрешением 4K при 60 Гц, для этого служат интерфейсы Display Port 1.3 и HDMI 2.0b. Также поддерживается подключение экранов по eDP или MIPI DSI. Сам графический движок Intel UHD Graphics может иметь конфигурацию с 16 или 32 исполнительными блоками, работающими на частоте до 400 МГц, а в турборежиме — и до 800 МГц. Они поддерживают различные режимы вычислений для работы в качестве инференс-системы. Новые SoC Intel выполнены в едином корпусе FCBGA1493, однако под крышкой скрываются два кристалла — вычислительный и PCH.

У более мощных процессоров с ядрами Tiger Lake графика тоже намного мощнее, она представлена блоками Iris Xe, которых в составе чипа может быть до 96, к тому же новая графическая архитектура лучше подходит для систем принятия решений (инференс) и задач машинного зрения. Такая графическая подсистема может одновременно обрабатывать до 40 потоков видео в формате 1080p при 30 кадрах в секунду, а выводить — либо четыре потока 4K, либо два, но уже в 8K.

Подобные мощности позволяют использовать Tiger Lake в системах, для которых требуется детерминированная, строго синхронизированная по времени работа, либо в гибких системах машинного зрения с ИИ-компонентами. Безопасности способствует возможность полного шифрования содержимого оперативной памяти.

Коммуникационные возможности новых промышленных процессоров Intel также соответствуют требованиям времени: новые SoC несут на борту три MAC-контроллера, способных работать на скорости 2,5 Гбит/с, причём, в моделях с поддержкой TSN обеспечивается режим реального времени с минимальными задержками. Также общение «с внешним миром» происходит посредством 8 линий PCI Express 3.0, четырех портов USB 3.1 и 10 портов USB 2.0. Имеется два порта для подключения флеш-накопителей с интерфейсом UFS 2.0. В референсной платформе Intel реализована и поддержка UART и JTAG (разъём MIPI-60).

У более мощных Tiger Lake из серий i3/i5/i7 возможности несколько иные: встроенных MAC два, один из которых работает в режиме 1GbE, другой поддерживает cкорость 2,5GbE, в некоторых моделях дополнен поддержкой Time-Sensitive Networking. Поддерживается подключение дискретного сетевого контроллера I225LM/IT. Что касается беспроводной части, то имеется поддержка Wi-Fi со скоростями до 1,73 Гбит/с, а также Bluetooth 5.0. Для расширения инференс-способностей поддерживается подключение дополнительного ускорителя Intel из серии Movidius. Также реализованы стандарты PCIe 4.0 (четыре линии) и Thunderbolt/USB 4 (четыре порта).

Теплопакеты достаточно скромные: от 4,5 до 12 Ватт у Atom, до 28 Ватт у Tiger Lake. Улучшенный техпроцесс позволяет последним быть существенно быстрее аналогичных Core 8 поколения, в зависимости от характера нагрузки это до 23% (однопоточная) или до 19% (многопоточная), а графическая подсистема и вовсе практически в три раза быстрее за счёт новой архитектуры.

Новые процессоры имеют широкий спектр программной поддержки. В первую очередь, это, естественно, Microsoft Windows 10 IoT Enterprise и Yocto Project Linux, разрабатываемая сообществом Yocto совместно с Intel. Поддерживается также запуск Ubuntu, Wind River Linux LTS и Android 10 (только 64-битная версия). Для Tiger Lake также заявлена совместимость с Wind River VxWorks.

В качестве загрузчика может использоваться как обычный BIOS/UEFI, так и открытые Intel Slim Bootloader и coreboot. Часть, отвечающая за подсистемы безопасности и реального времени, работает под управлением Zephyr RTOS, также открытой. В число партнёров Intel, отвечающих за код BIOS, входят American Metatrends, Thundersoft, Byosoft, Insyde и Phoenix.

Для создания ПО компания предлагает расширенный комплект разработчика: инструменты для реализации Time Coordinated Computing, Intel Media SDK, набор Intel для OpenVINO, Intel System Studio и Intel Context Sensing SDK. Intel понимает всю важность рынка периферийных вычислений, за которым, судя по всему, будущее промышленности: любая производственная задача будет неизбежно порождать серьёзные потоки данных и требовать от системы управления минимальных задержек. Именно поэтому периферийные вычислительные устройства, к которым относятся и новые процессоры Intel, столь важны. Неудивительно, что компания уделяет много внимания как аппаратным возможностям, так и программным компонентам в новой платформе.

Постоянный URL: http://servernews.ru/1021151
22.09.2020 [20:32], Игорь Осколков

От периферии до облаков: Arm представила серверные платформы Neoverse V1 Zeus и N2 Perseus с поддержкой SVE, PCIe 5.0, DDR5 и HBM

Компания Arm объявила о расширении своего портфолио серверных решений семейства Neoverse, представив сразу два варианта платформы. Новая серия V и её первенец V1 под кодовым именем Zeus вместе с N2 (Perseus) получат поддержку SIMD-расширений SVE и формата bfloat16, а также интерфейсы PCIe 5.0, DDR5 и HBM.

Однако отличия между ними весьма существенны. В Neoverse V1 в отличие от N2 Arm отказывается от традиционной оптимизации сразу по трём направлениям — энергопотребление, производительность и площадь кристалла — и делает упор на мощность. Вероятно, основой для них станут вариации Cortex-X1. Эти чипы будут потреблять больше энергии и будут физически больше, но взамен предложат значительное увеличение размеров буферов, кешей, окон и очередей. Показатель IPC для одного потока будет увеличен на впечатляющие 50% в сравнении с Neoverse N1.

А новые техпроцессы 5 и 7 нм позволят повысить частоты будущих процессоров. Так что они потенциально смогут соревноваться с грядущими платформами x86-64 не только по показателю производительность на Ватт, но и в чистой производительности. Поспособствует этому и долгожданное официальное появление векторных инструкций Scalable Vector Extension (SVE) в составе самого ядра. Их отличительной чертой (от SSE/AVX) является нефиксированная ширина — производители конкретных SoC могут реализовать поддержку от 128 до 2048 бит с шагом в 128 бит. При этом SVE-код будет работать на любом из них, просто скорость обработки данных будет разной.

Конкретно в V1 Arm заложила два блока SVE-256. Это явно хуже пары SVE-512 в Fujitsu A64FX, единственном «кремнии», который уже поддерживает новые инструкции, но всё равно в два раза лучше, чем у N1 с двумя «старыми» 128-бит NEON. Так что мы вполне можем увидеть в будущем ориентированные на высокопроизводительные вычисления решения от других компаний. Этому поспособствует и поддержка памяти HBM2e. Опять-таки, в A64FX она была нужна именно для того, чтобы SVE-блоки не «голодали». Кроме того, обновлённые спецификации SVE включают и поддержку формата bfloat16, актуального для нейронных сетей.

Arm Neoverse V1 формально доступен уже сейчас. Первыми процессорами на базе этой архитектуры должны стать 72-ядерные SiPearl Rhea, которые вместе с другими чипами, уже на базе открытой архитектуры RISC-V, лягут в основу будущих европейских суперкомпьютеров. Таким образом Евросоюз надеется получить большую независимость от технологий США. Впрочем, объявленная сделка между NVIDIA и Arm может расстроить эти планы. Следующим крупным лицензиатом V1 может стать Ampere, которая готовится выпустить в 2022 году процессоры Siryn.

Что касается архитектуры Neoverse N2, то она появятся уже в следующем году, а лицензирование начнётся в конце этого. Она также получит поддержку SVE и bfloat16, но в виде двух 128-бит блоков. Будет внедрена поддержка HBM3, CXL 2.0 и CCIX 2.0. В N2 Arm придерживается своего традиционного подхода, так что прирост IPC в однопотоке составит «всего лишь» до 40% в сравнении с N1, но при этом сохранятся те же уровень энергопотребления и площадь ядра. Можно предположить, что основной для неё станет Cortex-A78.

Именно N2 должна стать наиболее массовой платформой благодаря масштабируемости. Arm видит различные варианты дизайнов будущих SoC. От 8 до 16 ядер с TDP 20-35 Вт пойдут в экономичные решения на самой границе сети, варианты на 12-36 ядер с TDP от 30 до 80 Вт могут стать основой периферийных вычислений, а сборки с числом ядер от 32 до 192 и с TDP от 80 до 350 Вт займут место в мощных серверах, включая облачные. Пока что единственным более-менее массовым решением на базе Neoverse N1 владеет Amazon — в мае в AWS появились инстансы на базе 64-ядерных Graviton2.

После 2022 года выйдет следующее поколение Neoverse под кодовым именем Poseidon. Про него пока говорится в общих чертах, что оно станет производительнее на 30%, получит улучшения по части векторных инструкций и машинного обучения, обзаведётся поддержкой будущих версий CCIX и CXL, а также предложит более плотную упаковку ядер.

Постоянный URL: http://servernews.ru/1021265
16.09.2020 [13:23], Алексей Степин

IBM открыла ядро POWER A2O и ПО Open Cognitive Environment

Открытые архитектуры часто побеждают в долгосрочной перспективе, и это доказала система IBM PC, вариациями которой мы пользуемся и сейчас, спустя почти 40 лет после появления первых IBM PC и PC XT. Про POWER-системы этого сказать пока нельзя, но архитектура продолжает развиваться и существуют даже рабочие станции на её основе. IBM сделала POWER открытой в августе 2019 года и продолжает активно вкладываться в проект OpenPOWER Foundation, на этот раз она отдала в его распоряжение процессорного ядра A2O и программное обеспечение для машинного обучения Open Cognitive Environment.

Ранее на саммите Linux Foundation Open Source компания анонсировала открытое ядро A2I, однако оно не имело внеочередного исполнения и предназначалось для малых систем типа SoC, например, для встраиваемых приложений. На этот раз на OpenPOWER Summit 2020 представлено ядро A2O и, как нетрудно понять из названия, поддержка внеочередного исполнения (out of order) в нём имеется. Как следствие, A2O гораздо лучше подходит там, где требуется повышенная однопоточная производительность. В основе лежит 64-битный набор инструкций PowerISA v2.07 Book III-E.

В ядре реализована поддержка SMT, но не такая развитая, как у A2I — два потока на ядро против четырёх. Предсказание ветвлений построено на базе GSHARE. Объёмы кешей первого уровня составляют 32 Кбайт для инструкций и данных, имеется MMU, а также блок AXU (Auxiliary Execution Unit), облегчающий построение модульных дизайнов SoC на базе этого ядра. Основное предназначение A2I не слишком отличается от A2O — это всё так же кастомные системы-на-чипе и встраиваемые приложения. Площадь одного ядра в 7-нм исполнении оценивается в 0,31 мм2, при частоте 3 ГГц потребление должно составлять не более 0,25 Ватт, и даже с 4,2 ГГц оно не выйдет за пределы 1 Ватта.

Помимо A2O компания открыла для использования инструментарий Open Cognitive Environment, изначально развивавшийся в рамках проекта IBM PowerAI. Его назначение — упростить и облегчить пользование базовыми средствами машинного обучения и построить удобный мост между различными компонентами, такими как TensorFlow, PyTorch и другими фреймворками и библиотеками. По сути, Open-CE представляет собой набор мультиархитектурных «рецептов», скриптов, кода интеграции для Kubernetes, позволяющий быстро и удобно проектировать и развёртывать ИИ-системы.

Другой член проекта OpenPOWER, Орегонский университет (OSU) объявил о поддержке Open-CE и заявил, что планирует создать бинарные файлы для всех версий этого проекта. При этом планируется поддержка нескольких архитектур, в частности, Power PC версий little и big endian, как с поддержкой NVIDIA CUDA, так и без оной.

Модуль памяти OMI

Модуль памяти OMI

Также на OpenPOWER Summit 2020 была отмечена прогрессивная роль нового стандарта памяти OMI, использующего подключение OpenCAPI и чип-конвертер, расположенный прямо на модулях памяти. Накладные расходы в плане латентности, как отметил технический директор OpenCAPI, составляют менее 10 наносекунд, при этом пропускная способность OMI в 4 раза выше, чем у DDR4 и в 1,2 раза выше, нежели у HBM2. По параметру «memory depth» OMI в 2,3 раза превосходит DDR4 и в 116 раз — HBM2, и это делает новый стандарт очевидным выбором для индустрии серверов и супервычислений.

Постоянный URL: http://servernews.ru/1020756
08.09.2020 [20:45], Алексей Степин

7-нм процессоры SiPearl Rhea для европейских суперкомпьютеров получат 72 ядра ARM Neoverse и поддержку памяти HBM2E и DDR5

Компания Silicon Pearl, как уже сообщалось, стала членом консорциума European Processor Initiative ещё в начале этого года. Создавалась эта компания с целью разработки процессоров для будущих европейских суперкомпьютеров. В дальнейшем появилась информация о том, что первый CPU от SiPearl получит ядра ARM Neoverse Zeus, а сейчас стали появляться первые данные о серверном процессоре под кодовым названием Rhea.

Эти данные хорошо согласуются с ранее опубликованными: Rhea будет представлять собой первое поколение процессоров общего назначения SiPearl. Довольно интересные плакаты были продемонстрированы пиар-командой SiPearl во время визита Александры Дюбланше (Alexandra Dublanchet), вице-президента по экономическому развитию региона.

В числе опубликованных в официальном твиттере SiPearl фотографий виден достаточно подробный план кристалла Rhea. Если ранее о платформе говорилось лишь в общих чертах, то на представленном плакате видны некоторые детали.

Например, данный процессор ориентирован на использование техпроцесса TSMC N7 (7 нм). К сожалению, фотографий крупным планом на данный момент не существует, но можно всё же разглядеть не менее 72 процессорных ядер и 68 разделов кеша L3, соединённых ячеистой сетью (mesh network). Помимо традиционных каналов DDR5, коих в новом процессоре может быть от 4 до 6, возможно использование 4 сборок HBM2E.

В качестве основного ядра подтверждено использование Neoverse N1 Zeus, этот дизайн ранее успешно дебютировал в процессоре Ampere QuickSilver. В его основе лежит архитектура ARM v8.2+, что косвенно подтверждается явным наличием mesh-сети. Данное ядро отличается высокой энергоэффективностью и прекрасной масштабируемостью, поскольку известны проекты с количеством ядер N1 от 8 до 128 с потреблением от 20 до 200 Ватт, при этом N1 существенно (на 60%) производительнее Cortex-A72.

На представленном плакате фигурируют и другие функциональные блоки, но, к сожалению, надписи разглядеть не представляется возможным. Однако в твиттер-аккаунте HPC Guru появились более детальные сведения о деятельности SiPearl. В частности, известно, что семейство Rhea станет первой производительной европейской вычислительной платформой общего назначения, причём первые воплощения появятся также в форме плат с интерфейсом PCI Express и в виде автомобильных компьютеров.

Не собирается SiPearl прекращать работу и над процессором на основе набора инструкций RISC-V по проекту EPAC. Серьезнейшее внимание компания уделяет разработке блоков векторных и стенсильных вычислений, блоков вычислений с плавающей запятой переменной точности и «нейроускорителей» для задач машинного обучения. Базовый «строительный блок» EPAC будет включать в себя 4 векторных ядра, 3 блока машинного обучения и по блоку векторных и стенсильных вычислений.

Что касается временных рамок, то официальный запуск первой общеевропейской платформы для нужд супервычислений и машинного обучения запланирован на 2021 и 2022 года, а уже в промежутке между 2022 и 2023 должно увидеть свет второе поколение процессоров, Cronos. Третье поколение европейских процессоров общего назначения стоит ожидать не ранее 2024 года.

Постоянный URL: http://servernews.ru/1020144
03.09.2020 [21:41], Алексей Степин

Анонсирован первый 64-бит процессор ARM Cortex-R82 для «умных» устройств хранения данных

Семейство процессоров с архитектурой ARM чрезвычайно обширно и по этому признаку намного превосходит x86. В пределах королевства ARM встречаются вычислительные ядра от простейших, но способных работать долго от самого маломощного источника питания, до мощных, способных поспорить на равных с Intel Xeon или AMD EPYC. Новинка ARM, первый 64-битный процессор Cortex-R82 находится по этой шкале ближе к её первому краю, нежели ко второму — и всё же он принципиально превосходит все более ранние решения в серии R.

Если ядра ARM Cortex серии A предназначены для общего применения и их область использования довольно расплывчата, поскольку включает в себя как решения для смартфонов, так и многоядерные серверные чипы, то серия R изначально ориентирована на применение в системах, где первичными являются такие вещи, как работа в реальном времени и предельная надёжность. Причина проста: оборудование этого класса может быть критически важным, вплоть до сохранения человеческих жизней.

Для этого в Cortex-R реализован ряд архитектурных особенностей. В их число входит улучшенная аппаратная обработка прерываний, включая детерминированную, полностью аппаратные инструкции деления, защита памяти (MPU), коррекция ошибок на всех уровнях, включая кеш L1 и системные шины, и возможность мгновенного «горячего» резервирования на случай выхода из строя одного из ядер в таком процессоре.

Как правило, программное обеспечение в системах, для которых разрабатываются ядра Cortex-R, хотя и сложное, но пишется не с таким пренебрежением к ресурсам системы, как это, к сожалению, сложилось в среде обычных пользовательских приложений. Поэтому чистая вычислительная мощность у серии R не столь высока, как у A — даже набор ARMv8 появился тут совсем недавно, лишь в реализации R52. До сегодняшнего дня не имели процессоры ARM Cortex-R и поддержки 64-битных вычислений.

Первым вычислительным ядром Cortex-R с поддержкой ARMv8 и 64-битных вычислений стало Cortex-R82, способное адресовать до 1 Тбайт оперативной памяти. Блок MMU опционален, но возможен, что позволяет запускать операционные системы напрямую на R82, включая полноценный Linux. К сожалению, о самой архитектуре R82 известно пока крайне мало; буквально всё, что можно добавить к вышесказанному, это возможность объединения до 8 процессоров Cortex-R82 в единый вычислительный кластер.

Одной из сфер применения новых процессоров ARM серии R станет сфера так называемых «compute-on-storage drives» — умных накопителей, способных выполнять внутри себя сложные задачи, не нагружая ими процессоры хост-системы. Производительность и возможности серии Cortex-R впервые достигли уровня, когда они способны взять на себя такие задачи, как транскодирование видео на лету, ускорение работы с базами данных или анализ поступающих данных в реальном времени. Говорится о двухкратном превосходстве R82 перед R8, а в типовых нейросетевых нагрузках превосходство может доходить до 14 раз.

Пример архитектуры «умного накопителя» в исполнении NGD

Пример архитектуры «умного накопителя» в исполнении NGD

Поддержка MMU в этом случае важна, поскольку в вышеназванных сценариях объёмы данных к обработке предполагаются солидные, а без MMU процессор не может оперировать таким понятием, как виртуальная память и всегда жёстко ограничен физическим объёмом DRAM. Также стоит отметить, что R82 поддерживает опционально и выполнение SIMD-инструкций (ARM NEON), и именно такая возможность делает новинку пригодной к задачам вроде кодирования-декодирования видеопотоков в сложных форматах сжатия.

Производители «умных накопителей», такие, как компания NGD, наверняка обрадуются появлению новинки, поскольку она сочетает в себе все лучше качества серии R и производительность, близкую к серии A. Ранее, к примеру, в решениях NGD приходилось использовать процессоры с ядрами ARM Cortex-A53 под управлением Ubuntu Linux.

Постоянный URL: http://servernews.ru/1019834
31.08.2020 [19:51], Илья Коваль

Разработчик Linux: к 2030 году среди массовых архитектур останутся только x86-64, ARM и RISC-V

На мероприятии Linux Plumbers Conference Анд Берманн (Arnd Bermann), один из ключевых разработчиков Linux, рассказал о развитии поддержки различных архитектур в основной ветке ядра и поделился своим видением того, как будет выглядеть распределение ISA в 2030 году: нас ждёт гораздо меньшее разнообразие и уход «динозавров» эры Big Endian.

Важно отметить, что речь идёт именно об основной ветке ядра, что означает, по сути, массовую поддержку платформ, которые туда попали. Это не касается разработок самих производителей, которые могут поддерживать собственную ветку — такое обычно происходит в самом начале и в самом конце жизненного пути архитектуры. Доклад охватывает в первую очередь SoC, а не отдельные CPU.

С другой стороны, практически все современные процессоры уже давно превратились в SoC, а в будущем автор доклада предсказывает рост популярности многочиповых сборок. Кроме того, есть несколько массовых архитектур, которые практически не поддерживаются Linux, но это связано с использованием различных RTOS или отсутствием ОС как таковой. Но есть и вариант перехода на такое ПО, так как со временем меняется область применения чипа.

За последние два года из ядра Linux было «изгнано» 9 архитектур. Отчасти это связано с отсутствием сопровождения, что указывает на их ненужность массовому пользователю. Отчасти — с переходом самих чипов на другую архитектуру. Чаще всего на ARMv7/v8. Собственно говоря, именно ARM показывает наилучшую динамику роста за последние 10 лет как по уровню поддержки различных конечных устройств и SoC, так и по числу применений. Правда, это же указывает и на высокую фрагментацию платформы в отличие от x86-64, например.

Ещё одна важная тенденция — отказ от 32-бит платформ и переход к 64-бит. Это связано и с возросшими потребностями, и с постепенными удешевлением памяти. И здесь ARM снова на коне — скорость роста поддержки ARMv8 выше, чем у остальных платформ. К 2030 предсказано появление уже 128-бит архитектур. Другая тенденция — переход от Big Endian к Little Endian. Частично из-за ухода старых архитектур, частично из-за их перевода на другой порядок байтов.

Всё ещё поддерживаются в ядре, но, по-видимому, скоро будут удалены архитектуры вроде Itanium и SPARC, на базе которых уже не будет новых продуктов, но есть всё ещё работающие системы на основе старых решений. Но это же касается, например, и MIPS. Последние дизайны популярности не снискали, а вот прошлые всё ещё используются при создании новых продуктов. Интересна ситуация с POWER и z. Формально их поддержка никуда не денется, но тянуть всю разработку будет только IBM. OpenPOWER не «взлетел», а вот мейфреймы, по мнению автора, всё так же будут необходимы.

Из новых архитектур успеха добьются только RISC-V и, вероятно, ARC. Последняя весьма популярно сама по себе, но вне контекста Linux, а первая выглядит очень многообещающей, но её реального успеха ещё надо дождаться. Все остальные архитектуры значимой доли рынка не достигнут. Как итог — в 2030 году нас ждёт доминирование x86-64, ARMv8 и старше, а также 64-бит RISC-V. Тогда же начнётся окончательный закат 32-бит эпохи: последними станут ARMv7 и RISC-V. Из альтернативных «больших» архитектур сохранит развитие IBM z. И начнётся новая эра.

Постоянный URL: http://servernews.ru/1019549
31.08.2020 [15:55], Алексей Степин

Marvell не будет развивать ThunderX3 как ARM-платформу общего назначения

Архитектура ARM успешно дебютировала в крупных ЦОД AWS и Google, показав ряд преимуществ перед традиционными серверами на базе процессоров с архитектурой x86. Третий игрок, на которого возлагались определённые надежды, Marvell с её процессорами ThunderX3, опубликовал новые планы, из которых следует, что компания не собирается развивать серверную платформу общего назначения на базе новых чипов, а вместо этого сконцентрируется на создании более специализированных ARM-чипов.

GIGABYTE R282: пример того, что можно было бы назват «серверной платформой общего назначения на базе Marvell Thunder X3». Если бы не внезапная смена приоритетов

GIGABYTE R282: пример серверной платформы общего назначения на базе Marvell Thunder X3. Если бы не внезапная смена приоритетов

Сам процессор, о котором мы не столь давно рассказывали более детально, выглядит весьма интересно: он базируется на наборе инструкций ARM v8.3 с дополнениями из более поздних ревизий, имеет до 60 ядер в монолитном кристалле, а наличие SMT4 позволяет ему выполнять 240 потоков. Все компоненты потенциально успешной платформы налицо: современный 7-нм техпроцесс, восьмиканальный контроллер памяти, поддержка PCI Express 4.0 — так что же послужило причиной отказа Marvell от развития общей платформы на базе ThunderX3?

Компания проделала огромную работу. Никто не сомневается, что разработка процессора — это лишь половина работы, тогда как создание инфраструктуры и того, что, собственно говоря, именуется «платформой» — задача не менее важная и сложная. Интерес крупных заказчиков к ARM явно прослеживается, однако сейчас намечается тенденция к специализации процессоров с учётом потребностей кажжого отдельного клиента. Marvell не говорит об отказе от разработки и производства ЦП на базе архитектуры ARM, но при этом собирается поставлять подобного рода заказчикам специализированные, «заточенные» под конкретные нужды процессоры.

Планы Marvell, опубликованные на Hot Chips 32. Им уже не суждено сбыться

Планы Marvell, опубликованные на Hot Chips 32. Им уже не суждено сбыться

Такого рода модель вполне оправдана: у разных крупных владельцев ЦОД и облачных комплексов задачи могут быть разными, а сейчас в среде гиперскейлеров обозначилась чёткая тенденция к использованию архитектур, сочетающих в себе как классические процессорные ядра, так и специализированные для быстрого выполнения какой-либо задачи блоки. Вариантов таких потребностей может быть достаточно много и далеко не каждую получится закрыть унифицированным процессором с единым, «платформенным» разъёмом. Кроме того, «единый» процессор может быть попросту неоптимален с точки зрения задач, стоящих перед конкретным ЦОД. Производители процессоров x86-64 тоже зачастую поставляют гиперскейлерам специализированные версии чипов, хотя в этом случае кастомизации не так уж и глубока.

А рынок серверов общего назначения на базе архитектуры ARM не представляет на сегодняшний день существенного интереса, поэтому основные усилия будут сконцентрированы на создании специализированных процессоров для гиперскейров. Такие чипы будут создаваться с использованием ещё более тонкого техпроцесса с нормами 5 нм. Не обязательно они будут являть собой уникальные решения, но, к примеру, так Marvell сможет варьировать количество каналов памяти, подстраивая чип под нужды крупного заказчика. Также компания собирается и дальше активно бороться за рынок всевозможных ускорителей и сопроцессоров, большинство из которых сегодня содержат в своём составе именно ARM-ядра. К таким можно отнести новые чипы Marvell OCTEON TX2 и Fusion CNF95xx.

Все эти чипы содержат процессорные ядра с архитектурой ARM

Все эти чипы содержат процессорные ядра с архитектурой ARM

Поставки ThunderX3 всё-таки начнутся к концу года, но только в однокристальном варианте и только избранным клиентам: классических серверов Dell, HPE, GIGABYTE и других крупных игроков на базе этих процессоров мы в массовой продаже практически не увидим. Смена приоритетов Marvell означает и отказ от ThunderX4, который совсем недавно, на мероприятии Hot Chips 32, ещё фигурировал в официальных планах компании.

Ситуация выглядит несколько печально, особенно с учётом того, что, к примеру, GIGABYTE уже демонстрировала полностью работоспособный сервер R282 на базе ThunderX3, компактный, мощный, с хорошо развитой подсистемой накопителей. Возможно, у платформы ARM общего назначения в классическом варианте — с унифицированными процессорными разъёмами и серверами различных производителей такого аппаратного обеспечения (Dell, HPE и другие) всё же есть будущее, но наступит оно не в этом и не в следующем году.

Постоянный URL: http://servernews.ru/1019510
26.08.2020 [17:44], Илья Коваль

Облачные провайдеры всё ещё пытаются справиться с наследием уязвимостей Foreshadow и Zombieload

Уязвимости вроде L1TF (Foreshadow) и MDS (Zombieload), позволяющие проводить так называемые атаки по «побочным каналам» (англ. side-channel attack) и выявленные в последние пару лет, всё ещё доставляют некоторые неудобства облачным провайдером в связи с тем, что они касаются Intel Hyper Threading (HT), наличие которого весьма важно для облаков.

Атаки такого рода связаны с возможными утечками из ресурсов ядра (кеши, внутренние буферы) и защита от них предполагает периодическую очистку данных, что влияет на производительность. А наличие SMT усложняет задачу, так как в разных потоках могут исполняться разные процессы. В случае облака или любого другого общего ресурса, где запускаются инстансы разных клиентов, единственным простым методом защиты становится полное отключение SMT, что опять-таки бьёт по общей производительности.

Ещё один фактор — наличие большого числа процессоров, в которых нет аппаратных заплаток против такого рода уязвимостей. В частности, Intel Xeon Scalable первого поколения Skylake-SP всё ещё очень много в дата-центрах. При этом сами облачные провайдеры продают не физические ядра и потоки процессоров (если это не bare-metal, конечно), а инстансы с vCPU, которые распределяются между реальными серверами.

Digital Ocean (DO), популярный облачный провайдер, уже давно пытается решить эту проблему, сохранив и HT, и защищённость. DO, равно как и другие компании, работает над планировщиком ядер, который позволяет отслеживать процессы и управлять ими. Основная идея в том, чтобы разделять процессы по степени доверия к ним и не смешивать их потоки в рамках одного ядра с HT. При этом надо всё равно следить за тем, чтобы нагрузка на процессор была максимальной.

На мероприятии Linux Plumbers Conference 2020 разработчики DO рассказали о достигнутом прогрессе. В конце июня они представили очередную, уже шестую по счёту версию планировщика, которая пока далека от идеала и не готова к включению в основную ветку ядра Linux. Тем не менее, результаты обнадёживающие: использование нового планировщика в любом случае даёт более высокую производительность, чем при полном отключении SMT, а отставание в скорости работы систем с ним и без него сокращается. Естественно, это касается далеко не всех типов задач.

Постоянный URL: http://servernews.ru/1019154
25.08.2020 [17:56], Алексей Степин

AMD готовит конкурента Intel Xeon E: Ryzen Embedded V2000 на базе Zen 2

Вышло уже немало заметок о мощных серверных процессорах или даже CPU для мейнфреймов. В них речь идёт о множестве ядер, огромных кешах и многоканальной памяти. Но есть и другой сегмент — рынок серверов и рабочих станций начального уровня. В отличие от верхнего сегмента, где сейчас приоритет в технологиях принадлежит AMD, здесь задают тон Intel Xeon E. Однако и это может измениться уже к концу 2020 года: «красные», по слухам, готовят серию чипов Ryzen Embedded V2000 на базе архитектуры Zen2.

Микроархитектура Zen2 буквально выстрелила летом прошлого, 2019 года. Если Zen можно было назвать успешной, то вторую итерацию следует описывать термином «сверхуспешная» — AMD решила проблему с NUMA-организацией подсистемы памяти, нарастила количество ядер до невиданного ранее числа, перешла на использование чиплетной компоновки вкупе с самыми прогрессивным на тот момент 7-нм техпроцессом TSMC. Подробнее о серверных процессорах Zen2 мы рассказывали в соответствующем обзоре.

Но в секторе недорогих и при этом достаточно быстрых процессоров для серверов, встраиваемых систем и рабочих станций начального уровня продолжает доминировать Intel. В том же году она представила серию процессоров Xeon E-2200. Эти процессоры делят разъём LGA1151v2 с Intel Core, но, разумеется, имеют поддержку памяти с коррекцией ошибок. В варианте на базе Coffee Lake они могут предложить до 8 ядер при 16 потоках, а частота в режиме «турбо» достигает 5 ГГц.

У AMD в 2018 году была представлена серия Ryzen Embedded V1000, сочетающая в себе архитектуру Zen и графику Vega, но на сегодняшний момент конкурировать с Xeon E эти ЦП явно не могут и уступают им по ряду показателей. Advanced Micro Devices собирается исправить эту недоработку и, согласно неофициальным данным, уже в четвертом, завершающем квартале этого года, может выпустить на рынок Ryzen Embedded V2000.

В основу, естественно, будет положена архитектура Zen2 — до 8 ядер при 16 потоках, дополненная, опять же, интегрированной графикой Vega. На сегодняшний момент ходит информация о четырёх моделях:

  • Ryzen Embedded V2516: 6C/12T, 2,1-3,95 ГГц, 3 Мбайт L2, 6CU Vega 6, 10-25 Ватт;
  • Ryzen Embedded V2546: 6C/12T, 3,0-3,95 ГГц, 3 Мбайт L2, 6CU Vega 6, 35-54 Ватт;
  • Ryzen Embedded V2718: 8C/16T, 1,7-4,15 ГГц, 4 Мбайт L2, 7CU Vega 7, 10-25 Ватт;
  • Ryzen Embedded V2748: 8C/16T, 2,9-4,15 ГГц, 4 Мбайт L2, 7CU Vega 7, 35-54 Ватт.

Кеш третьего уровня у этих процессоров общий и всегда имеет объём 8 Мбайт. Контроллер памяти универсальный: два канала DDR4 или четыре канала LPDDR4X. Если верить бывшему инженеру AMD, новые Ryzen Embedded V2000 получат 20 линий PCI Express 3.0 в конфигурации «8+4+4+4», интегрированную поддержку SATA/NVMe, два встроенных контроллера MAC 1GbE и 4 порта USB 3.1 Gen2.

Пример встраиваемой системы на базе AMD Ryzen Embedded (ASRock iBOX-R1000)

Пример встраиваемой системы на базе AMD Ryzen Embedded (ASRock iBOX-R1000)

Также будет широко представлен ассортимент низкоскоростных шин LPC, UART, I2C, SMBus, SPI/eSPI, I2S и GPIO, что сделает эти процессоры отличным выбором для разного рода компактных встраиваемых платформ и одноплатных компьютеров.

В целом, Ryzen Embedded V2000 лишь частично пересекаются с Xeon E. Они не имеют собственного разъёма, их частотные формулы более консервативны, процессоры более экономичны и в целом больше ориентированы на применение в недорогих серверах начального уровня, включая очень популярные сейчас периферийные вычислительные системы. Некоторые из них должны быть выпущены на рынок уже в этом году, расширение модельного ряда ожидается в первом квартале 2021 года.

Постоянный URL: http://servernews.ru/1019054
25.08.2020 [14:06], Алексей Степин

Как устроен IBM z15: в мире больших процессоров

На фоне экономического спада, вызванного коронавирусной эпидемией, некоторые производители серверного оборудования чувствуют себя неплохо, в частности, к таковым можно отнести IBM с её серией мейнфреймов, основанных на архитектуре Z. Последним, пятнадцатым её воплощением является z15 и о «больших» машинах этой серии мы вкратце рассказывали читателям. Однако тем интереснее рассмотреть эти уникальные процессоры более детально — о них компания рассказала подробно на мероприятии Hot Chips 32.

Компания IBM недавно опубликовала отчёт, в котором говорится о росте продаж мейнфреймов — рост популярности разного рода удалённых сервисов неизбежно привёл и к росту потребности в вычислительных мощностях. Многие клиенты компании традиционно предпочитают запускать задачи класса mission critical не на оборудовании с архитектурой x86, а на доказавшей свою надежность z/Architecture.

Как уже говорилось, последняя на сегодня, пятнадцатая итерация z/Architecture изначально создавалась с прицелом на конфиденциальность, информационную безопасность и задействование в облачных средах. В IBM z15 модели 8561/T01 это означает до 190 клиентских ядер, что на четверть больше, нежели у аналогичной модели z14. При этом обеспечивается сквозное шифрование данных, вдвое более быстрое, чем раньше, а уровень надёжности и доступности составляет 99,999%.

Сердцем этого модельного ряда является z/15, по ряду характеристик — уникальный процессор. Так, частота 5,2 ГГц до сих пор не является чем-то обычным для мира x86, а z/15 на это способен, хотя и при водяном охлаждении, которое всё чаще встречается в современных ЦОД. При этом с точки зрения техпроцесса выглядит z/15 довольно консервативно, поскольку производится с использованием 14-мм норм SOI (Silicon-on-Insulator, кремний на изоляторе). Площадь 17-слойного кристалла составляет 696 мм2.

В отличие от серверов x86, z/15 вообще не предназначен для одиночной работы. Минимальная «единица» включает в себя четыре таких процессора на полку, и таких полок в системном шкафу может быть до пяти, а подсистема памяти и массивный кеш четвёртого уровня у полок общая; имеется также отдельный управляющий процессор (System Control Chip). «Межполочная» система соединений организована по принципу «каждый с каждым».

Процессоры z/15 бывают двух типов: основной и управляющий. Основной вариант состоит из 9,2 миллиардов транзисторов, имеет 12 ядер, каждое из которых сопровождается 8 Мбайт кеша L2 (по 4 Мбайт на инструкции и данные), кеш L3 общий для всех ядер, его объём — 256 Мбайт. Управляющий вариант (SC) сложнее, в него входит 12,2 миллиарда транзисторов, и это понятно: процессор содержит всю логику системных межсоединений и поддержания когерентности, а также массивный общий кеш L4 объёмом целых 960 Мбайт.

Мейнфрейм в целом включает в себя до 20 CP-процессоров. Общее количество ядер достигает 240, из них 190 являются конфигурируемыми со стороны клиента, использующего мощности системы. Объём оперативной памяти при этом может достигать 40 Тбайт. Подсистема ввода-вывода представлена 60 наборами PCIe 4.0 x16 и 192 платами ввода-вывода (максимально 384 канала). Помимо чисто количественного наращивания всех характеристик, включая объёмы кешей, z/15 содержит и ряд микроархитектурных новшеств.

Структура конвейера у z/15 отдалённо напоминает NetBurst (Pentium 4) — он изначально спроектирован для достижения максимально возможной тактовой частоты и имеет большую длину. Предсказание ветвлений у него асинхронное и осуществляется до выборки инструкций, сама выборка имеет глубину 32 инструкции на такт, разбор и декодирование происходит на скорости 6 инструкций за такт, предусмотрено расщепление CISC-инструкций.

Архитектура относится к разряду внеочередных (Out-Of-Order), каждый конвейер включает в себя четыре блока операций с фиксированной запятой (FXU) и два блока инструкций типа SIMD. Но помимо этих достаточно привычных функциональных блоков, z/15 имеет в своём составе и ряд так называемых «ускорителей» (accelerators).

Одним из таких ускорителей можно назвать блок, представляющий собой гибридный компрессор/декомпрессор данных, работающий по алгоритму LZ. Его наличие позволяет существенно разгрузить подсистемы памяти и хранения данных и повысить эффективность их использования. Ранее, в z/14 такая функциональность реализовывалась с помощью ПЛИС. Работал этот блок на частоте несколько сотен МГц, но за счёт его интеграции в основной кристалл скорость удалось повысить до более чем 5 ГГц.

Поскольку мейнфреймы серии Z очень популярны в финансовой среде, где безопасность транзакций является ключевым моментом, вопросам криптографии в z/15 уделено очень большое внимание. Аппаратно поддерживается эллиптическая криптография и модульная арифметика, однако все инструкции подписи, проверки и скалярного умножения прозрачны и открыты для программного обеспечения. При этом выполнение таких операций идёт в очередном и неспекулятивном режиме. В z/14 всё это было реализовано посредством отдельной платы Crypto Express6, а интеграция позволила повысить криптографическую производительность в 11 ‒ 22 раза.

Мейнфреймы IBM z15 могут иметь разную конфигурацию. Максимальная включает в себя четыре шкафа, самая быстрая версия использует жидкостное охлаждение. При этом уровень энергопотребления на 40% ниже, нежели у предыдущего поколения. Минимальная конфигурация — это один шкаф с одной процессорной полкой и тремя полками ввода-вывода. Последние общаются с внешним миром посредством FICON (разновидность Fibre Channel), 10/25GbE (с поддержкой RoCE), а также zHyperLink.

Последний вариант являет собой интерфейс «короткой дистанции», он не может сравниться по длине кабелей с FICON и, тем более, Ethernet, однако при подключении в SAN демонстрирует на порядок более низкий уровень латентности. Его основное предназначение — ускорение транзакций при работе z/OS с базами данных DB2.

В основном варианте мейнфрейм z15 работает под управлением популярной в банковской и ERP-среде операционной системы z/OS, надёжной и проверенной временем. Обычно стоимость таких комплексов весьма высока, но идея либерализации цен проникла и в эту консервативную отрасль. Весной этого года семейство z15 пополнилось относительно доступными версиями Model T02 и LinuxONE III Model LT2.

Первая — по сути, минимальный вариант конфигурации мейнфрейма, но вторая представляет больший интерес, поскольку изначально ориентирована на использование Linux вместо z/OS. Одной версией Linux она не ограничена, за счёт системы контейнеризации поддерживается RHEL, SUSE и Ubuntu, при этом виртуальные Linux-машины в контейнерах Secure Execution аппаратно защищены от несанкционированного запуска вне логической системы z15, для которой они были сконфигурированы.

Поддержка Linux органично вписывает z15 в мир, в котором становятся всё более популярными облачные гиперконвергентные среды.

Постоянный URL: http://servernews.ru/1018989
Система Orphus