Superdome для бізнес-критичних додатків
Нинішній інтерес до архітектури сервера HP Superdome 2 на платформі Intel Itanium 2 викликаний, зокрема тим, що широке поширення кластерних систем призвело до того, що масштабні SMP-сервери взагалі з'являються не часто. Однак кластерний підхід до побудови високопродуктивної системи не завжди прийнятний, хоча б тому, що деяким програмам може знадобитися оперативна пам'ять занадто великої місткості. Крім того, не всі програми вміють працювати в паралельному оточенні кластерних архітектур, тому великі системи із загальним полем пам'яті (архітектури SMP або ccNUMA) актуальні і сьогодні - відносно недавно крім HP Superdome 2 з'явилося дещо не кластерних систем: SGI Altix UV на базі мікропроцесора Intel Xeon, IBM Power 795 на базі Power7, IBM zSeries / z10.
Якщо коротко охарактеризувати Superdome 2, то слід насамперед звернути увагу на наступне: найвищу надійність цих систем - середній час між збоями (MTBF) інфраструктури cервер перевищує 300 років; збільшення в 2-4 рази продуктивності на тій же площі, що і в Superdome; поліпшення на 55% відносини вартість / продуктивність в розрахунку на 1 Вт [ 1 ].
Багатопроцесорні сервери Superdome з архітектурою ccNUMA допускають установку до 64 процесорів, і в лінійці що випускаються компанією HP серверів вони є найпотужнішими. Комп'ютери Superdome орієнтовані на виконання як науково-технічних, так і критичних для бізнесу додатків. Які перспективи даних систем?
Як випливає з даних тестів SPECint_rate2006 і SPECfp_rate2006, Itanium 9300 / Tukwilla відстає і від Power7, і від процесорів архітектури x86, а деклароване Intel збільшення продуктивності вдвічі обумовлено в першу чергу збільшенням числа ядер. У Tukwilla були реалізовані давно проголошені Intel ідеї злиття компонентів інфраструктури Xeon і Itanium. Зокрема, загальними c Nehalem EX стали канали межпроцессорной зв'язку QPI (QuickPath Interconnect), інтерфейси роботи з пам'яттю - SMI (Scalable Memory Interconnect) і SMB (Scalable Memory Buffer), а також набір мікросхем Intel (концентратор введення-виведення, IOH). Все це дозволило знизити вартість систем на базі Itanium 2, але сьогодні цей мікропроцесор відстає по продуктивності від Xeon. Однак, як відзначають в Intel, Tukwilla орієнтований для роботи з бізнес-критичними додатками, що забезпечується рядом його особливостей, які гарантують високий рівень відмовостійкості, а також підтримкою мультітредовой обробки (HyperThreading) - (два тред на ядро) і технології віртуалізації Intel VT.
Крім однотактного кеша L1 (по 16 Кбайт для даних і команд), в мікроархітектурі Tukwilla представлені кеші L2 (256 Кбайт і 512 Кбайт) і кеш L3, ємність якого залежить від моделі, наприклад для 9350 - це 24 Мбайт (по 6 Мбайт на ядро ). Ємність оперативної пам'яті, що становить 1024 Тбайт. У Tukwilla застосовуються два вбудованих контролера пам'яті, що забезпечують пропускну здатність 34 Гбайт / с, і таке рішення довело свою ефективність. Застосування високопродуктивного послідовного диференціального інтерфейсу SMI в Tukwilla передбачає роботу з технологією DDR3.
Тактова частота старшої моделі 9350 складає 1,73 ГГц, яка завдяки технології Turbo Boost, відомої по Xeon, може бути збільшена до 1,86 ГГц. Tukwilla coдержіт 2 млрд транзисторів (цей рівень досягнутий вперше в світі) і проводиться за технологією 65 нм. TDP процесора складає 185 Вт, забезпечуються просунуті засоби термічного управління процесором і пам'яттю, а для зменшення енергоспоживання передбачені кошти оптимізації напруги і тактової частоти.
У планах Intel випуск двох наступних поколінь Itanium 2: Poulson і Kittson. Перший буде проводитися за технологією 32 нм, мати більшу кількість ядер і підтримуваних тредов, а також більш високі частоти. Обидва покоління мікропроцесорів будуть сумісні з роз'ємів з Tukwilla, що відкриває можливості для майбутньої модернізації Superdome 2. Безсумнівно, що запланований прогрес в технології виготовлення - щодо сьогоднішніх 65 нм - дозволить збільшити тактову частоту, число ядер і загальну продуктивність.
архітектура
Шасі Superdome 2 побудовано на стандартній стійці 18U, а сам сервер може містити кілька корпусів (вузлів). Загальна схема Superdome 2 заснована на об'єднанні через комутатори осередків (сell), реалізованих у формі лез, що містять процесори, пам'ять і базові засоби введення-виведення (I / O), які можуть доповнюватися під'єднують через комутатори засобами розширення введення-виведення IOX (I / O Expansion Enclosure) [ 1 ].
Архітектурну основу для такої структури становить набір мікросхем HP sx3000, що прийшов на зміну використався раніше sx2000. Новий набір складається з трьох мікросхем: контролер леза Agent, комутаторна мікросхема (crossbar switch) і адаптер шин PCI Express. Плати комутаторів і осередків-лез вставляються в слоти пасивної системної плати (midplane).
Кожне лезо ( Мал. 1 ) Містить два процесорних гнізда, дві безпосередньо з'єднані між собою мікросхеми Agent, по 16 слотів пам'яті RDIMM на кожен роз'єм, IOH, два Двопортовий адаптера 10 Gigabit Ethernet і три слота плат в мезонін конструктиві. У корпусі 18U може міститися до 8 лез, що містять 16 процесорних роз'ємів, 256 слотів DIMM, 32 порту 10 Gigabit Ethernet і 24 слота дочірніх плат.
Між собою і Agent мікропроцесори пов'язані п'ятьма двонаправленими каналами QPI з піковою пропускною здатністю 19,2 Гбайт / с кожен. Пікова пропускна здатність пам'яті, локально приєднаної до кожного мікропроцесора, складає 34 Гбайт / с або 68 Гбайт / с на осередок, що вдвічі вище, ніж в sx2000. Кожен мікропроцесор пов'язаний з 4 масштабованими буферами пам'яті (Scalable Memory Buffers, SMB), і вже через них відбувається обмін даними з RDIMM. Архітектура sx3000 дозволяє кожному процесору безпосередньо звертатися до локальної пам'яті, не "консультуючись» при цьому з іншими мікропроцесорами і Agent. Подібне пряме під'єднання дозволяє зменшити затримки і поліпшити масштабування.
Мікропроцесор Tukwilla має два незалежних контролера пам'яті, кожен з яких працює через інтерфейс SMI c двома SMB. Рядок кеша розщеплюється між двома модулями DIMM, тому для досягнення максимальної пропускної здатності необхідно мати мінімум 8 DIMM. У Superdome 2 підтримуються просунуті засоби розшарування пам'яті (interleave) - низькорівневе розшарування забезпечують обидва Agent і всі шість каналів, що зв'язують їх з комутатором, при доступі до пам'яті віддаленого леза, а мікросхеми IOH разом з Agent підтримують тонкозернистого розшарування сторінок. Крім того, можливий розподіл пам'яті для процесорного роз'єму. Така схема показала свою ефективність в серверах стандартної архітектури. Для зменшення затримок звернення до віддаленої оперативної пам'яті в лезах застосовується кеш L4 ємністю 64 Мбайт (два кеша по одному для кожного центрального процесора), який використовує схему зі зворотним записом, побудований за технологією вбудованої пам'яті (eDRAM) і під'єднується через Agent. Коли рядок кеша розділяється всіма чотирма ядрами одного мікропроцесора, то у відповідному кеші L4 міститься тільки одна копія рядка, а коли одне ядро має доступ до рядка кеша з читання та по запису, то ця ж рядок використовується іншим ядром того ж мікропроцесора, а їх узгодження йде через Agent.
Застосування Agent забезпечує розширену масштабованість по числу мікропроцесорів, інтерфейс до засобів вводу / виводу, когерентність кеш, а також керування кешем L4 ( Мал. 1 ). Кожен Agent має по три канали з пропускною спроможністю 13 Гбайт / с, що йдуть до комутатора системи (Crossbar Fabric), і, відповідно, на плату леза припадає лише шість каналів. Ці канали є диференціальними двонаправленими, використовують технологію SERDES і об'єднують в собі 10 послідовних каналів, забезпечуючи 5,2 млрд передач в секунду (GigaTransfer, GT / s). Кожен Agent має ще один такий же канал з IOH. Власне, через ці концентратори приєднуються все апаратні засоби підсистеми вводу-виводу, яка базується на застосуванні диференціальних каналів PCI-E (v.2) х8; кожна мікросхема IOH забезпечує шість таких інтерфейсів з пропускною спроможністю 5 GT / s кожен.
Як видно з Мал. 1 , Схема з'єднання процесорів, Agent, IOH і комутатора забезпечує надмірність всіх основних вузлів осередки, резервування шляхів і можливості балансування навантаження, що, безумовно, значно підвищує надійність Superdome 2.
Кожен Agent використовує три канали до системного комутатора, разом шість каналів на осередок. Комутатор системи реалізований у вигляді набору комутаторних плат-модулів XFM (Crossbar Fabric Module), що вставляються в слоти серединної плати. Всього в одному вузлі є до восьми осередків і до 4 XFM. Вузлів, в свою чергу, може бути до чотирьох, і вони з'єднуються між собою кабелями через порти системного комутатора.
З 20 портів неблокірующіх комутатора XFM 12 є «внутрішніми» - вони з'єднуються з осередками. Решта 8 «зовнішніх» портів призначені для з'єднання з IOX або з'єднання вузлів між собою за допомогою кабелів. Для конфігурацій Superdome 2 c одним вузлом модулі XFM не мають прямих з'єднань один з одним - вони з'єднуються через осередки або IOX. Для максимальної конфігурації з 32 осередками вони задіють 192 порту на системному комутаторі (фабриці).
Кожен Agent осередки приєднаний до «своєї» парі XFM, так що будь-яка осередок з'єднана з усіма чотирма XFM. Аналогічна ситуація має місце для IOX: кожна з двох мікросхем IOH з'єднується зі своєю парою модулів XFM, що забезпечує резервування і балансування навантаження.
Загальна схема побудови системного комутатора забезпечує необхідну для відмовостійкості надмірність. Пікова пропускна здатність портів комутатора становить 12-13 Гбайт / с і залежить від обладнання, що підключається (Agent або IOX) [ 3 ]. Помноживши на 6 цю величину в розрахунку на осередок, отримуємо 78 Гбайт / с.
На серединну плату (точніше було б назвати її «верхній» системною платою) припадає 8U із загальної висоти вузла (18U), а що залишилися 10U обсягу відведені для апаратних засобів комутаторів I / O, що з'єднуються з нижньою системною платою. Ця нижня частина вузла аналогічна HP c7000 - тут розташовуються, зокрема, засоби управління (Onboard Administrator, OA), модулі комутаторів Fibre Channel (8 Гбіт), Infiniband, Ethernet, SAS і вентилятори. Верхня частина вузла є унікальною для Superdome 2 надбудовою.
У Superdome 2 є можливість прямої передачі даних між ядрами мікропроцесора без звернення до пам'яті (з кешу в кеш) за три «стрибка» (hops) комутатора. Іншою найважливішою, що залежить від межсоединения характеристикою загальної архітектури ccNUMA-системи є величини затримок за зверненням в локальну і віддалену пам'ять. Для SMP-системи вся пам'ять є однорідною - програмісту немає необхідності враховувати різні швидкості обігу.
Підсистема вводу / виводу є в осередках і в корпусах IOX висотою 4U ( Мал. 2а ). Концентратори IOH використовують два канала PCI-E x8 до мережевих адаптерів 10 Gigabit Ethernet і три таких же каналу до слотів дочірніх плат введення / виводу. І мережеві адаптери, і інтерфейси дочірніх плат з'єднуються з портами комутаторів введення / виведення c забезпеченням відмовостійкості завдяки дублюванню з'єднань. Крім того, до IOH підключається керуючий контролер осередку iLO.
Завдяки двом каналам між IOH і Agent загальна пікова пропускна здатність введення / виведення осередку дорівнює 26 Гбайт / с, а підтримувана в дуплексному режимі - 11,8 Гбайт / с (в Superdome - 8,2 Гбайт / с). Масштабування підсистеми вводу / виводу забезпечується шляхом підключення нових осередків, а додаткові корпусу IOX дозволяють не додавати нові осередки.
Кожна мікросхема IOH в IOX має по два канали і приєднується до двох різних платам XFM (рис. 2б). Ці канали до комутатора засновані на 10 послідовних з'єднаннях по 5 GT / s. Пікове значення пропускної здатності каналу становить 12,5 Гбайт / с, а підтримуване значення для дуплексной двобічної передачі - 5,7 Гбайт / с. Для всього IOX пропускна здатність становить 50 Гбайт / с. У структурі серверів Superdome модулі IOX були відсутні.
Мал. 2б. Розширена підсистема введення / виводу
Надійність і доступність
Всі базові апаратні компоненти та шляхи, їх з'єднують, в Superdome 2 дубльовані, а всі основні апаратні компоненти допускають можливість гарячої заміни по схемі OLARD (OnLine Addition, Replacement, Deletion). Підвищення рівня доступності досягається завдяки застосуванню системи розбиття на розділи, а також засобів віртуалізації. В таблиці представлена частина найбільш важливих і цікавих апаратних особливостей основних підсистем Superdome 2, що сприяють підвищенню відмовостійкості.
У підсистемі пам'яті застосовуються не тільки коди ECC, а й технологія SDDC (Single Device Data Correction, відома також під назвою Chipkill), що дозволяє обійти збої однієї мікросхеми в DIMM і DDDC (Double Device Data Correction), а також коригувати збої відразу в двох послідовних мікросхемах. Для пам'яті застосовується технологія scrubbing тестування і виправлення помилок одночасно з роботою додатків.
Ці та ряд інших апаратних удосконалень в Superdome 2 дозволили в 17 разів зменшити ймовірність поломки модулів DIMM і мінімізувати ризик пошкодження даних. Крім того, в самих процесорах зросла частка апаратури, контрольованої на наявність помилок, - засобами контролю покривається весь кеш і 70% можливих джерел збоїв ядер. За різними оцінками, надійність Tukwilla вдвічі вище, ніж у масових мікропроцесорів.
Застосування відмовостійких каналів в осередках, підсистемі введення / виведення і системному комутаторі означає високу доступність всіх апаратних розділів Superdome 2. Сервісне обслуговування каналів не вимагає зупинки системи, а видалення більшості компонентів, потенційно здатних викликати апаратних помилки підсистеми вводу / виводу, дозволило підняти час доступності Superdome 2 в 20-25 разів у порівнянні з попередньою модифікацією. Відмовостійкість підвищена і завдяки можливостям онлайн-ремонту компонентів підсистеми вводу / виводу.
Що стосується управління Superdome 2, то слід зазначити перенесення виявлення і реєстрації апаратних помилок з рівня операційної системи на прошивку (firmware) завдяки застосуванню засобів діагностики Analysis Engine, що дозволяють аналізувати збої, навіть якщо не можна завантажити розділ. Єдиною точкою входу для сервісного обслуговування Superdome 2 є (задублірованние) модулі засобів управління OA. Вся система і всі iLO осередків управляються через OA, які мають доступ і до засобів конфігурації розділів. Робота з OA може здійснюватися через командний рядок або Web-інтерфейс, причому до АТ можна звернутися, навіть якщо сервер не працює. Як деякого більш примітивного аналога такого підходу можна згадати плати IPMI в серверах стандартної архітектури.
Cами модулі OA, як і задублірованние модулі GPSM (Global Partitions Service Modules), що містять, зокрема, тактові генератори і засоби моніторингу блоків живлення і вентиляторів верхньої половини вузлів, допускають можливість гарячої заміни.
Конфігурації і продуктивність
Крім Itanium 9350, в Superdome 2 можуть застосовуватися моделі 9340 з тактовою частотою 1,6 ГГц і кешем L3 ємністю 20 Гбайт. Є три групи моделей серверів, що відрізняються числом процесорних роз'ємів (8, 16 і 32): Superdome 2 8s, -16s і -32s [1]. Старші моделі відрізняються також числом IOX - до 4 в Superdome 2 8s, і до 8 - в інших. Superdome 2 32s містять до 128 ядер і забезпечують сумарну пропускну здатність введення / виведення до 816 Гбайт / с, а продуктивність межсоединения досягає при цьому рекордного в індустрії показника - 1,248 Тбайт / с.
Сервери Superdome 2 можуть працювати c різними ОС, включаючи Windows Server 2008 R2, але основний слід вважати HP UX 11i - рекордні показники продуктивності були встановлені саме в цьому середовищі. На тестах TPC-H (для систем підтримки прийняття рішень) c ємністю зберігання в 1 Тбайт сервер Superdome 2 в конфігурації з 64 ядрами в середовищі HP-UX 11i v3 / Oracle 11g R2 Enterprise Edition досяг результату 140 181 QphH. Попередній рекорд - 123 323 QphH, що належить системі Superdome, був отриманий теж на 64 ядрах (32 мікропроцесора Itanium 2 9140N 1,6 ГГц).
Є ціла ієрархія засобів організації Superdome 2 у вигляді набору ізольованих розділів, в яких можна утворити віртуальні розділи vPars (c гранулярністю до одного ядра і однієї плати PCI-E). Застосовуючи засоби HPVM (HP Integrity Virtual Machines), можна досягти гранулярності менше одного ядра, а надійність забезпечується засобами HP UX SRP (Secure Resource Partitions) [ 4 ].
***
Сервери Superdome знайшли широке застосування при вирішенні найрізноманітніших обчислювальних проблем, включаючи ресурсомісткі завдання квантової хімії, що вимагають великих обсягів пам'яті на один процес, а використання Superdome 2 для таких завдань виявляється ще ефективніше. У будь-якому випадку, як випливає з аналізу архітектури, найбільш важлива область застосування Superdome 2 - критичні для бізнесу додатки. Виробник вказує на такі області застосування, як OLTP-обробка (велика ємність пам'яті дозволяє зберігати в ній таблиці бази даних), система підтримки прийняття рішень, завдання віртуалізації та консолідації серверів.
література
- R.Turner "Unleash Your Potential. New HP Integrity Servers", HP Presentation, Apr. 2010
- Intel Itanium Processor 9300 Series. Reference Manual for Software Development and Optimization ", Intel, Doc. № 323602-001, March 2010
- HP Superdome 2: The Ultimate Mission-Critical Platform, HP, June 2010
- New Features in Superdome 2 Partition Management, Technical white paper, HP 2010
Михайло Кузьмінський ( [email protected] ) - старший науковий співробітник установи РАН «Інститут органічної хімії ім. Н.Д. Зелінського »(Москва).
Таблиця.Деякі особливості Superdome 2 по забезпеченню відмовостійкості та доступностіПідсистемаОсобливості
Пам'ять ECC; SDDC; DDDC; scrubbing ОП; відмовостійкість каналів (скиди і повтор операцій); диференціація між CRC-помилкою каналу SMI і ECC-збоєм мікросхем пам'яті Процесори Виявлення і корекція помилок кешу; самолікування кешей L2, L3; застосування в технології виготовлення спеціальних засувок для боротьби з м'якими помилками (наприклад, від космічних променів); захист логіки ядер по парності і кодами ЕСС; просунуті засоби архітектури обробки помилок МСА; відновлення від МСА-помилок на рівні HP UX; виявлення і корекція помилок шляхів QPI (із застосуванням CRC, можливості повтору операції та ін.) Вентиляційні канали (введення / виведення, осередків і межсоединения) Повторення операції на канальному рівні; зменшення ефективної ширини збою каналу; гаряча заміна XFM; під'єднання IOX через XFM Комутатор Надлишкові канали до осередків; явна підтримка апаратних розділів Слоти I / O Виявлення і корекція помилок; ізоляція збоїв PCI в одному слоті; поліпшене відновлення після помилок I / O; підтримка багатьох шляхів; можливості OLARD для плат PCI-E. Набір мікросхем Виявлення і корекція помилок внутрішніх шляхів даних; застосування спеціальних засувок проти м'яких помилок; запасні рядки кешу в L4 Підтримка розділів і Інфраструктура системи nPartitions (апаратна і програмна ізоляція розділів); OLARD для осередків; надлишкові тактові генератори з гарячою заміною; повністю надлишкові шляху поширення синхросигналов; управління автоматичним обходом помилок і гарячою заміною (OA, GPSM); надмірність і автоматичний обхід помилок в межсоединения з пакетним протоколом; можливості ремонту без виключення декількох розділів; надмірність джерел живлення (2N); надмірність вентиляторів; пасивні системні плати; засоби Analysis Engine
Які перспективи даних систем?