Новости могут быть интересными!

Система управления суперкомпьютером с поддержкой работы в гриде SCMS 4.2

juqueen-gigatags-ntv
Loading...

Проблема понятного и доступного пользователю программного интерфейса является актуальной и важной для всех видов программного обеспечения. Особенно это касается сферы высокопроизводительных вычислений, где традиционные интерфейсы для доступа пользователей очень специфичны и требуют дополнительных технический знаний.

Кроме специфики своей научной области, для работы с суперкомпьютером пользователь должен понимать работу операционной системы кластера, процесс запуска задач, работу с компиляторами и т.д. При этом задача администрирования кластерных систем остается сложной и трудоемкой.

Развитие грид-технологий не улучшило текущее состояние вещей. Ведь работа в гриде – это еще один дополнительный уровень сложности, который требует знания грид-инструментов командной строки, нового синтаксиса запуска задач, межкластерной совместимости программных окружений и т.д.

Система управления суперкомпьютером SCMS 4.2 – это попытка предложить комплексное решение как для доступа пользователей, так и для администрирования кластеров.

Интегрированное решение, созданное в виде веб-портала для системы управления кластером, на котором пользователи могут легко запускать и контролировать свои задачи без необходимости изучать многочисленные детали работы суперкомпьютера и операционного окружения грида.

Для администрирования кластера в системе предусмотрен удобный сервис, который предоставляет средства для ежедневного мониторинга состояния оборудования суперкомпьютера, управления пользователями, очередями задач, ресурсами кластера и т.д.

Система управления суперкомпьютером SCMS 4.2 является готовым продуктом, который успешно используется на кластерах Института кибернетики им. В.М. Глушкова НАНУ, Института сцинтилляционных материалов НАНУ, Физико-технического института низких температур им. Б.И. Веркина НАНУ, а также в ряде других академических учреждений Украинского национального грида.

Основные особенности системы SCMS 4.2

Перечислим основные особенности и преимущества системы SCMS 4.2:

  • Система устанавливается практически на любой кластер с менеджерами ресурсов SLURM, Torque и т.д.
  • Для доступа к суперкомпьютеру используется веб-интерфейс. Он подходит для всех операционных систем (Windows/Unix/Mac) и работает во всех основных браузерах: Internet Explorer, Mozilla Firefox, Opera, Google Chrome и Safari. Широко используются современные технологии Веб 2.0 и Ajax.
  • Интуитивный многоязычный GUI разработан как для начинающих, так и для более опытных пользователей. Работа с системой SCMS 4.2 требует изучения минимального количества документации.
  • Поддержка ARC (NorduGrid). Поддержка gLite и Unicore в разработке.
  • Прозрачная работа в гриде, подобная работе на локальном кластере. Унифицированный интерфейс позволяет пользователю быстро переключаться между работой на локальном кластере и в гриде.
  • Построение детальных отчетов о статистике использования ресурсов суперкомпьютера.
  • Быстрый доступ к важной информации об операциях на суперкомпьютере. Подробные отчеты о состоянии кластера.
  • Организация системы срочных сообщений о критических ошибках, чрезвычайных ситуациях на кластере с помощью SMS и электронной почты.

Авторизация и форма регистрации

Для доступа к системе SCMS 4.2 пользователь должен иметь учетную запись SSH (логин и пароль).

Если пользователь еще не имеет учетной записи, то он должен пройти процедуру регистрации. Для этого заполняется специальная форма, поля которой проверяются на достоверность. Запрос на регистрацию пользователя отправляется администратору кластера, который проверяет данные и подтверждает учетную запись.

Для входа в систему пользователь вводит Логин и Пароль, а также может выбрать необходимый язык интерфейса из списка.

Интерфейс пользователя

Большинство ученых, которые используют кластер в своей работе, работают с готовыми пакетами программного обеспечения. Система управления должна обеспечивать простую и удобную среду для редактирования входных файлов задач, запуска параллельных программ и онлайн просмотра результатов.

Прикладные программисты, в свою очередь, используют кластер для разработки и тестирования параллельных программ. Им необходимо окружение для компиляции программ с поддержкой популярных компиляторов и библиотек, а также редактор исходного кода программ с подсветкой синтаксиса.

Интерфейс системы SCMS 4.2 поддерживает все обычные операции, которые могут понадобиться пользователям.

Основные действия, которые выполняют пользователи:

  • операции с файлами;
  • запуск задач;
  • отслеживание процесса выполнения задач и просмотр их результатов;
  • общение между пользователями и администраторами;
  • работа в гриде.

Управление файлами

Для управления файлами на локальном кластере и в гриде в системе SCMS 4.2 реализован Файловый менеджер.

Он обеспечивает все обычные операции с файлами и директориями:

  • создание файлов и директорий;
  • копирование, перенос;
  • загрузка файлов с локального компьютера в директорию пользователя на кластере;
  • загрузка файлов с кластера и грида;
  • архивация и распаковка файлов и директорий;
  • просмотр и редактирование файлов с подсветкой синтаксиса для популярных языков программирования;
  • отслеживание файлов наподобие tailf;
  • изменение атрибутов;
  • поиск по регулярным выражениям и дате создания;
  • удаление;
  • сортировка списка по названию, размеру или времени создания.

Запуск задач на локальном кластере

Постановка задач в очередь менеджера ресурсов суперкомпьютера осуществляется с помощью специальной формы запуска, которая позволяет установить все необходимые параметры вычислительной задачи.

В случае, когда пользователь часто запускает подобные задачи, предусмотрена возможность сохранения параметров запуска задач в файл пользователя для дальнейшего использования, что упрощает запуск таких задач в будущем.

Для исходных текстов программ предусмотрена интеллектуальная система компиляции, которая опреледеляет язык программирования и выбирает соответствующий сценарий компиляции.

Система поддерживает сценарии для компиляторов Intel и GNU. Сценарии для других компиляторов и языков программирования могут быть легко добавлены администратором.

Для параллельных программных пакетов (Gamess, Gromacs, Abinit и т.д.) в системе SCMS 4.2 реализован специальный режим, в котором часть параметров запуска задачи автоматически заполняется значениями по умолчанию, что значительно упрощает использование таких пакетов.

Запуск задач в гриде

Для работы в гриде и полной поддержки грид-технологий пользователь кластера должен иметь действительный грид-сертификат и грид-пароль. Процедура запуска задач в гриде подобна аналогичной процедуре на локальном кластере. Заполняется форма запуска задач или указывается xRSL файл.

Система постоянно контролирует состояние грид-задач и автоматически копирует результаты выполненных задач в соответствующую директорию пользователя на локальном кластере. Файлы с результатами выполнения задач можно просмотреть во время выполнения задачи и скопировать на локальный кластер для дальнейшего использования.

Директории грид-задач

После успешного запуска пользователем грид-задачи в файловой системе появляется соответствующая удаленная директория. Такие директории отмечены символом цепочки.

Пользователь может выполнять обычные файловые операции с грид-файлами и директориями.

Отслеживание результатов задач

Файловый менеджер системы SCMS 4.2 оснащен возможностью просмотра файлов с подсветкой синтаксиса для популярных языков программирования. Иногда бывает удобно отслеживать изменения файлов в режиме реального времени с tailf-подобной функцией редактора.

Ресурсы

Система SCMS 4.2 позволяет пользователям просматривать список ресурсов локальных и грид-кластеров.

Для каждого кластера можно просмотреть ресурсы (очереди) с их ограничениями по времени и количеству доступных ядер. Грид-ресурсы в списке сгруппированы по доменному имени кластера. Дополнительная информация о выбранном разделе или очереди доступна в панели Подробно.

Список задач

Пользователи кластера могут просматривать список всех задач на локальном кластере, собственных грид-задач и отменять собственные задачи. Режим “История запусков” позволяет просматривать информацию о завершенных задачах.

Дополнительная информация о выбранной задаче доступна в панели Подробно. Например, можно просмотреть список занятых узлов, время постановки задачи в очередь, начало и окончание выполнения задачи (только для завершенных задач) и т.д.

Карта грида

На карте грида визуально отображается географическое положение и доступность кластеров грида. Доступные для запуска суперкомпьютеры отмечены зеленым маркером.

Сервис сообщений

Для общения пользователей между собой и с администраторами в системе SCMS 4.2 предусмотрен встроенный сервис сообщений. Эта функция обычно используется для уведомления администрации кластера о проблемах в его работе.

Настройки

Вкладка Настройки позволяет пользователю изменять личные данные, настройки интерфейса, устанавливать грид-сертификат и режим входа в грид.

Обзор возможностей администратора

Вычислительный процесс на суперкомпьютере организовывают и контролируют администраторы. Они имеют свои учетные записи, как и обычные пользователи, но с расширенными возможностями.

Основные возможности администратора:

  • управление ресурсами кластера: организация узлов в очереди, блокирование, перезапуск, включение / выключение, установка режима drain (выведен из эксплуатации) для узлов;
  • администрирование очередей задач;
  • работа с сообщениями от пользователей и системы;
  • анализ статистики использования ресурсов кластера;
  • контроль состояния оборудования кластера;
  • управление учетными записями пользователей;
  • переключение на другого пользователя;
  • выполнение диагностических задач.

Администрирование очередей задач

Очереди задач требуют постоянного внимания со стороны администратора. Интерфейс системы предусматривает возможность просмотра очереди задач и позволяет отменить задачу в случае ошибки или по другой причине.

Сервис сообщений

Администратор может работать с встроенным в систему сервисом сообщений, что позволяет получать письма от пользователей кластера и оповещения от системы. Пользователи могут отправлять администратору запросы на регистрацию, вопросы, сообщения об ошибках и проблемах в работе кластера.

Система отправляет администратору оповещения об ошибках. Некритические сообщения об ошибках отправляются на электронную почту администратора. Критические сообщения о таких событиях, как перегрев узлов, выход из строя системы охлаждения или сбоях в работе жестких дисков хранилища, отправляются с помощью SMS.

Статистика использования кластера

Система SCMS 4.2 собирает информацию о выполненных задачах и отчеты датчиков мониторинга. Статистика использования ресурсов суперкомпьютера может быть сгруппирована по пользователям и организациям. Статистические данные можно экспортировать в CSV или Excel файл.

Мониторинг

Состояние оборудования кластера требует постоянного внимания администратора. Быстрое информирование об авариях является одной из основных задач системы.

Подсистема контроля имеет режимы проверки состояния оборудования и программных компонент суперкомпьютера. Она постоянно мониторит:

  • менеджер ресурсов (SLURM, Torque и т.д.);
  • счетчики ошибок Ethernet и коммутаторы сети Infiniband;
  • жесткие диски и Raid массивы серверов средствами операционной системы;
  • файловую систему Lustre;
  • состояние и температуру узлов с помощью IPMI;
  • состояние батарей UPS;
  • системный журнал;
  • состояние модема GSM/CDMA;
  • работоспособность программного обеспечения грида.

Управление пользователями

Администратор имеет полный набор средств для управления учетными записями пользователей: прием заявок на регистрацию пользователя, редактировани данных учетной записи, удаление пользователей.

Переключение на другого пользователя предусмотрено для того, чтобы помочь администраторам решить проблемы, которые возникают у пользователя. Такой режим позволяет воссоздать ошибки пользователя и локализовать их в среде, где они происходят.

Выполнение диагностических задач

Диагностические задачи – это специальный класс задач. Они позволяют получить характеристики производительности кластера или проверить надежность всего кластера. Эти задачи могут быть запущены как по расписанию, так и по требованию. В системе предусмотрен интеллектуальный анализ результатов выполнения диагностики с выделением слабых компонент.

Средства диагностики проверяют производительность узлов, работу сети Infiniband и работоспособность файловой системы Lustre. Специальное средство от перегрева выключает узлы, температура которых превышает критический уровень.

Система просмотра журнала диагностики оборудована фильтром по ключевому слову, который упрощает анализ больших объемов текста.

Техническая спецификация системы и совместимость

Ядро системы состоит из программных скриптов для взаимодействия с оборудованием кластера, менеджером ресурсов, программного обеспечения грида и т.д. Скрипты выполняют все сервисные запросы от интерфейса пользователя, инструментов мониторинга и диагностики. Передача данных кодируется с использованием OpenSSL, пользователь имеет доступ только к своим файлам и задачам.

  • ОС кластера: Linux.
  • Система поддерживает все основные менеджеры ресурсов: Torque, SLURM, PBS-совместимые и т.д.
  • Поддерживается программное обеспечение грида ARC (NorduGrid). Поддержка gLite и Unicore в разработке.
  • Учетные записи пользователей: LDAP, /etc/passwd. Аутентификация пользователей: LDAP, PAM.
  • Датчики температуры и сбоев оборудования: IPMI.
  • Веб-сервер: Apache, PHP, MySQL.
  • Модем GSM/CDMA (дополнительная опция).
p.s. Рады, что вы читаете Интересные-новости в нашем издании. Предлагаем поделиться ссылкой на наш сайт, пусть друзья узнают интересное от ledilid.com

Оставить комментарий