Изменения ПО LCG в версии 2_3_0



Последняя версия ПО EGEE - LCG-2_3_0, которая уже объявлена как текущая, имеет существенные отличия от предшествующей версии LCG-2_2_0. Наиболее серьезные изменения связаны с новым способом установки сайта и новым составом компонентов. Насколько можно судить по документации, пока эти изменения не являются обязательными, но некоторые из них настоятельно рекомендуются. Далее приводится обзор нововведений в LCG-2_3_0.


1. Операционная система

LCG-2_3_0 помимо RH 7.3, которая была базовой во всех предыдущих версиях LCG-2, работает и на новой ОС - Scientific Linux 3 (SL3). Переход на SL3 рекомендуется, так как это более современная и обеспечивающая более высокий уровень безопасности система. Принимая решение о переходе на SL3, следует, однако, учитывать связанные с этим ограничения (надеемся, что они временные).

Прежде всего, автоматизированная установка с помощью LCFGng НЕ поддерживает SL3. Объясняется это тем, что LCFGng не портирован и вряд ли будет портирован на более новые варианты Linux. В то же время, RH 7.3 поддерживается обоими инсталляционными методами, то есть и автоматизированным, и ручным.

Второе ограничение состоит в том, что сейчас не все приложения пользователей могут работать с SL3. Каждый грид-сайт должен найти компромисс между преимуществами работы с новой версией Linux и соображениями сохранения работоспособности приложений. Возможные конфигурации оцениваются следующим образом:
  • установка SL3 на все узлы - лучшее решение;
  • установка RH 7.3 на все узлы - худшее решение;
  • установка SL3 на сервисные узлы (Storage Element (SE), Computing Element (CE) и др.), и RH 7.3 на Рабочие узлы (WN). Этот вариант был протестирован и подходит для не очень больших сайтов, которые поддерживают главным образом виртуальные организации (ВО), для приложений которых необходим RH 7.3.
  • крупные сайты могут столкнуться с проблемой поддержки нескольких ВО с различающимися потребностями. Такие сайты должны иметь рабочие узлы с обоими вариантами Linux. В таком случае ферма рабочих узлов разбивается на два кластера, и устанавливаются два СE, работающие под SL3.

2. Установка сайта

Так как использование SL3 дает много преимуществ, однако не поддерживается LCFGng, разработчики настоятельно рекомендуют переходить от этого инструмента к ручной установке узлов. Этот способ установки включает три шага: 1) установку ОС, 2) установку ПО LCG-2 (rpm-пакетов) и 3) конфигурирование всех типов узлов. Шаги 2) и 3) в известной степени автоматизированы и выполняются с помощью набора скриптов. Отметим, однако, что рабочая группа LCG выполняет портирование LCG-2 на систему автоматической установки и конфигурирования Quattor.

3. Смена локального монитора ресурсов

Всем сайтам рекомендуется перейти от OpenPBS к Torque/Maui. Для этого есть несколько причин. Хотя система Torque очень похожа на OpenPBS, опыт показывает, что она более надежна. Что касается Maui, то это планировщик, который может служить заменой штатных планировщиков нескольких мониторов ресурсов, в том числе PBS. Maui реализует несколько новых механизмов, полезных для управления ресурсами и заданиями. Один из них - механизм "справедливого" распределения ресурсов (fair-share) между несколькими виртуальными организациями. Maui также открывает возможность для определения различных стратегий выбора рабочих улов в зависимости от характеристик обрабатываемых заданий. Ввод этого механизма в действие будет способствовать решению некоторых назревших проблем LCG-2.

4. Переход на BDII

Начиная с версии LCG-2_3_0, рекомендуется вместо общесайтового GIIS использовать BDII. Этот вопрос обсуждается на странице "Using the BDII as a site GIIS".

5. Правила конфигурирования очередей

Выработаны правила для публикуемых информационными службами конфигурационных параметров очередей: длина очереди (queue length) и процессорное время (CPU time). Придерживаться этих правил важно для правильной диспетчеризации заданий. Дополнительные изменения необходимо внести в организацию очередей на крупных сайтах. В конфигурациях прошлых версий все очереди были доступны для любой зарегистрированной ВО. Теперь такой режим работы создает проблемы для ВО HEP. Разработчики предлагают открывать доступ к очередям для самых длинных заданий лишь отдельным ВО. Способ конфигурирования описан в FAQ.

Приведенный обзор изменений не является полным (за подробностями следует обратиться к документации), но на его основе можно сделать выводы о работах, которые может выполнить ROC RDIG в интересах всего сообщества.
  1. Разработка процедуры установки SL3 на большое число компьютеров (в связи с отказом от LCFGng), возможно с использованием Quattor.
  2. Опробование ручной установки LCG-2, в том числе в вариантах компактного размещения нескольких элементов на одном компьютере.
  3. Установка связки Torque/Maui вместо OpenPBS.
  4. Изучение возможностей APEL применительно к диагностике работы сайта.