Подключение ресурсного центра к грид EGEE
Подключиться к грид можно в двух ролях: пользователем или поставщиком ресурсов. В данном разделе рассматривается процедура подключения к грид ресурсного центра (Resource Centre - RC), которую должен выполнить поставщик ресурсов.
В настоящее время проект EGEE использует программное обеспечение, ресурсную и организационную инфраструктуру проекта LCG. В качестве ПО грид на всех RC используется пакет LCG 2.
LCG 2 развивается в виде последовательных версий, и для нового RC естественно выбирать версию, близкую к последней, а работающие RC должны своевременно обновляться. На странице со списком всех версий указывается способ их загрузки и релевантный перечень документации. Помимо конкретных инструкций в документах приводятся многочисленные ссылки на дополнительные источники информации. Основываясь на опыте подключения RC ИПМ РАН, уточним некоторые положения для условий российского региона и текущего состояния инфраструктуры EGEE.
Основные этапы подключения
Общее замечание. Все этапы подключения поддерживаются Региональным операционным центром (ROC – Regional Operational Centre), на который в организационной структуре EGEE возложены обязанности консультирования персонала RC, предоставления справочной информации, оказания помощи при регистрации в органах EGEE, в тестировании и устранении ошибок. Различные функции ROC в России выполняют разные институты. Головной организацией является ИФВЭ (контактный адрес: Юрий Лазин). Создание RC лучше всего начать с обращения в ROC.
Процедура подключения RC состоит из следующих шагов.
[1]. LCG2 SITE SETUP. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Site-Setup.html
[2]. LCG2 LCFG Install. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-LCFG-Install
[3]. LCG2 Manual Install. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Manual-Install
[4]. HOW TO TEST AN LCG2 SITE. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Site-Testing.pdf
[5]. LCG-2 USER GUIDE. https://edms.cern.ch/file/454439//LCG-2-UserGuide.pdf.
В настоящее время проект EGEE использует программное обеспечение, ресурсную и организационную инфраструктуру проекта LCG. В качестве ПО грид на всех RC используется пакет LCG 2.
LCG 2 развивается в виде последовательных версий, и для нового RC естественно выбирать версию, близкую к последней, а работающие RC должны своевременно обновляться. На странице со списком всех версий указывается способ их загрузки и релевантный перечень документации. Помимо конкретных инструкций в документах приводятся многочисленные ссылки на дополнительные источники информации. Основываясь на опыте подключения RC ИПМ РАН, уточним некоторые положения для условий российского региона и текущего состояния инфраструктуры EGEE.
Основные этапы подключения
Общее замечание. Все этапы подключения поддерживаются Региональным операционным центром (ROC – Regional Operational Centre), на который в организационной структуре EGEE возложены обязанности консультирования персонала RC, предоставления справочной информации, оказания помощи при регистрации в органах EGEE, в тестировании и устранении ошибок. Различные функции ROC в России выполняют разные институты. Головной организацией является ИФВЭ (контактный адрес: Юрий Лазин). Создание RC лучше всего начать с обращения в ROC.
Процедура подключения RC состоит из следующих шагов.
- Подготовка ресурсов
RC должен функционировать в круглосуточном режиме, поэтому аппаратная инфраструктура должна удовлетворять требованиям надежности, безопасности (внутренней и сетевой) и иметь достаточные характеристики производительности.
Изначально ПО LCG 2 работало в операционной системе Redhat Linux 7.3, хотя сейчас, начиная с версии LCG-2_3_0, рекомендуется Scietific Linux 3 (SL3). Если все же будет применяться RH 7.3, то нужно учитывать, что это довольно старая система, поэтому приобретая современные компьютеры, следует с осторожностью выбирать их конфигурации, руководствуясь списком поддерживаемого оборудования. Можно также посоветовать ориентироваться на чипы Intel, которые, как правило, совместимы с Linux RH 7.3.
Требования к характеристикам машин приводятся в п. 1.6 документа [1]. Дополнительно необходимо предусмотреть дисковый массив из расчета 1 Тбайт памяти на 10 рабочих узлов.
Некоторые соображения по организации машинного парка содержатся в работе "Организация ресурсов грид" (стр. 10-11). - Проектирование конфигурации RC
Используемое ПО грид (LCG 2) задает структуру RC, в которой каждый входящий в состав RC компьютер играет определенную роль. Основные типы компьютеров:- Пользовательский интерфейс (UI);
- Вычислительный элемент (CE), представляющий собой шлюз к рабочим узлам;
- Элемент памяти (SE) – шлюз к внешней памяти для хранения больших объемов данных;
- Рабочие узлы (WN), на которых, собственно, происходит обработка заданий грид.
В варианте автоматической установки RC (см. п. 3) необходимо предусмотреть отдельный компьютер для сервера LCFGng. Вопросы сетевой инфраструктуры и обеспечения безопасности компьютеров RC рассматриваются в разделе Организация сети. - Установка LCG 2
Возможны два способа установки ПО для RC: автоматический с помощью сервера LCFGng и ручной. Руководствами по этим способам являются, соответственно, документы [2] и [3]. В этом пункте речь идет только о первом способе.
Автоматическая установка реализует концепцию централизованного управления конфигурациями парка компьютеров. Схема конфигурирования выглядит следующим образом. После установки сервера LCFGng на него записывается текущая версия LCG 2. Все версии находятся в репозитарии CVS и могут быть считаны по сети. При включении компьютеров RC сервер LCFGng по локальной сети производит их полную установку. В дальнейшем, при изменении конфигурации RC по этой же схеме происходит и обновление компьютеров.
Таким образом, автоматический режим установки дает возможность полностью сконфигурировать все компьютеры RC, даже если на них нет ОС. В процессе инсталляции записывается все необходимое ПО, включая ОС RedHat Linux 7.3, так что в результате они становятся полностью готовыми к работе в грид.
Автоматическая установка управляется несколькими конфигурационными файлами, которые нужно настраивать для каждого RC. В этих файлах описываются не наборы данных и программ, которые будут записываться на компьютеры, а определяются их роли, адреса, внешние связи RC и т.д. Здесь можно посмотреть примеры работающих конфигурационных файлов разных RC. Кроме того, шаблоны конфигурационных файлов поставляются в версиях LCG 2, их можно найти на сервере в директории /root/tags/<TAG_DIRECTORY>/examples.
Настройка конфигурационных файлов сводится к заданию значений множества параметров, смысл которых не всегда понятен. В их интерпретации может помочь документ. Мы также приводим пример конфигурационного файла RC ИПМ, в котором указаны общие для региона России установки и даются разъяснения некоторых позиций.
Как уже было сказано, в процессе функционирования RC происходит автоматическое обновление конфигураций компьютеров. Уточним, что оно выполняется тогда, когда на сервере LCFGng изменяются конфигурационные файлы – в результате поступления новой версии, изменения состава компьютеров и т.п.
Конфигурации всех типов компьютеров (то есть состав наборов данных на них) поставляются в составе загружаемых из CVS тэгов. Эти стандартные конфигурации предлагаются разработчиками LCG 2, но при желании могут быть пересмотрены. Для этого, правда, требуется изучить способы составления конфигурационных файлов для LCFGng.
После установки RC начинает функционировать в грид независимо от выполнения следующих шагов. Информационная служба GIIS поставляет информацию на индекс сервер BDII. В стандартной конфигурации к вычислительным ресурсам и к ресурсам памяти открыт доступ для всех членов виртуальных организаций LCG, так что в RC могут поступать задания и файлы из грид. - Получение сертификатов компьютеров RC
В RC собственные сертификаты должны иметь две машины: CE и SE. Процедура их получения и установки на компьютеры поддерживается в России сертификационным центром (CA – Certificattion Authority) и описана в инструкции.
Выписывание сертификата производится после инсталляции LCG 2. Сгенерировать сертификат можно на любой машине, на которой установлен Globus Toolkit - на СЕ или SE, но проще всего это сделать на той машине, для которой выписывается сертификат.
Прежде чем выполнять команду grid-cert-request из состава Globus Toolkit, необходимо сконфигурировать службу безопасности GSI (Grid Security Infrastructure) (см. инструкцию CA).
Во-первых, конфигурируется gatekeeper: в директорию /etc/grid-security/certificates помещается собственный сертификат CA (файл d64ccb53.0) и файл d64ccb53.signing_policy, определяющий политику защиты RC (она общая для всех российских центров).
Во-вторых, нужно обеспечить правильность формирования имени владельца сертификата – поля DN (Subject). Для России DN должно иметь следующий формат:- для сертификатов компьютеров: /C=RU/O=DataGrid/CN=host/fqdn;
FQDN - Fully Qualified Domain Name
Например, /C=RU/O=DataGrid/CN=host/ce.keldysh.ru - для сертификатов служб: /C=RU/O=DataGrid/CN=service/fqdn; service – имя сервиса (например, ldap)
- для личных сертификатов оно должно быть /C=RU/O=DataGrid/OU=domain/CN=Name;
Конфигурация GSI ( в том числе начальные фиксированные поля DN) задается тремя файлами grid-security.conf, globus-host-ssl.conf, globus-user-ssl.conf, которые размещаются в директории /etc/grid-security. Нужно:- считать Их из CA
- заменить в них domain "sinp.msu.ru" на значение, соответствующее вашей организации.
После этого можно командой grid-cert-request сгенерировать сертификат, который будет пока не действителен, так как не имеет удостоверяющей подписи CA. Далее выписанный сертификат посылается в CA (ca@lhc.sinp.msu.ru) по электронной почте, там он подписывается и возвращается по адресу отправителя. Согласно регламенту регистрация производится либо по (электронному) письму подписанному официальным регистратором в данной организации, либо по официальному письму от организации на бланке за подписью директора. - для сертификатов компьютеров: /C=RU/O=DataGrid/CN=host/fqdn;
FQDN - Fully Qualified Domain Name
- Внешнее тестирование
После установки LCG 2 рекомендуется проверить работоспособность RC своими силами, выполнив тесты, приведенные в [4]. Для этого потребуется пользовательский интерфейс (UI) и пользовательский сертификат.
После такого внутреннего тестирования, можно перейти к внешнему - LCG Certification Test suites. Тесты для него подготовлены группой тестирования LCG.
Запуск тестов осуществляется российским ROC, куда нужно обратиться, сообщив о готовности RC. В ходе тестирования ROC посылает сообщения о зафиксированных ошибках и рекомендации по их устранению. Результаты каждого сеанса тестирования протоколируются и доступны по сообщаемому ROC адресу.
После того, как внешние тесты завершены успешно, можно считать, что все основные службы RC работают и доступны из грид. Это, однако, не гарантирует отсутствия ошибок, которые могут проявиться при длительной работе. Для их выявления проводится глобальный мониторинг всех подключенных к инфраструктуре LCG ресурсных центров (п. 7). - Регистрация RC в ВО
Вопрос о вступлении в ВО обсуждается в разделе "Как начать работать в грид" – прежде всего необходимо провести переговоры с ее администрацией, начинать которые нужно через российское руководство проекта EGEE. По-видимому, это лучше сделать еще до того, как начинаются работы по созданию RC. Все процедуры регистрации находятся в стадии становления и могут меняться. Мы приводим основные положения, соответствующие документу [5].
Формально регистрация RC в ВО сводится к посылке формы, приведенной в LCG 2 Install Notes, Appendix G, в группу поддержки установки по адресу support-lcg-deployment@cern.ch. Копию запроса на регистрацию следует послать в ROC России.
Имя сайта при заполнении формы может быть, конечно, выбрано любое. Примеры именования можно посмотреть на странице GOC. Предлагается следующая форма именования: RU-Moscow-KIAM-LCG2, то есть федерация-регион-институт-LCG2.
Права на запись в CVS LCG (позиция g формы) нужны для публикации конфигурационных файлов RC. Для этого требуется иметь регистрацию в службе AFS Церна. Процедура ее получения для участников EGEE описана в документе EGEE-Registration-Procedure.
Регистрация в LCG имеет сейчас чисто информационный смысл: в форме определяются контактные данные администратора RC и лица, ответственного за безопасность. После регистрации начинают поступать сообщения о происходящих в LCG нарушениях в политике безопасности и взломах. - Регистрация RC в GOC
GOC (Grid Operation Center) - это организация, осуществляющая постоянный мониторинг всех ресурсных центров LCG. Мониторинг реализуется путем периодического выполнения на каждом RC тестовых заданий. Результаты мониторинга динамически визуализируются в Web. По-видимому, сейчас это единственный способ выявлять аварийные ситуации в RC. Информация о сервере мониторинга и запускаемых тестах находится на goc.grid.sinica.edu.tw/gocwiki/AsccGocProcedure.
RC, прошедший внешнее тестирование, должен быть подключен к мониторингу GOC посредством регистрации в базе данных (GOC DB). Процедура регистрации описана в документе db-auth-request и выполняется администратором RC, для чего ему нужно иметь действительный пользовательский сертификат.
Сертификат загружается в браузер (см. инструкцию), и можно зайти на страницу , где приводится список RC, которые представлены в GOC DB. Если вашего RC там нет, следует еще раз послать форму из LCG2 Install Notes, Appendix G по адресу m.s.thorpe@rl.ac.uk. После этого в GOC DB появится новая позиция для регистрируемого RC под именем, указанным в форме.
Получение прав на запись в GOC DB дополнительно подтверждается по электронной почте – нужно только подождать ответ. После получения подтверждения администратор вводит подробную информацию о RC на странице своей организации. В дальнейшем администратор обязан своевременно корректировать опубликованные данные в соответствии с изменениями конфигурации RC. Устаревшая информация может приводить к тому, что RC будет ошибочно помечаться как неправильно функционирующий. - Решение проблем RC
Центральный сайт GOC по поддержке участников LCG находится по следующему адресу. Там, в частности, GOC помещает дополнительные указания по установке и конфигурированию сайта, эту информацию стоит обязательно прочитать.
Для решения проблем администрирования RC, помимо обращения в ROC,могут быть полезны ссылки на региональные центры поддержки: http://www.gridpp.ac.uk/tb-support/faq
http://grid-it.cnaf.infn.it
Заявления об ошибках подаются в http://savannah.cern.ch/bugs
Страницы GridClub (варианты установки, ошибки, характеристики) по версиям LCG: http://www.gridclub.ru/practice/egeework/problems
Рекомендуется также подписаться на список рассылки LCG Rollout mailing list.
[1]. LCG2 SITE SETUP. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Site-Setup.html
[2]. LCG2 LCFG Install. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-LCFG-Install
[3]. LCG2 Manual Install. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Manual-Install
[4]. HOW TO TEST AN LCG2 SITE. http://grid-deployment.web.cern.ch/grid-deployment/documentation/LCG2-Site-Testing.pdf
[5]. LCG-2 USER GUIDE. https://edms.cern.ch/file/454439//LCG-2-UserGuide.pdf.








