Bem-vindo ao mundo de Marvin!

Este manual foi criado para ajudar os usuários a utilizar o HPCC Marvin. Apesar de ser um pouco mal-humorado às vezes, Marvin está sempre disposto a te ajudar!

"Você acha que VOCÊ tem problemas? Experimente ser um robô maníaco depressivo..."
— Marvin, O Guia do Mochileiro das Galáxias

O que é HPCC?

HPCC (High Performance Computing Cluster) é um sistema de computação que combina múltiplos computadores (chamados nós) para trabalhar juntos em tarefas complexas, que requerem grande poder de processamento. O HPCC é projetado para lidar com grandes volumes de dados e realizar cálculos intensivos, tornando-o ideal para aplicações científicas, simulações, modelagem e análise de dados.

Sobre o HPCC Marvin

Marvin é nome do HPCC do LNBio/CNPEM, adquirido em 2022 da empresa Atos, empresa especializada em soluções de HPC e responsável por alguns dos maiores supercomputadores do Brasil e do mundo, como o Santos Dumont.

O HPCC Marvin está hospedado no Data Center do Sirius/LNLS. Para informações sobre a arquitetura do HPCC Marvin, veja a seção Arquitetura.

Acesso ao HPCC Marvin

Para começar a utilizar o HPCC Marvin, veja os Primeiros Passos.

Primeiros passos

Para ativar seu usuário no HPCC Marvin, é necessário fazer um primeiro acesso via ssh (Secury SHell), protocolo de rede seguro que permite a comunicação com servidores remotos.

Primeiro acesso 🚪

O primeiro acesso ao HPC Marvin é feito através do terminal Terminal logo (Linux ou MacOS) ou do PowerShell PowerShell logo (Windows). Para isso, use o seguinte comando:

ssh <seu.login.cnpem>@marvin.cnpem.br

Se você é a Marie Skłodowska-Curie, seu e-mail institucional é marie.curie@lnbio.cnpem.br. Logo, seu usuário é marie.curie. Sempre que encontrar <seu.login.cnpem>, digite marie.curie.

Quando solicitado, digite sua senha institucional.

Você pode receber um aviso solicitando sua confirmação antes de continuar conectando.

[...] Are you sure you want to continue connecting (yes/no/[fingerprint])?

Digite yes e pressione enter. Se tudo correu bem, você verá o cursor piscando no terminal, com um texto semelhante a:

[<seu.login.cnpem>@marvin ~]$

Após o primeiro login, você já poderá ler e gravar arquivos na aba Files do Open OnDemand (OOD), porém ainda não terá permissão para criar jobs, submeter tarefas ao SLURM ou utilizar os Interactive Apps.

Essa autorização é concedida manualmente. Para solicitá-la, registre um chamado na [LNBio] Suporte EDB do Jira em HPCC Marvin: Suporte ao usuário.

Se estiver no Windows e receber o seguinte erro, solicite ao TIC para instalar o ssh ou tente usar outro computador.

ssh: O termo 'ssh' não é reconhecido como nome de cmdlet, função, arquivo de script
ou programa operável. Verifique a grafia do nome ou, se um caminho tiver sido incluído,
veja se o caminho está correto e tente novamente.
Na linha:1 caractere:1
+ ssh marie.curie@marvin.cnpem.br
+ ~~~
    + CategoryInfo          : ObjectNotFound (ssh:String) [], CommandNotFoundException
    + FullyQualifiedErrorId : CommandNotFoundException

Acesso pelo navegador

Para acessar o HPCC Marvin pelo navegador, abra seu navegador e acesse:

https://marvin.cnpem.br

Lembre-se que este endereço só funcionará na rede interna do CNPEM. Para acessá-lo de fora do centro, é necessário usar a VPN. Caso não tenha este acesso à VPN, entre em contato com o DTI.

Na tela de login, use seu usuário (sem @lnbio.cnpem.br) e senha institucional.

Após o login, você verá a interface principal do Open OnDemand:

Vídeo resumo

Abaixo, você pode ver um vídeo que resume os primeiros acesso ao HPCC Marvin, tanto pelo terminal quanto pelo navegador.

Se você tiver alguma dúvida ou precisar de ajuda, não hesite em entrar em contato com a equipe de suporte do sistema.

Arquitetura

Essa seção apresenta a arquitetura do HPCC Marvin, com informações detalhadas sobre:

Hardware

O hardware do HPCC Marvin foi adquirido em 2022 da empresa Atos, com investimento aproximado de US$350000. O cluster está fisicamente instalado no Data Center do Sirius/LNLS, contando com infraestrutura de refrigeração e energia.

O cluster é composto por um conjunto de servidores, chamados de nós, organizados conforme a topologia tradicional de um cluster HPC:

01 nó de login (head node): ponto de entrada dos usuários, onde comandos são executados e jobs são submetidos.
01 nó de computação em CPU (CPU node): dedicado à execução de jobs que requerem alto desempenho de processamento em CPU.
01 nó de computação em GPU (GPU node): dedicado à execução de jobs que se beneficiam de aceleração por GPU.
01 sistema de armazenamento de alta performance (high performance storage system): sistema de arquivos compartilhado baseado em Lustre, voltado para I/O paralelo de alta velocidade.

As especificações técnicas de cada nó estão apresentadas na tabela a seguir:

Nó	CPU	RAM	GPU	Armazenamento
Login	AMD EPYC 7352 24-Core @ 2.4 GHz	256 GB	NVIDIA A40 (48 GB)	N/A
CPU	AMD EPYC 7742 64-Core @ 2.25 GHz	1 TB	N/A	N/A
GPU	AMD EPYC 7742 64-Core @ 2.25 GHz	2 TB	8x NVIDIA A100 (40 GB)	N/A
Storage HPC	N/A	N/A	N/A	300 TB

Sistema Operacional

O HPCC Marvin utiliza o sistema operacional Rocky Linux 8.5, que é configurado de forma padronizada em todos os nós do HPCC, incluindo o nó de login, nós de computação (CPU e GPU) e o nó de Storage HPC.

Sistema de filas

Em ambientes HPC, é comum que múltiplos usuários estejam logados e executando jobs simultaneamente. Para gerenciar eficientemente a alocação de recursos (CPU, GPU, memória, etc) e a ordem de execução desses jobs, são usados sistemas de gerenciamento de filas.

O gerenciador de filas usado é o SLURM v21.08.8-2, que organiza a execução por meio de filas, chamadas de partitions, que armazenam os jobs submetidos pelos usuários. Assim que os recursos solicitados estão disponíveis, o SLURM inicia a execução dessas tarefas de forma automática.

Todos os jobs devem ser submetidos através do SLURM.

As filas de execução do HPCC Marvin são:

Fila	Tempo limite	cpus-per-task (limite)	mem-per-cpu (default)	mem-per-cpu (limite)	GPU
debug-cpu	30 minutos	2	1GB	2GB	Não
gui-cpu	12 horas	8	1GB	4GB	Não
short-cpu	5 dias	64	1GB	4GB	Não
long-cpu	15 dias	32	1GB	4GB	Não
debug-gpu-small	30 minutos	2	1GB	2GB	Sim (5GB)
gui-gpu-small	12 horas	8	1GB	4GB	Sim (5GB)
short-gpu-small	5 dias	64	1GB	8GB	Sim (5GB)
long-gpu-small	15 dias	32	1GB	8GB	Sim (5GB)
debug-gpu-big	30 minutos	2	1GB	2GB	Sim (40GB)
gui-gpu-big	12 horas	8	1GB	4GB	Sim (40GB)
short-gpu-big	5 dias	64	1GB	8GB	Sim (40GB)
long-gpu-big	15 dias	32	1GB	8GB	Sim (40GB)

Gerenciamento de jobs

Os jobs no HPCC Marvin são administrados pelo gerenciador de recursos computacionais SLURM (Simple Linux Utility for Resource Management) v21.08.8-2.

Essa seção apresenta infomações sobre gerenciamento de jobs, com informações detalhadas sobre:

Referências adicionais

Documentação: https://slurm.schedmd.com/documentation.html
Tutorial: https://slurm.schedmd.com/tutorials.html
Manual: https://slurm.schedmd.com/man_index.html
FAQ: https://slurm.schedmd.com/faq.html

O que é SLURM?

O SLURM (Simple Linux Utility for Resource Management) é um sistema de gerenciamento de filas de código aberto projetado para organizar o acesso aos recursos computacionais em um cluster. Ele permite que múltiplos usuários compartilhem os recursos do cluster de forma eficiente.

O que é um job?

Um job é uma tarefa computacional submetida para execução no cluster, como scripts, programas, simulações ou qualquer outro tipo de processamento.

No HPCC Marvin, os jobs são enviados ao SLURM por meio de scripts de submissão. O SLURM insere os jobs em uma fila e os executa conforme a disponibilidade dos recursos, seguindo políticas de agendamento definidas.

Cada job pode variar em complexidade: desde a execução de um único comando até fluxos compostos por múltiplas etapas e dependências. Os usuários podem especificar requisitos como número de CPUs, quantidade de memória, uso de GPUs e tempo estimado de execução.

Os jobs podem ser executados em segundo plano (sbatch) ou de forma interativa (srun --pty bash -i), conforme a necessidade. O SLURM também oferece recursos avançados, como monitoramento em tempo real, controle de dependências e suporte à retomada em caso de falhas.

Submissão de jobs

Para submeter um job, você deve criar um script de submissão com os parâmetros adequados e usar o comando sbatch:

sbatch teste.sh

O script de submissão define as características do trabalho, como nome, partição, número de nós e CPUs, memória, tempo máximo de execução, e arquivos de saída. Um exemplo básico:

#!/bin/bash
#SBATCH --job-name=teste
#SBATCH --partition=debug-cpu
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=1
#SBATCH --mem=1G
#SBATCH --time=00:10:00
#SBATCH --output=output_%j.log

echo "Olá do cluster Marvin!"
hostname
date
sleep 60
echo "Trabalho concluído."

Solicitando recursos específicos

Para solicitar GPUs:

#SBATCH --gres=gpu:1

Para especificar uma partição (fila):

#SBATCH --partition=short-gpu-small

Trabalhos interativos

Você pode iniciar uma sessão interativa com:

srun --pty bash -i

Ou com recursos definidos:

srun --partition=short-gpu-small --gres=gpu:1 --cpus-per-task=4 --mem=8G --time=01:00:00 --pty bash -i

Monitoramento de jobs

Para acompanhar o status dos seus jobs, você pode usar o comando squeue:

squeue -u $USER

Para obter informações detalhadas de um job específico, use o comando scontrol:

scontrol show job <job_id>

Substitua <job_id> pelo ID do seu job.

Cancelamento de jobs

Para cancelar um job específico, use o comando scancel seguido do ID do job:

scancel <jon_id>

Substitua <job_id> pelo ID do seu job.

Para cancelar todos os seus jobs em execução ou na fila, use o seguinte comando:

scancel -u $USER

Sempre verifique o status do seus jobs antes de cancelá-los.

Verificando recursos disponíveis

O SLURM fornece ferramentas para verificar a disponibilidade de recursos no cluster. Para visualizar as partições disponíveis e seus limites, você pode usar o comando:

sinfo

Esse comando exibe informações sobre as partições, incluindo o número de nós disponíveis, o número de nós ocupados e o estado atual de cada partição.

Para visualizar informações detalhadas sobre os nós, incluindo o estado de cada nó, você pode usar:

sinfo -N -l

Esse comando fornece uma visão detalhada de cada nó, incluindo informações sobre a memória, CPUs e o estado atual.

Boas práticas

Para garantir o uso eficiente do sistema e evitar problemas durante a execução de jobs, siga estas boas práticas:

Especifique os recursos necessários: Solicite apenas o que for necessário para evitar desperdício e facilitar o agendamento.
Defina um tempo limite adequado: Um tempo muito curto pode interromper seu job; muito longo pode atrasar a fila.
Utilize o arquivo de saída: Monitore a execução do job e facilite a depuração de erros.
Faça testes com jobs menores: Teste seu pipeline com dados ou tempos reduzidos antes de escalar para execuções maiores.
Evite sobrecarga de I/O: Reduza o número de acessos simultâneos ao sistema de arquivos compartilhado sempre que possível.
Não processar dados no nó de login: Execute seus scripts e comandos de processamento de dados apenas dentro de um job para evitar sobrecarga no nó de login.

Gerenciamento de dados

Os dados são gerenciados a nível de usuário no HPCC Marvin.

Essa seção apresenta informações sobre gerenciamento de dados, com informações detalhadas sobre:

⚠️ Ainda não há sistema de backup no HPCC Marvin.

Todos os dados armazenados pelos usuários (dados, scripts, resultados, arquivos temporários, etc) são de responsabilidade do usuário.

Recomenda-se fortemente o uso do sistema de controle de versão Git sempre que possível, a fim de manter um histórico de alterações e facilitar a recuperação de informações.

Armazenamento de dados

O HPCC Marvin fornece duas opções principais de armazenamento de dados: pasta pessoal e pasta compartilhada por grupos de pesquisa.

Pasta pessoal

Cada usuário do HPCC Marvin tem acesso a um espaço de armazenamento pessoal, onde pode armazenar e compartilhar seus dados.

Se você é a Marie Skłodowska-Curie e seu usuário é marie.curie, sua pasta estará localizado em /home/marie.curie. Você acessa sua pasta pessoal ao fazer login no sistema, e ela é automaticamente montada como seu diretório inicial ($HOME).

Esta pasta (e.g., seu HOME) é exclusiva para cada usuário e é utilizado para guardar arquivos, scripts, resultados e dados intermediários necessários apenas para suas atividades de pesquisa.

Pasta compartilhada por grupos de pesquisa

Os grupos de pesquisa podem solicitar uma pasta compartilhada para armazenar dados que precisam ser acessados por vários membros do grupo.

Esta pasta é criada em um diretório específico, como /shared/groups/<sigla-do-grupo>.

Para solicitar uma pasta compartilhada, registre um chamado na [LNBio] Suporte EDB do Jira em HPCC Marvin: Suporte ao usuário. Informe o nome do grupo de pesquisa e a sigla que deseja (/shared/groups/<sigla-do-grupo>).

Após a criação da pasta, o solicitante deverá compartilhar a pasta com os demais membros do grupo. Para mais informações sobre como compartilhar o acesso a essa pasta compartilhada, consulte a seção de Compartilhamento de dados.

Transferência de dados

O HPCC Marvin oferece várias opções para transferir dados entre o sistema e seu computador local. As principais ferramentas para essa tarefa são: SFTP, SCP e Rsync.

SSH File Transfer Protocol (SFTP)

O SFTP é um protocolo seguro que permite a transferência de arquivos entre sistemas operacionais diferentes. É útil quando você precisa transferir arquivos de forma segura. Para usar o SFTP, execute o seguinte comando:

sftp <seu.login.cnpem>@marvin.cnpem.br

Após se conectar, você pode usar comandos como:

ls: lista os arquivos no diretório atual;
cd: navega para um diretório específico;
put: envia um arquivo do seu computador local para o HPCC Marvin;
get: baixa um arquivo do HPCC Marvin para o seu computador local.

Secure Copy Protocol (SCP)

O SCP (Secure Copy Protocol) é outro protocolo seguro que usa a criptografia SSH para transferir arquivos. Ele é semelhante ao SFTP, mas é mais simples de usar e não tem recursos de navegação.

Para transferir um arquivo (e.g., file.txt) do seu computador local para o HPCC Marvin, use o comando:

scp file.txt <seu.login.cnpem>@marvin.cnpem.br:/caminho/de/destino/

Para transferir um diretório (e.g., directory/) do seu computador local para o HPCC Marvin, use o comando:

scp -r directory/ <seu.login.cnpem>@marvin.cnpem.br:/caminho/de/destino/

Para transferir um arquivo (e.g., file.txt) do HPCC Marvin para o seu computador local, use o comando:

scp <seu.login.cnpem>@marvin.cnpem.br:/caminho/do/arquivo/file.txt /caminho/local/de/destino/

Para transferir um diretório (e.g., directory/) do HPCC Marvin para o seu computador local, use o comando:

scp -r <seu.login.cnpem>@marvin.cnpem.br:/caminho/do/diretorio/directory/ /caminho/local/de/destino/

Para os usuários do Windows, o SCP pode ser usado através do WinSCP, que é uma ferramenta gráfica que facilita a transferência de arquivos via SCP.

Rsync

O Rsync é um protocolo de transferência de arquivos que pode sincronizar diretórios entre hosts. Ele usa uma conexão segura SSH e é útil para transferir grandes quantidades de dados ou sincronizar arquivos entre sistemas.

Para transferir um arquivo (e.g., file.txt) do seu computador local para o HPCC Marvin, use o comando:

rsync -avz file.txt <seu.login.cnpem>@marvin.cnpem.br:/caminho/de/destino/

Para transferir um diretório (e.g., directory/) do seu computador local para o HPCC Marvin, use o comando:

rsync -avz directory <seu.login.cnpem>@marvin.cnpem.br:/caminho/de/destino/

Para transferir um arquivo (e.g., file.txt) do HPCC Marvin para o seu computador local, use o comando:

rsync -avz <seu.login.cnpem>@marvin.cnpem.br:/caminho/do/arquivo/file.txt /caminho/local/de/destino/

Para transferir um diretório (e.g., directory/) do HPCC Marvin para o seu computador local, use o comando:

rsync -avz <seu.login.cnpem>@marvin.cnpem.br:/caminho/do/diretorio/directory/ /caminho/local/de/destino/

A flag -a mantém as permissões de arquivos, a flag -v mostra o progresso da transferência e a flag -z comprime os dados antes de transferi-los.

Compartilhamento de dados

Os dados são compartilhados a nível de usuário no HPCC Marvin, usando o sistema de controle de acesso do Linux, conhecido como Access Control Lists (ACLs). As ACLs permitem que você defina permissões específicas para usuários e grupos em diretórios e arquivos, facilitando o compartilhamento seguro de dados entre usuários.

Para garantir a segurança e a privacidade dos dados, cada diretório de usuário no HPCC Marvin possui permissão 700 ou u:rwx, g:---, o:---. Isso significa que apenas o próprio usuário "u" tem permissão de leitura "r", escrita w e execução x, enquanto membros do grupo g e outros usuários o não têm acesso.

No entanto, em alguns casos, você pode precisar permitir o acesso a determinados diretórios, como para compartilhar um projeto com outros usuários.

Usando o ACL para compartilhar dados

Nesta seção, vamos usar o usuário hipotético marie.curie como exemplo para demonstrar como compartilhar dados com outros usuários no HPCC Marvin.

Verificando as permissões

Para verificar as permissões de um arquivo ou um diretório específico, use o seguinte comando no terminal:

getafcl /caminho/do/diretorio_ou_arquivo

Por exemplo, para verificar as permissões do seu HOME, você pode usar:

$ getafcl /home/marie.curie
# file: /home/marie.curie
# owner: marie.curie
# group: domain\040users
user::rwx
group::---
other::---

Concedendo permissão de acesso a outros usuários

Primeiramente, para compartilhar um arquivo ou diretório com outros usuários, você precisa começar alterarando as permissões do diretório $HOME para 711. Para isso, use o comando:

chmod 711 /home/marie.curie

Então, cheque as mudanças com o comando getfacl:

$ getfacl /home/marie.curie
# file: /home/marie.curie
# owner: marie.curie
# group: domain\040users
user::rwx
group::--x
other::--x

Em seguida, você pode usar o comando setfacl para adicionar permissões de acesso a outros usuários. Por exemplo, para conceder permissão de leitura ao usuário "joao.guerra" no diretório "pasta_compartilhada", use o comando:

setfacl -m u:joao.guerra:r-x /home/marie.curie/pasta_compartilhada

A opção x foi adicionado para que o usuário consiga executar o comando ls e listar os arquivos dentro do diretório compartilhado.

Então, cheque as mudanças com o comando getfacl:

$ getfacl /home/marie.curie/pasta_compartilhada
# file: /home/marie.curie/pasta_compartilhada
# owner: marie.curie
# group: domain\040users
user::rwx
user:joao.guerra:r-x
group::--x
mask::r-x
other::--x

Caso você queira dar permissões de acesso recursivamente para todos os arquivos e subdiretórios dentro de "pasta_compartilhada", você pode usar a opção -R:

setfacl -R -m u:joao.guerra:r-x /home/marie.curie/pasta_compartilhada

Caso você queira conceder acesso para todas os arquivos e subdiretórios que podem ser criados dentro de "pasta_compartilhada", você pode usar a opção -d:

setfacl -d -m u:joao.guerra:r-x /home/marie.curie/pasta_compartilhada