pairtools

O pairtools é um conjunto de ferramentas em linha de comando e biblioteca Python desenvolvido para processar e manipular dados de pares de leituras provenientes de experimentos Hi-C. Ele realiza etapas essenciais do pipeline, como emparelhamento de leituras mapeadas, filtragem, deduplicação e indexação, gerando arquivos .pairs padronizados que descrevem interações cromossômicas individuais. O pairtools é altamente eficiente e modular, podendo ser integrado a pipelines maiores para análise de dados genômicos em larga escala.

Para mais informações e documentação completa, acesse: https://pairtools.readthedocs.io/en/latest/index.html

Carregando o módulo

Para habilitar o pairtools no HPCC Marvin, você deve carregar o módulo pairtools:

module load pairtools

As versões disponíveis do pairtools no HPCC Marvin são:
  • pairtools/1.1.3 (D)
Onde (D) indica a versão padrão.

Para acessar a documentação do modulo, utilize:

module help pairtools

Executando o módulo

Modelo de uso do pairtools via linha de comando:

pairtools [OPTIONS] COMMAND [ARGS]...

Ao executar pairtools -h, é possível consultar a lista de comandos disponíveis:

Commands:
  dedup        Find and remove PCR/optical duplicates.
  filterbycov  Remove pairs from regions of high coverage.
  flip         Flip pairs to get an upper-triangular matrix.
  header       Manipulate the .pairs/.pairsam header
  markasdup    Tag all pairs in the input file as duplicates.
  merge        Merge .pairs/.pairsam files.
  parse        Find ligation pairs in .sam data, make .pairs.
  parse2       Extracts pairs from .sam/.bam data with complex walks,...
  phase        Phase pairs mapped to a diploid genome.
  restrict     Assign restriction fragments to pairs.
  sample       Select a random subset of pairs in a pairs file.
  scaling      Calculate pairs scalings.
  select       Select pairs according to some condition.
  sort         Sort a .pairs/.pairsam file.
  split        Split a .pairsam file into .pairs and .sam.
  stats        Calculate pairs statistics.

Consulte todos informações completas sobre os comandos na página de referência de CLI na documentação oficial do pairtools.

Submetendo jobs

A execução do pairtools no HPCC Marvin é feita por meio de scripts de submissão no SLURM. Crie um arquivo de script, por exemplo pairtools.sh, com o seguinte conteúdo:

#!/bin/bash
#SBATCH --job-name=pairtools
#SBATCH --partition=short-cpu
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=4
#SBATCH --mem-per-cpu=4GB

module load pairtools/1.1.3

PAIRS_PATH="/caminho/para/arquivo.pairs"
OUTPUT="/caminho/para/output.tsv"

pairtools dedup -o  "$OUTPUT" "$PAIRS_PATH"

Para submeter o job, salve o script e utilize o comando sbatch:

sbatch pairtools.sh

Para mais detalhes sobre os parâmetros de cada comando do pairtools, use:

pairtools [COMMAND] -h