Pairix
O Pairix é uma ferramenta para indexação e consulta eficiente de arquivos .pairs, usados em análises de dados Hi-C e genômica estrutural.
Baseado no Tabix, o Pairix permite buscas rápidas por intervalos genômicos em arquivos de pares, suportando consultas por uma ou duas regiões genômicas.
É amplamente utilizado em pipelines de análise e visualização de dados de interação cromossômica.
Para mais informações, acesse: https://github.com/4dn-dcic/pairix
Carregando o módulo
Para habilitar o pairix no HPCC Marvin, você deve carregar o módulo pairix:
module load pairix
As versões disponíveis do pairix no HPCC Marvin são:
pairix/0.3.9 (D)
(D) indica a versão padrão.Para acessar a documentação do modulo, utilize:
module help pairix
Executando o módulo
Além do executável pairix, o módulo contém outros binários auxiliares como bgzip, pairs_merger e streamer_1d. Execute-os para ter mais detalhes sobre o uso e parâmetros necessários e opcionais.
Exemplos de utilização do pairix para indexar:
pairix textfile.gz # for recognized file extension
pairix -p <preset> textfile.gz
pairix -s<chr1_column> [-d<chr2_column>] -b<pos1_start_column> -e<pos1_end_column> [-u<pos2_start_column> -v<pos2_end_column>] [-T] textfile.gz # u, v is required for full 2d query.
Exemplo para realizar query:
pairix textfile.gz region1 [region2 [...]] ## region is in the following format.
# for 1D indexed file
pairix textfile.gz '<chr>:<start>-<end>' '<chr>:<start>-<end>' ...
# for 2D indexed file
pairix [-a] textfile.gz '<chr1>:<start1>-<end1>|<chr2>:<start2>-<end2>' ... # make sure to quote so '|' is not interpreted as a pipe.
pairix [-a] textfile.gz '*|<chr2>:<start2>-<end2>' # wild card is accepted for 1D query on 2D indexed file
pairix [-a] textfile.gz '<chr1>:<start1>-<end1>|*' # wild card is accepted for 1D query on 2D indexed file
Consulte sobre a utilização, opções e parâmetros disponíveis com pairix -h e informações mais detalhadas na no repositório do pairix.
Submetendo jobs
A execução do pairix no HPCC Marvin é feita por meio de scripts de submissão no SLURM. Crie um arquivo de script, por exemplo pairix.sh, com o seguinte conteúdo:
#!/bin/bash
#SBATCH --job-name=pairix
#SBATCH --partition=short-cpu
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=2
#SBATCH --mem-per-cpu=2GB
module load pairix/0.3.9
INPUT_PAIRS="pairs_file.gz"
REGION_1="<chr>:<start>-<end>"
REGION_2="<chr>:<start>-<end>"
pairix "$INPUT_PAIRS" "$REGION_1" "$REGION_2"
Para submeter o job, salve o script e utilize o comando sbatch:
sbatch pairix.sh
Para mais detalhes sobre os parâmetros do pairix, use:
pairix -h