seqtk
O seqtk é um conjunto de ferramentas leves em linha de comando para o processamento rápido de arquivos FASTA e FASTQ. Desenvolvido em C, ele é altamente eficiente e indicado para tarefas comuns de manipulação de sequências, como conversão entre formatos, amostragem aleatória, filtragem, recorte, cálculo de estatísticas e reversão de sequências. O seqtk é amplamente utilizado em pipelines de bioinformática por sua velocidade, simplicidade e fácil integração com outros utilitários de linha de comando.
Para mais informações e documentação completa, acesse: https://github.com/lh3/seqtk/tree/master
Carregando o módulo
Para habilitar o seqtk no HPCC Marvin, você deve carregar o módulo seqtk:
module load seqtk
As versões disponíveis do seqtk no HPCC Marvin são:
seqtk/1.5 (D)
(D) indica a versão padrão.Para acessar a documentação do modulo, utilize:
module help seqtk
Executando o módulo
Modelo de uso do seqtk via linha de comando:
seqtk [OPTIONS] COMMAND [ARGS]...
Ao executar seqtk -h, é possível consultar a lista de comandos disponíveis:
Command:
seq common transformation of FASTA/Q
size report the number sequences and bases
comp get the nucleotide composition of FASTA/Q
sample subsample sequences
subseq extract subsequences from FASTA/Q
fqchk fastq QC (base/quality summary)
mergepe interleave two PE FASTA/Q files
split split one file into multiple smaller files
trimfq trim FASTQ using the Phred algorithm
hety regional heterozygosity
gc identify high- or low-GC regions
mutfa point mutate FASTA at specified positions
mergefa merge two FASTA/Q files
famask apply a X-coded FASTA to a source FASTA
dropse drop unpaired from interleaved PE FASTA/Q
rename rename sequence names
randbase choose a random base from hets
cutN cut sequence at long N
gap get the gap locations
listhet extract the position of each het
hpc homopolyer-compressed sequence
telo identify telomere repeats in asm or long reads
Para mais detalhes sobre os parâmetros de cada comando do seqtk, use:
seqtk [COMMAND] -h
Também consulte os exemplos de uso no repositório do seqtk.
Submetendo jobs
A execução do seqtk no HPCC Marvin é feita por meio de scripts de submissão no SLURM. Crie um arquivo de script, por exemplo seqtk.sh, com o seguinte conteúdo:
#!/bin/bash
#SBATCH --job-name=seqtk
#SBATCH --partition=short-cpu
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=2GB
module load seqtk/1.5
INPUT_FASTQ="/caminho/para/input.fq.gz"
OUTPUT_FASTA="/caminho/para/output.fa"
# Convert FASTQ to FASTA
seqtk seq -a "$INPUT_FASTQ" > "$OUTPUT_FASTA"
Para submeter o job, salve o script e utilize o comando sbatch:
sbatch seqtk.sh