Analyse des séquences

Analyses effectuées sur les données du CQDG

ÉtudeWGS ou WESNombre de séquences disponibles dans l'étudeNombre de séquences disponibles sur le portailDonnées brutes soumises au portailPipeline Pre-processing / AlignementPipeline CallingPipeline Post-processingPipeline annotationFichiers disponibles sur le portailProchaines étapes
DEEWGS588588.gvcf / .cram / .cnv.vcf / .sv.vcfDragenDragenFerlabFerlabDonnées brutesRendre les .vcf annotés disponibles dans le portail.
CartageneWGS21842179.gvcf / .cram / .cnv.vcf / .sv.vcfDragenDragenFerlabFerlabDonnées brutesCompléter le jeu de données et rendre les .vcf annotés disponibles dans le portail.
BACQWES386386FastQ / .cram / .vcf (snv)GenPipes DNAseqGenPipes DNAseq-Ferlab.cram / .vcfRouler le pipeline Ferlab en entier.
NeuroDevWGS38267FastQ / .cram / .vcf (snv)GenPipes DNAseqGenPipes DNAseq-Ferlab.cram / .vcfRouler le pipeline Ferlab en entier.
PRAGMatiQWGS257110FastQ / .cram / .vcf (snv)GenPipes DNAseqGenPipes DNAseq-Ferlab.cram / .vcfRouler le pipeline Ferlab en entier.

Description des pipelines bioinformatiques utilisés



Outils

GenPipes

GenPipes DNAseq Exome

Dragen

Filtre :

Hard filtering sur critère bas QUAL > 3, DP > 1

Ferlab


PreProcessing

Pour le PreProcessing nous utilisons le pipeline Sarek développé par la communauté nf-core.
Parmi les outils disponibles nous avons utilisé :

  • des outils de contrôle de qualité
    • FastQC
    • FastP
    • samtools
  • un outil d'alignement
    • BWA
  • un outil afin de tagger les duplicatas de PCR
    • markduplicates
  • un outil pour la recalibration de la qualité des bases
    • BQSR

Calling

Pour le calling nous avons choisi plusieurs outils parmi les outils proposés par Sarek

  • Calling
    • Haplotypecaller
    • Deepvariant

PostProcessing

Dans l'étape de PostProcessing nous utilisons un pipeline que nous avons développé à l'interne à Ferlab.

  • Exclusion des MNPs
    • bcftools
  • CombineGVCF par famille
    • gatk
  • GenotypeGVCFs calculate genotype
    • gatk
  • VQSR
    • gatk vqsr
  • splitMultiAllelics
    • bcftools

Annotation

  • VEP
  • tabix

Version des logiciels

GenPipes

Process NameSoftwareVersion
-GenPipes DNAseq Exome4.1.2
-gatk3.8

Dragen

Ferlab

Sarek + Ferlab

Process NameSoftwareVersion
BCFTOOLS_MPILEUPbcftools'1.17'
BCFTOOLS_SORTbcftools'1.17'
BCFTOOLS_STATSbcftools'1.17'
BWAMEM1_MEMbwa0.7.17-r1188
BWAMEM1_MEMsamtools1.16.1
CNNSCOREVARIANTSgatk44.4.0.0
CNVKIT_ANTITARGETcnvkit0.9.10
CNVKIT_BATCHsamtools'1.17'
CNVKIT_GENEMETRICScnvkit0.9.10
CNVKIT_REFERENCEcnvkit0.9.10
CREATE_INTERVALS_BEDgawk5.1.0
CUSTOM_DUMPSOFTWAREVERSIONSpython3.12.0
CUSTOM_DUMPSOFTWAREVERSIONSyaml6.0.1
DEEPVARIANTdeepvariant1.5.0
FASTPfastp0.23.4
FASTQCfastqc0.12.1
FILTERVARIANTTRANCHESgatk44.4.0.0
FREEBAYESfreebayes1.3.6
GATK4_APPLYBQSRgatk44.4.0.0
GATK4_BASERECALIBRATORgatk44.4.0.0
GATK4_GATHERBQSRREPORTSgatk44.4.0.0
GATK4_HAPLOTYPECALLERgatk44.4.0.0
GATK4_MARKDUPLICATESgatk44.4.0.0
GATK4_MARKDUPLICATESsamtools'1.17'
INDEX_CRAMsamtools'1.17'
MANTA_GERMLINEmanta1.6.0
MERGE_BCFTOOLS_MPILEUPgatk44.4.0.0
MERGE_CRAMsamtools'1.17'
MERGE_DEEPVARIANT_GVCFgatk44.4.0.0
MERGE_DEEPVARIANT_VCFgatk44.4.0.0
MERGE_FREEBAYESgatk44.4.0.0
MERGE_HAPLOTYPECALLERgatk44.4.0.0
MERGE_STRELKAgatk44.4.0.0
MERGE_STRELKA_GENOMEgatk44.4.0.0
MOSDEPTHmosdepth0.3.3
SAMTOOLS_STATSsamtools'1.17'
SNPEFF_SNPEFFsnpeff5.1d
STRELKA_SINGLEstrelka2.9.10
TABIX_BGZIPTABIXtabix'1.12'
TABIX_BGZIPTABIX_INTERVAL_COMBINEDtabix'1.12'
TABIX_BGZIPTABIX_INTERVAL_SPLITtabix'1.12'
TABIX_BGZIP_TIDDIT_SVtabix'1.12'
TABIX_TABIXtabix'1.12'
TIDDIT_SVtiddit3.6.1
VCFTOOLS_TSTV_COUNTvcftools0.1.16
WorkflowNextflow23.10.1
Workflownf-core/sarek3.4.0
ExcludeMnpsbcftools1.19
splitMultiAllelicsbcftools1.19
importGVCFgatk4.5.0.0
genotypeGVCFgatk4.5.0.0
vepensembl-vep111.0
tabixhtslib1.19
variantRecalibratorgatk4.5.0.0
applyVQSRIndelgatk4.5.0.0