You are here: Home Courses Formação em Infra-Estrutura para Bioinformática Aulas Aula 2 - Sequenciamento e Alinhamento genético
Document Actions

Aula 2 - Sequenciamento e Alinhamento genético

by Andre Caetano Firmo last modified 2008-04-04 15:57

Nesta aula veremos um resumo sobre o sequenciamento e alinhamento genético e os principais softwares utilizados.

Parte 1 - Sequenciamento

Nesta primeira parte, veremos como é feito o sequenciamento genético.

    O DNA e RNA são cadeias de polímeros compostas por uma pequena categoria de substâncias químicas similares. As unidades individuais são denomidadas nucleotídios ou bases. A utilização da base é diferente no DNA e no RNA. O código do DNA possui na sua composição os nucleotídeos A (adenina), T (timina), G (guanina) e C (citosina), enquanto que o RNA substitui o T pelo U (uracila). As bases se ligam aos pares sendo A-T e C-G.

Genômica - Ciência que estuda o genoma, ou o conjunto do material genético de um organismo.

    Esse estudo é possível através do sequenciamento de DNA que determina a sequência nucleotídica. A partir daí, temos 3 tipos de projetos:

  • DNA – seqüenciamento de estruturas do genoma ou de trechos destas. Ex.: Genoma humano
     O sequenciamento de DNA é feito de forma aleatória e fornece :
  1.   Informações sobre regiões codantes (genes) e promotores.
  2.   Mas gera sequências em regiões inter-gênicas (a princípio sem função)
  • ESTs – sequenciamento de cDNA (DNA complementar), feitos à partir de bibliotecas de mRNA (RNA mensageiro) . Ex.: ESTs de cana-de-açúcar
    O sequenciamento de mRNA fornece :
  1.   Informação direta sobre os genes e também sobre a expressão gênica.
  2.   Mas genes pouco expressos são mais raros de serem sequenciados por essa técnica
  • SAGE – sequenciamento de fragmentos em torno de 20 pb do cDNA.

    SAGE fornece informação sobre a expressão gênica de forma mais     eficiente que ESTs, mas é útil apenas quando o genoma completo do o  organismo for conhecido
 A situação ideal para um projeto genoma é sequenciar ambos DNA e cDNA

    Veremos agora o método de sequenciamento Sanger um dos mais utilizados atualmente.

1)    O DNA do núcleo de células é extraído por técnicas especiais. O DNA puro é então cortado em vários pedaços utilizando enzimas de restrição. Estas enzimas são muito específicas, isto é, cortam o DNA em locais conhecidos.

 dna1
Quebra do DNA pela enzima em partes conhecidas

2)    Estes pedaços de DNA possuem as pontas conhecidas, pois foram cortados com enzimas conhecidas. As mesmas enzimas são utilizadas para cortar os plasmídios, que são DNA em forma de pequenos círculos. São fáceis de manipular porque, além de pequenos, possuem uma seqüência já determinada previamente. Assim, com o uso de outras enzimas, chamadas ligases, as pontas são unidas: ponta “A” liga-se com ponta “A” e ponta “B” liga-se com ponta “B”.

 dna2
Junção dos fragmentos de DNA ao vetor conhecido 

3)    É desenhado um primer, um segmento de RNA com 1 a 60 nucleotídeos, uma sequência complementar do DNA. É através desse primer que uma enzima DNA polimerase, que sintetiza DNA apartir de um filamento complementar, formará as cadeias.

 dna3
Desenho de um primer e a enzima DNA Polimerase 

4)   São utilizados  4 bases dideoxynucleotídicas que além de possuirem uma propriedade fluorescente, em cores destintas, quando incorporadas, param a síntese do filamento complemetar.

 dna4
Bases dideoxynucleotídicas

5)    Todos os elementos são aglutinados e a reação começa a formar cadeias de diversos tamanhos. Todas iniciando com o primer e terminados com uma base dideoxynucléica. Assim temos as cadeias que entrarão no sequenciador em uma solução de gel e a medida que as cadeias vão chegando ao final do gel são identificadas por um laser e codificadas num cromatograma.

 dna5
Processo de  formação das cadeias e entrada no sequenciador


Animação explicando o sequenciamento Sanger.



Parte 2 - Alinhamento

Nesta parte veremos a étapa seguinte ao sequenciamento.

    Após o sequenciamento, precisamos identificar e agregar informação a  sequência.  A melhor maneira de fazer isto, é comparar a sequência com sequências já conhecidas. Para isso, é feito o alinhamento par a par com um banco de dados.

    O que realmente importa é o grau real de similaridade ( estatisticamente significantes) temos:

  • identidade = número que indica a quantidade de nucleotídeos alinhados
  •  similaridade = considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos
  •  homologia = dividem a mesma ancestralidade com significado evolutivo

    No contexto de evolução as sequências de DNA sofrem  mutações.         estas modificações locais entre os nucleotídeos podem ser :

  •  Inserções : inserção de uma base ou várias bases na sequência
  •  Deleções : deleção de uma base ou mais bases na sequência
  •  Substituições : substituição de uma base por outra
     Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações
    O conceito básico para a seleção de uma boa sequência de alinhamento é simples. As duas sequências são combinadas aleatoriamente. A qualidade da pontuação é avaliada e pontuada. Em seguida uma sequência é movida em relação a outra e a combinação é pontuada novamente, até que seja obtida a melhor pontuação de alinhamento.


 dna6
Exemplo de alinhamento entre 2 sequências

    Gaps representam as inserções e deleções entre as sequências
     O melhor alinhamento entre duas sequências é aquele que maximiza o score :
 Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
             = 24 – 4 – 10 = 10

Temos os seguintes modelos de alinhamento:
  • Alinhamento global - útil quando as duas sequências tem tamanhos próximos   
  • Alinhamento local - útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados
  •  Alinhamento semi-global (ou pontas livres) - útil para encontrar sobreposições de fragmentos de sequenciamento

Parte 3 - Softwares

Veremos agora os softwares responsáveis por cada etapa da análise.

   

    O arquivo de saída do sequenciador é um cromatograma que contém a sequência e a qualidade das bases.

 dna7
Exemplo de um cromatograma e a qualidade das bases  

  •     o Phred será o primeiro software que iremos utilizar. Ele analisa o cromatograma e dá uma nota para cada base baseado em sua qualidade.

 dna8
Cromatograma e a saída do phred 

    O phred utiliza esta formula para atribuir a nota:

q = -10 log10 (P)

    onde q é a qualidade e P a probabilidade de encontrar uma base errada. Uma nota phred 20 implica em uma base errada em cada 100, e uma nota 30 uma base errada em cada 1000.

  •     Após obter o arquivo com as notas de cada base, devemos identificar o vetor que foi usado no sequenciameno. Para isso usamos o Cross_match. Ele faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X,

>Seq1
XXXXATGCGCATAGCATAGGGACATCATACATTTTACACACAAGAGACAGACGAT
ACTACATGTCATGACTACXXXXXXXXXXXXXXX
Exemplo de saída do cross_match

  • Com o vetor identificado, vamos realizar o alinhamento entre as sequências. Para essa função usaremos o Cap3. Ele realiza alinhamentos semi-global e gera arquivos contendo os singlets e os contigs.
  • Agora que ja temos os alinhamentos entre as sequências, faremos outro alinhamento agora contra um banco de dados. Para isso usamos o Blast. Ele utiliza alinhamento local para  confrontar as sequências com um banco de dados conhecido. Assim temos  como saída, com que tipos de estruturas conhecidas a sequência é mais similar.
 BLASTX 2.2.17 [Aug-26-2007]


Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs",  Nucleic Acids Res. 25:3389-3402.

Query= Contig1
         (896 letters)

Database: All non-redundant GenBank CDS
translations+PDB+SwissProt+PIR+PRF excluding environmental samples
from WGS projects
           6,307,426 sequences; 2,155,784,383 total letters

Searching..................................................done



                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

ref|XP_312613.4| AGAP002350-PA [Anopheles gambiae str. PEST] >gi...   201   7e-50
ref|XP_001688392.1| AGAP002350-PB [Anopheles gambiae str. PEST] ...   201   7e-50


>ref|XP_312613.4| AGAP002350-PA [Anopheles gambiae str. PEST]
 gb|EAA44956.4| AGAP002350-PA [Anopheles gambiae str. PEST]
          Length = 383

 Score =  201 bits (510), Expect = 7e-50
 Identities = 95/111 (85%), Positives = 103/111 (92%)
 Frame = -1

Query: 857 VKLETEKYDLEERQKRQDFDLKELKERQKQQLRHKAFKKGVDPEALTGKYPPKIQVASKY 678
           VKLETEKYDLEERQKRQD+DLKELKERQKQQLRHKA KKG+DPEALTGKYPPKIQVASKY
Sbjct: 206 VKLETEKYDLEERQKRQDYDLKELKERQKQQLRHKALKKGLDPEALTGKYPPKIQVASKY 265

Query: 677 EGRVDTRSFDDKKKIFEGGFETLTKEFFEKVWHEKKEEFGGCQKTKLPKWF 525
           E RVDTRS+DDKKK+FEGGF+TL KE  EK W E+KE+FGG QK+KLPKWF
Sbjct: 266 ERRVDTRSYDDKKKLFEGGFDTLNKEVLEKQWAERKEQFGGRQKSKLPKWF 316


Exemplo de  um arquivo de saída do Blast


Referências

Falsarella, Marcelo - Slides do curso de Bioinformática aplicada a genética
Gibas, Cynthia – Desenvolvendo Bioinformática