top of page

4. Desarrollar un diagrama de flujo (esquema de un programa o árbol binario de toma de decisones) que permita identificar si un fichero tiene formato EMBL, UniProt, GenBank, PDB u otros diferentes. A continuación, desarrollar un programa informático capaz de discriminar automáticamente entre tres de ellos: EMBL y UniProt y PDB y muestre en pantalla las secuencias primarias de las proteínas correspondientes en códigos de una letra. Emplear ese programa con los ficheros bajados de Internet de la proteína asignada

El objetivo de esta actividad, siguiendo con la comparación de formatos de los archivos de estructuras de proteínas, es desarrollar un programa en Lázarus/Pascal que sea capaz de identificar y discriminar cada uno de los formatos comentados en la actividad 3 (NCBI-Protein, PDB, UniProt y Fasta) basándose exclusivamente en el comienzo de cada fichero.  

 

De esta forma, nuestro programa (formatos.exe), es capaz de detectar que formato tiene el archivo que se le ha introducido en .txt. Ésto lo hace siguiendo el siguiente árbol de decisión (figura 1). 

s.png

Este programa también es capaz de extraer la secuencia primaria de la proteína de un fichero que el usuario debe introducir, teniendo en cuenta el modo en el que cada formato presenta la secuencia primaria de la proteína, y mostrarla en pantalla en forma de código de una letra. Esto nos puede ayudar a comparar la secuencia de la proteína de interés procedente de diferentes bases de datos, como se hizo en la actividad 3. Además el programa nos permite guardar la secuencia en un archivo de texto. 

Como resultado ejecutar el programa realizado se obtienen las siguientes interfaces y secuencias primarias. 

Para el formato Fasta (figura 2) 

sdsd.png

La secuencia primaria obtenida es la siguiente: 

MGSSHHHHHHSSGLVPRGSHMRGPNPTAASLEASAGPFTVRSFTVSRPSGYGAGTVYYPTNAGGTVGAIAIVPGYTARQSSIKWWGPRLASHGFVVITIDTNSTLDQPSSRSSQQMAALRQVASLNGTSSSPIYGKVDTARMGVMGWSMGGGGSLISAANNPSLKAAAPQAPWDSSTNFSSVTVPTLIFACENDSIAPVNSSALPIYDSMSRNAKQFLEINGGSHSCANSGNSNQALIGKKGVAWMKRFMDNDTRYSTFACENP NSTRVSDFRTANCSLEDPAANKARKEAELAAATAEQ

 

Para el formato PDB (figura 3) 

aa.png

La secuencia primaria obtenida es la siguiente. En comparación con la anterior se le ha eliminado la cola de poli-mis y extremo carboxilo:

 

GSHMRGPNPTAASLEASAGPFTVRSFTVSRPSGYGAGTVYYPTNAGGTVGAIAIVPGYTARQSSIKWWGPRLASHGFVVITIDTNSTLDQPSSRSSQQMAALRQVASLNGTSSSPIYGKVDTARMGVMGWSMGGGGSLISAANNPSLKAAAPQAPWDSSTNFSSVTVPTLIFACENDSIAPVNSSALPIYDSMSRNAKQFLEINGGSHSCANSGNSNQALIGKKGVAWMKRFMDNDTRYSTFACENPNSTRVSDFRTANCSLE

 Para el formato NCBI (GenPept) (figura 4) 

aaa.png

La secuencia primaria obtenida es la siguiente:

mgsshhhhhh ssglvprgsh mrgpnptaas leasagpftv rsftvsrpsg ygagtvyyptnaggtvgaia ivpgytarqs sikwwgprla shgfvvitid tnstldqpss rssqqmaalrqvaslngtss spiygkvdta rmgvmgwsmg gggslisaan npslkaaapq apwdsstnfssvtvptlifa cendsiapvn ssalpiydsm srnakqflei nggshscans gnsnqaligkkgvawmkrfm dndtrystfa cenpnstrvs dfrtancsle dpaankarke aelaaataeq

Para el formato UniProt (figura 5)

bbb.png

La secuencia primaria obtenida es la siguiente, siendo diferente por tener en el extremo amino de la proteína una secuencia del vector de expresión:

MNFPRASRLM QAAVLGGLMA VSAAATAQTN PYARGPNPTA ASLEASAGPF TVRSFTVSRP SGYGAGTVYY PTNAGGTVGA IAIVPGYTAR QSSIKWWGPR LASHGFVVIT IDTNSTLDQP SSRSSQQMAA LRQVASLNGT SSSPIYGKVD TARMGVMGWS MGGGGSLISA ANNPSLKAAA PQAPWDSSTN FSSVTVPTLI FACENDSIAP VNSSALPIYD SMSRNAKQFL EINGGSHSCA   NSGNSNQALI GKKGVAWMKR FMDNDTRYST FACENPNSTR VSDFRTANCS

© 2019 by Alberto Manuel Parra Pérez

bottom of page