Ingeniería de proteínas (2018-2019)
PETasa de Ideonella sakaiensis
3. Obtener de Internet ficheros representativos de secuencias génicas, secuencias peptídicas y estructura de la proteína (swiss Prot, PDB) asignada a partir de diferentes bases de datos. Comparar los formatos de los diferentes ficheros y localizar en ellos la secuencia primaria de la proteína asignada. Comprobar si, para cada origen, esta secuencia es idéntica o no en todos ellos y realizar un informe sobre las observaciones realizadas y su posible interpretación.
El objetivo de esta actividad es comparar los resultados y ficheros obtenidos en distintos formatos, al buscar el término PETase, en distintas bases de datos de secuencias y estructuras proteicas.
Las bases de datos principales que utilizaremos son:
1. Protein Data Bank (PDB)
La base de datos PDB contiene información sobre las estructuras tridimensionales de proteínas, ácidos nucleicos y complejos de éstos con otras moléculas, lo que ayuda a los estudiantes e investigadores a comprender multitud de aspectos de la biología [1].
Los datos normalmente se obtienen mediante técnicas como la cristalografía y la difracción de rayos X, espectroscopía mediante (RMN) y criomicroscopía electrónica, siendo añadidos a dicha base de datos por científicos de todo el mundo para hacerlas accesibles a otros usuarios [2]. En esta base de datos, como ya hemos referido, no se almacenan los datos en bruto de, por ejemplo, en el caso de la cristalografía de rayos X los mapas de difracción o nubes electrónicas, sino que se recogen los posibles modelos proteicos informáticos más adecuados a los datos obtenidos.
El formato PDB presenta de forma general los siguientes campos [3]:
HEADER: identifica de forma única una entrada de PDB y contiene la fecha en que se depositaron las coordenadas en el archivo PDB
COMPND: nombre de la proteína.
SOURCE: organismo del cual se obtuvo la proteína.
AUTHOR: personas que añadieron estos datos al PDB
REVDAT: fechas de revisión de los datos.
REMARK: referencias a artículos sobre la estructura de la proteína e información general de los contenidos del fichero.
SEQRES: secuencia de aminoácidos de la proteína. Esta tiene un formato determinado que es necesario conocer si se quiere extraer la secuencia primaria. Así:
Título del campo (SEQRES): columnas 1-6.
Número de fila del campo SEQRES para cada cadena de la proteína: columnas 9 y 10.
Identificador de la cadena (en blanco si la proteína solo tiene una cadena): columna 12.
Número total de residuos de la cadena: columnas 14-17.
Secuencia de aminoácidos en código de tres letras. La secuencia comienza en la columna 20 y continúa hasta el final de la línea (columna 70), dejando un espacio entre los residuos.
HET, FORMUL: hace referencia estos campos a cofactores, grupos prostéticos, inhibidores y otras sustancias no proteicas presentes en la estructura.
HELIX, SHEET, TURN: elementos de estructura secundaria en la proteína.
ATOM, HETATM: coordenadas de los átomos en el espacio, necesarias para representar la estructura tridimensional de la proteína. HETATM presenta las coordenadas químicas no poliméricas u otras "no estándar", como las moléculas de agua o los átomos presentados en los grupos HET.
CONECT: enlaces que involucran átomos no proteicos.
MASTER, END: final del archivo.
La disposición de columnas de ATOM, así como su información es relevante debido a que es la base de muchos de los programas de esta asignatura que nos permiten cargar proteína. Por lo tanto, su disposición es:

Cualquier ejemplo podría verse fácilmente descargando un archivo en formato pdb, por ejemplo si buscamos en www.rcsb.org la estructura de la PETasa de Idonella sakiensis encontramos 17 resultados. Uno de ellos, el 5xjh.pdb [4] será usado en la mayoría de actividades y que contiene la información estructural de dicha enzima. De éste podemos obtener la secuencia primaria en código de 3 letras:

2. National Center for Biotechnology Information (NCBI) - Protein
La base de datos Protein del NCBI consiste en una colección de secuencias de una gran cantidad de fuentes, incluyendo traducciones de regiones codificantes anotadas en GenBank, RefSeq y TPA (Third-Party Annotation), así como registros de SwissProt, PIR (Protein Information Resource), PRF (Protein Research Foundation) y PDB [5].
Este formato se estructura de la siguiente manera [6].
LOCUS: nombre corto para la secuencia.
DEFINITION: definición de la secuencia.
ACCESSION: número de acceso de la entrada en la base de datos.
VERSION: versión de la entrada.
DBSOURCE: fuente, fecha de creación y última modificación de la entrada.
KEYWORDS: palabras clave de la entrada.
AUTHORS: autores del trabajo
TITLE, JOURNAL: título de la publicación y revista
SOURCE ORGANISM: organismo del cual deriva la secuencia.
ORGANISM: nombre completo del organismo.
ACCESSION: Numero de acceso de la secuencia proteica
FEATURES: Características más relevantes de la secuencia
ORIGIN: comienzo de la secuencia. - //: fin de la secuencia.
La secuencia se estructura de forma que en su primera línea, el título del campo ORIGIN está en las columnas 1-6 y en las seiguientes columnas 6-9, el número de residuo del primer residuo que aparece en la fila, alineado a la derecha y desde la columna 11 hasta el final de la línea, la secuencia de aminoácidos en código de una letra, en minúscula, dejando un espacio cada 10 aminoácidos.
Un ejemplo de nuestra proteína PETasa, en cuyo LOCUS se pone el nombre (5XJH_A) [7], sería:
ORIGIN
1 mgsshhhhhh ssglvprgsh mrgpnptaas leasagpftv rsftvsrpsg ygagtvyypt
61 naggtvgaia ivpgytarqs sikwwgprla shgfvvitid tnstldqpss rssqqmaalr
121 qvaslngtss spiygkvdta rmgvmgwsmg gggslisaan npslkaaapq apwdsstnfs
181 svtvptlifa cendsiapvn ssalpiydsm srnakqflei nggshscans gnsnqaligk
241 kgvawmkrfm dndtrystfa cenpnstrvs dfrtancsle dpaankarke aelaaataeq
//
3. UniProtKB
UniProt Knowledgebase (UniProtKB) es el nodo central para la colección de información funcional de proteínas con un formato caracteristico. Cada entrada incluye una serie de datos esenciales como la secuencia de aminoácidos, el nombre y descripción de la proteína, datos taxonómicos y diversas citas a publicaciones que estudien la proteína. Además incluye ontologías biológicas ampliamente aceptadas, clasificaciones y referencias cruzadas e indicaciones de la calidad de la anotación en forma de evidencia experimental o computacional, etc [8].
Las entradas en UniProt constan de dos secciones: una sección (UniProtKB / Swiss-Prot) que contiene registros anotados manualmente con información extraída de la literatura y un análisis computacional altamente supervisado, y otra sección (UniProtKB / TrEMBL) con registros analizados computacionalmente que esperan una anotación manual completa, ya que se hicieron de manera automática [8].
Un fichero en formato UniProt se compone de distintos campos, donde las dos primeras letras indican qué información contiene. Algunas de las líneas más importantes son [9]:
ID: línea de identificación que contiene el nombre de la proteína, la clase de dato, el tipo de molécula y la longitud de la secuencia en aminoácidos.
AC: número o números de acceso asociados con la entrada.
DT: fecha de creación y última modificación de la entrada.
DE: información general sobre la secuencia.
GN: nombre del gen.
OS: organismo del cual se obtuvo la secuencia.
SQ: comienzo de la secuencia, seguida por varias líneas que contienen el resto de la proteína sin identificador al principio y finaliza con el símbolo //. En la primera línea del campo aparece, a partir de la columna 6, la palabra SEQUENCE, el número de aminoácidos de la proteína, su peso molecular y el código de verificación por redundancia cíclica de 64 bits (CRC64), un código de detección de errores que trata de evitar que se produzcan cambios no deseados en el fichero. Así, esta línea tiene el formato siguiente para, por ejemplo, la PETasa cuyo ID es PETH_IDESA y su AC es A0A0K8P6T7:
SQ SEQUENCE 290 AA; 30247 MW; 8620A766B69749D2 CRC64;
MNFPRASRLM QAAVLGGLMA VSAAATAQTN PYARGPNPTA ASLEASAGPF TVRSFTVSRP
SGYGAGTVYY PTNAGGTVGA IAIVPGYTAR QSSIKWWGPR LASHGFVVIT IDTNSTLDQP
SSRSSQQMAA LRQVASLNGT SSSPIYGKVD TARMGVMGWS MGGGGSLISA ANNPSLKAAA PQAPWDSSTN FSSVTVPTLI FACENDSIAP VNSSALPIYD SMSRNAKQFL EINGGSHSCA
NSGNSNQALI GKKGVAWMKR FMDNDTRYST FACENPNSTR VSDFRTANCS
//
Antes de continuar con el informe hay que destacar un hecho importante y es que entre las secuencias obtenidas usando PDB y NCBI protein son iguales entre sí pero distintas con respecto al de UniProtKB (las igualdades entre éstas se han marcado mediante el subrayado y se ha realizado un BLASTp (figura 1) para corroborar la diferencia entre ella (24 % de no solapamiento y 99% de similaridad), donde el querrá es la secuencia de NCBI y subject la secuencia de UniProtKB ).
Este solapamiento solo del 86 % se debe a que las secuencias no son iguales en los extremos, lo que puede deberse al uso de distintos vectores de expresión, que introduzcan residuos extra a la proteína que se expresen con ella y no modifiquen su actividad. De hecho si nos fijamos en el extremo amino de la proteína en formato NCBI vemos que el extremos se corresponde de una cola de poli-HIS que se utilizaría para su mejor purificación [10].
Este hecho hay que tenerlo en cuenta a la hora de trabajar con las secuencias primarias de proteínas. Por otro lado, una fuente de error en la secuencia en el caso de UniProtKB es que la mayor parte de las secuencias proteicas de esta base de datos (más del 95%) proceden de la traducción de las secuencias codificantes (CDS) que han sido introducidas en las bases de datos públicas de ácidos nucleicos (EMBL-Bank y GenBank) [8]. Esto puede dar resultado a estas variaciones en los extremos.

Por último, un formato que es universal es el FASTA.
4. FASTA
Se trata de un formato sencillo, el cual es ofrecido por prácticamente todas las bases de datos de secuencias génicas y proteicas. Se caracteriza porque la primera línea empieza con el símbolo ‘>’
seguido de información sobre la proteína. Las líneas siguientes corresponden a la secuencia con el código de aminoácido de 1 letra.
Como ejemplo se dispone del formato fasta de la proteína PETasa (5XJH_A)
>5XJH:A|PDBID|CHAIN|SEQUENCE
MGSSHHHHHHSSGLVPRGSHMRGPNPTAASLEASAGPFTVRSFTVSRPSGYGAGTVYYPTNAGGTVGAIAIVP GYTARQSSIKWWGPRLASHGFVVITIDTNSTLDQPSSRSSQQMAALRQVASLNGTSSSPIYGKVDTARMGVMG WSMGGGGSLISAANNPSLKAAAPQAPWDSSTNFSSVTVPTLIFACENDSIAPVNSSALPIYDSMSRNAKQFLE INGGSHSCANSGNSNQALIGKKGVAWMKRFMDNDTRYSTFACENPNSTRVSDFRTANCSLEDPAANKARKEAE
LAAATAEQ