Predicción de la función de la proteína

La predicción de la función de las proteínas comprende un conjunto de métodos empleados por investigadores en bioinformática para asignar roles biológicos o bioquímicos a proteínas. Generalmente, estas proteínas han sido poco estudiadas o se identifican a partir de datos de secuenciación genómica. Dichas predicciones se basan, en gran medida, en procedimientos computacionales intensivos en datos. La información utilizada puede provenir de diversas fuentes, como la homología de secuencias de ácidos nucleicos, perfiles de expresión génica, estructuras de dominios proteicos, minería de textos científicos, perfiles filogenéticos, perfiles fenotípicos e interacciones proteína-proteína. [1]

El término “función proteica” es amplio, ya que abarca desde la catálisis de reacciones bioquímicas hasta el transporte y la transducción de señales; además, una misma proteína puede participar en múltiples procesos o vías celulares. En términos generales, la función puede entenderse como “cualquier proceso que ocurre en o a través de una proteína”. [2]

El Consorcio de ontología génica proporciona una clasificación útil de las funciones, basada en un vocabulario estructurado de términos bien definidos, organizados en tres categorías principales: función molecular, proceso biológico y componente celular. Los investigadores pueden consultar esta base de datos mediante el nombre de una proteína o su número de acceso, con el fin de recuperar los términos o anotaciones de la ontología génica (GO) asociados, sustentados en evidencia computacional o experimental. [3][4]

Aunque técnicas experimentales como el análisis de microarreglos, la interferencia de ARN y el sistema de doble híbrido en levaduras permiten demostrar la función de una proteína, los avances en las tecnologías de secuenciación han provocado que la velocidad de caracterización experimental sea considerablemente menor en comparación con la generación de nuevas secuencias. Por ello, la anotación de nuevas secuencias se realiza principalmente mediante métodos computacionales, ya que permiten analizar de manera rápida grandes cantidades de genes o proteínas. [3]

Los primeros enfoques de predicción se basaban en la inferencia de funciones a partir de proteínas homólogas con funciones conocidas (predicción basada en homología). Posteriormente, el desarrollo de métodos basados en el contexto y en la estructura ha ampliado la capacidad de predicción, permitiendo integrar distintos tipos de información. Actualmente, la combinación de múltiples enfoques posibilita la reconstrucción de vías celulares completas a partir de datos de secuencia. [5] [3]

La relevancia y el uso extendido de la predicción computacional de la función génica se evidencian en el análisis de los “códigos de evidencia” empleados por la base de datos de Ontología Génica: hasta el año 2010, el 98% de las anotaciones correspondían al código IEA (inferido mediante anotación electrónica), mientras que solo el 0.6% se basaban en evidencia experimental. [3][4]

Métodos basados en homología

Una parte de una alineación de secuencias múltiples de cuatro secuencias diferentes de proteínas de hemoglobina. Las secuencias proteicas similares usualmente indican funciones compartidas.

Artículos principales: Homología (biología) y alineamiento de secuencias

Las proteínas de secuencias similares son usualmente homólogas [6] y, por tanto, tienen una función similar. Es por esto que , las proteínas en un genoma recién secuenciado son anotadas rutinariamente utilizando las secuencias de proteínas similares en genomas relacionados.

Sin embargo, las proteínas estrechamente relacionadas no siempre comparten la misma función.[5] Por ejemplo, las proteínas Gal1 y Gal3 de la levadura son parálogos (73% identidad y 92% similitud) que han evolucionado funciones muy diferentes, con Gal1 siendo una galactokinasa y Gal3 siendo un inductor transcripcional [7]

Dentro de las proteínas homólogas, se distinguen dos tipos principales: los ortólogos, que son genes en diferentes especies que evolucionaron a partir de un ancestro común y suelen conservar la misma función, y los parálogos, que surgen por la duplicación genética dentro de un mismo organismo y pueden llegar a evolucionar funciones diferentes [8].

No existe un umbral de similitud de secuencias estricto para una “segura” predicción de funciones; muchas proteínas de similitud de secuencia apenas detectable tienen la misma función, mientras que otras (como Gal1 y Gal3) son muy similares pero han evolucionado funciones diferentes. Como regla general, las secuencias que son más del 30-40% idénticas suelen considerarse que tienen la misma función o una función muy similar.

Para las enzimas, las predicciones de funciones específicas son especialmente difíciles, ya que solo necesitan unos pocos residuos clave en su sitio activo, por lo que secuencias muy diferentes pueden tener actividades muy similares. En cambio, incluso con una identidad de secuencia del 70% o más, el 10% de cualquier par de enzimas tiene sustratos diferentes; y las diferencias en las reacciones enzimáticas reales no son poco frecuentes cerca del 50% de identidad de secuencia [9][10].

Para identificar secuencias homólogas, se emplean herramientas bioinformáticas como BLAST (Basic Local Alignment Search Tool), que permite comparar secuencias problema contra bases de datos,así como programas de alineamiento múltiple como Clustal Omega. Estas herramientas facilitan la detección de similitudes y la inferencia de posibles funciones[11].

Métodos basados en motivos de secuencia

El desarrollo de bases de datos de dominios proteicos como Pfam (Protein Families Database)[9] nos permite encontrar dominios conocidos dentro de una secuencia de consulta, proporcionando evidencia de funciones probables. El sitio web de dcGO[12]contiene anotaciones tanto para los dominios individuales como para los supradominios (es decir, combinaciones de dos o más dominios sucesivos), permitiendo así mediante el predictor dcGO las predicciones de funciones de forma más realista.

Dentro de los dominios proteicos, las firmas más cortas conocidas como 'motivos' se asocian a funciones particulares,[13] y las bases de datos de motivos como PROSITE ('base de datos de dominios, familias y sitios funcionales de proteínas') pueden buscarse mediante una secuencia de consulta[14].

Los motivos pueden, por ejemplo, usarse para predecir la localización subcelular de una proteína (donde en la célula la proteína se envía tras la síntesis). Los péptidos señales cortas dirigen ciertas proteínas a una ubicación concreta, como las mitocondrias, y existen diversas herramientas para predecir estas señales en una secuencia proteica.[15] Por ejemplo, SignalP, que se ha actualizado varias veces a medida que se mejoran los métodos.[16] Así, se pueden predecir aspectos de la función de una proteína sin comparación con otras secuencias de proteínas homólogas de longitud completa.

Debido a estas limitaciones, la predicción de la función proteica suele complementarse con el análisis de la estructura tridimensional, ya que esta se conserva más que la secuencia a lo largo de la evolución. De este modo, proteínas con baja similitud de secuencia pueden presentar estructuras similares y, por tanto, funciones relacionadas[17].

Métodos basados en estructura.

An alignment of the toxic proteins ricin and abrin. Structural alignments may be used to determine if two proteins have similar functions even when their sequences differ.

Artículos principales: Homología (biología) y alineamiento de secuencias

Comparación estructural de proteínas.

Dado que la estructura tridimensional de proteínas (3D) suele estar mejor conservada que su secuencia proteica, la similitud estructural es un buen indicador de funciones similares entre dos o más proteínas.[5][13] Se han desarrollado diversos programas que permiten comparar una estructura proteica conocida con las estructuras disponibles en el Protein Data Bank[18], con el objetivo de identificar similitudes estructurales entre proteínas.

Entre los programas más utilizados se encuentran, FATCAT (Flexible structure AlignmenT by Chaining AFPs (Aligned Fragment Pairs) with Twists),[19] CE (extensión combinatoria)[20]) y Deep Align (alineación de la estructura de proteínas más allá de la proximidad espacial).[21] De manera similar, las principales bases de datos de proteínas, como UniProt, cuentan con herramientas integradas que permiten comparar secuencias proteicas con bases de datos estructurales. Estas herramientas facilitan el establecimiento de relaciones entre proteínas de estructura conocida y aquellas cuya función aún no ha sido completamente caracterizada, contribuyendo así a su predicción de su función biológica.

Alineamiento estructural.

Definición del alineamiento estructural.

El alineamiento estructural es un método basado en la estructura tridimensional que permite comparar proteínas mediante la superposición de sus coordenadas espaciales. Este procedimiento establece equivalencias entre estructuras proteicas a partir de su forma y conformación tridimensional, lo que permite identificar similitudes estructurales incluso entre proteínas con baja similitud de secuencia [21][22].

Como resultado del alineamiento estructural, se obtiene la superposición de las coordenadas atómicas de las proteínas y se emplean métricas como la desviación cuadrática media (RMSD), que mide la distancia promedio entre las posiciones atómicas de las estructuras superpuestas, proporcionando una medida cuantitativa de su similitud [21].

Alineamiento estructural global.

Estos métodos pueden realizarse mediante la comparación de estructuras completas, conocida como alineamiento global, en la que se superpone la totalidad de la proteína para evaluar la similitud de su plegamiento tridimensional. Este tipo de análisis resulta útil cuando las proteínas presentan arquitecturas estructurales conservadas [22].

Alineamiento estructural local.

Asimismo, el alineamiento estructural puede centrarse en la comparación de regiones específicas, también denominado alineamiento local. En este caso, el análisis se enfoca en fragmentos estructurales o dominios funcionales, permitiendo detectar similitudes en sitios activos o regiones conservadas, incluso cuando existe baja similitud global entre las proteínas [23].

Entre los métodos utilizados para realizar alineamientos estructurales se encuentran enfoques basados en la comparación de fragmentos estructurales y matrices de distancia, los cuales permiten identificar correspondencias estructurales entre proteínas y evaluar su relación funcional y evolutiva [22].

Predicción de la estructura de proteínas

Para abordar el hecho de que muchas secuencias proteicas carecen de estructuras resueltas, se han desarrollado métodos de predicción de la estructura de proteínas que permiten determinar la estructura tridimensional a partir de la secuencia de aminoácidos. Estos enfoques generan modelos estructurales cuando no se dispone de datos experimentales y permiten analizar características como la organización tridimensional, la accesibilidad al solvente y la presencia de posibles regiones funcionales, lo que facilita la inferencia de la función biológica de la proteína [24].

Entre estas herramientas se encuentran algunos servidores de predicción funcional, como RaptorX, que primero generan un modelo tridimensional de la secuencia proteica y posteriormente aplican métodos estructurales para inferir sus funciones. Estos modelos pueden emplearse cuando no existe una estructura experimental determinada, permitiendo el análisis estructural de proteínas poco caracterizadas [25][26].

Enfoques de predicción estructural.

Estos métodos de predicción estructural pueden basarse en diferentes enfoques, como modelado por homología, threading o predicción ab initio, dependiendo de la disponibilidad de estructuras relacionadas previamente determinadas. El modelado por homología utiliza proteínas con estructuras conocidas como plantillas, mientras que los métodos de threading buscan plegamientos compatibles con la secuencia analizada. Por su parte, los métodos ab initio predicen la estructura tridimensional a partir de principios físicos y energéticos sin depender de estructuras previamente conocidas [24].

Predicción basada en motivos estructurales.

En muchos casos, en lugar de analizar la estructura completa de la proteína, el estudio se enfoca en la estructura tridimensional (3D) de un motivo en particular que representa un sitio activo o de unión. [13][27][28][29][30] El método de Sitios Locales de Actividad Estructuralmente Alineados (SALSA)[28], desarrollado por Mary Jo Ondrechen y sus estudiantes, utiliza propiedades químicas calculadas de los aminoácidos individuales para identificar sitios locales bioquímicamente activos. Asimismo, se han desarrollado bases de datos como Catalytic Site Atlas [31] que pueden consultarse utilizando nuevas secuencias proteicas con el fin de predecir sitios funcionales específicos.

Organización estructural y dominios.

La predicción estructural se basa en el principio de que la estructura tridimensional de una proteína está estrechamente relacionada con su función biológica. En este contexto, la estructura proteica se organiza en diferentes niveles (primaria, secundaria, terciaria y cuaternaria), los cuales determinan la forma final de la proteína y su capacidad para interactuar con otras moléculas [32].

Asimismo, la identificación de dominios estructurales dentro de una proteína permite reconocer regiones funcionales conservadas que pueden estar asociadas con actividades específicas, incluso cuando la secuencia global presenta baja similitud con otras proteínas conocidas [33].

Mapeo computacional de solventes.

Mapeo computacional de disolventes de la proteína AMA1 utilizando mapeo computacional basado en fragmentos (FTMAP) mediante el escaneo computacional de la superficie de AMA1 con 16 sondas (pequeñas moléculas orgánicas) y definiendo las ubicaciones donde las sondas se agrupan (marcadas como regiones coloridas en la superficie de la proteína[34]

Identificación de sitios activos.

Uno de los principales desafíos en la predicción de la función de las proteínas es la identificación de los sitios activos. Esto se complica debido a que algunos de estos sitios no están preformados, sino que se generan cuando la proteína experimenta cambios conformacionales inducidos por la unión de moléculas pequeñas. La mayoría de las estructuras proteicas han sido determinadas mediante cristalografía de rayos X, técnica que requiere un cristal de proteína purificada. Como resultado, los modelos estructurales disponibles suelen corresponder a proteínas aisladas, sin reflejar los cambios conformacionales que ocurren durante la interacción con ligandos, es decir, cuando la proteína interactúa con moléculas pequeñas.[35]

Mapeo computacional con solventes.

El mapeo computacional con solventes emplea sondas (pequeñas moléculas orgánicas) que se desplazan computacionalmente sobre la superficie de la proteína para identificar regiones donde tienden a agruparse. Generalmente se aplican múltiples sondas con el objetivo de generar diversas conformaciones de proteína-sonda. Posteriormente los conglomerados obtenidos se clasifican en función de su energía libre promedio. Tras el mapeo computacional de múltiples sondas, las regiones donde se observa una alta concentración de estos conglomerados suelen corresponder a posibles sitios activos en la proteína.[35]

Desarrollo experimental del método.

Esta técnica representa una adaptación computacional de experimentos de laboratorio realizados en 1996. En dichos estudios se descubrió que al determinar la estructura de una proteína mientras está suspendida en distintos solventes y posteriormente superponer dichas estructuras, las moléculas del solvente orgánico tienden a agruparse en el sitio activo de la proteína. Este trabajo surgió a partir de la observación de que las moléculas de agua son visibles en los mapas de densidad electrónica obtenidos por cristalografía de rayos X y que estas interactúan con la proteína concentrando principalmente en regiones polares. Esto llevó a la idea de sumergir el cristal proteico purificado en otros disolventes (por ejemplo, etanol, isopropanol, etc.) para identificar las regiones donde estas moléculas se agrupan. en la proteína. Los solventes se relacionan en función de las interacciones que se desea simular; por ejemplo, el etanol puede emplearse para estudiar interacciones con el aminoácido serina, mientras que el isopropanol puede utilizarse como una sonda para la treonina, etc. Es fundamental que la proteína conserve su estructura terciaria en cada solvente. Este procedimiento se repite con múltiples solventes y la información obtenida puede utilizarse para intentar determinar posibles sitios activos en la proteína.[36]

Análisis de superficie proteica.

El análisis de la superficie proteica es fundamental en este tipo de métodos, ya que los sitios activos y de unión suelen localizarse en regiones accesibles al solvente. Estas regiones presentan características estructurales y fisicoquímicas específicas que favorecen la interacción con otras moléculas, como la presencia de cavidades o “pockets” en la superficie de la proteína [37].

De manera complementaria, los sitios de unión corresponden a regiones específicas donde las proteínas interactúan con ligandos, y su identificación permite comprender los mecanismos de reconocimiento molecular y la función biológica de la proteína [38]. Estos enfoques refuerzan el uso del análisis estructural como una herramienta clave para la predicción funcional.

Métodos basados en el contexto del genoma.

Los métodos basados en el contexto del genoma representan un enfoque que complementa a los métodos basados en homología, estos permiten inferir la función de proteínas a partir de relaciones funcionales, evolutivas y de organización genómica entre genes. Estos enfoques son especialmente útiles cuando existe una similitud significativa de estructura o secuencia [39] .

Muchos de los métodos más recientes para la predicción de la función de proteínas no se basan en la comparación de secuencias o estructuras como se ha mencionado antes, sino en algún tipo de correlación entre genes/proteínas nuevos y aquellos que ya tienen anotaciones. Se han desarrollado varios métodos para predecir la función génica en el contexto genómico o filogenómico local y la estructura de los genes:

El perfilado filogenético se basa en la observación de que dos o más proteínas con el mismo patrón de presencia o ausencia en muchos genomas diferentes probablemente tienen un vínculo funcional. [13][40] Mientras que los métodos basados en homología a menudo pueden usarse para identificar funciones moleculares de una proteína, los enfoques basados en el contexto pueden emplearse para predecir la función celular, es decir, el proceso biológico en el que actúa una proteína.[3][40] Por ejemplo, las proteínas implicadas en la misma vía metabólica probablemente estén presentes juntas en un genoma o estén ausentes por completo, lo que sugiere que estos genes trabajan juntos en un contexto funcional.

Un operón conservado en tres genomas bacterianos (aquí: genes implicados en la biosíntesis del triptófano). El orden conservado sugiere que estos genes actúan juntos.

Los operones son grupos de genes que se transcriben entre sí. Basándonos en datos de co-transcripción, pero también en el hecho de que el orden de los genes en operones suele conservarse entre muchas bacterias, se indica que actúan juntos.[40]

La fusión génica ocurre cuando dos o más genes codifican dos o más proteínas en un organismo y, a través de la evolución, se han combinado para formar un solo gen en otro organismo (o viceversa en el caso de la fisión génica).[3][41] Este concepto se ha utilizado, por ejemplo, para buscar homología en todas las secuencias de proteínas de E. coli en otros genomas y encontrar más de 6000 pares de secuencias con homología compartida con proteínas individuales en otro genoma, lo que indica posible interacción entre cada uno de los pares.[41] Debido a que las dos secuencias de cada par de proteínas no son homólogas, estas interacciones no pudieron predecirse mediante métodos basados en homología.

Los métodos basados en el contexto del genoma permiten inferir relaciones funcionales entre genes y proteínas a partir de su organización, patrones de expresión y conservación. Estos enfoques son especialmente útiles para la identificación de interacciones funcionales y procesos biológicos en los que participan las proteínas, incluso en ausencia de similitud de secuencias. Sin embargo, su aplicación puede verse limitada por su complejidad de datos genómicos y su necesidad de herramientas bioinformáticas avanzadas para ser interpretadas correctamente, esto puede generar incertidumbre en las predicciones cuando los datos son ruidosos o incompletos[42].

Métodos de expresión génica y localización.

En los procariotas, los grupos de genes que están físicamente cercanos en el genoma suelen conservarse juntos a lo largo de la evolución y tienden a codificar proteínas que interactúan entre sí o forman parte del mismo operón.[3] Por lo tanto , la proximidad cromosómica, también llamada método de genes vecinos[43] ,puede utilizarse para predecir la similitud funcional entre proteínas, al menos en los procariotas. También se ha observado que la proximidad cromosómica aplica a algunas rutas genómicas eucariotas seleccionados, incluyendo Homo sapiens[44] y con un desarrollo futuro, los métodos de vecinos génicos pueden ser valiosos para estudiar interacciones proteicas en eucariotas.[41]

Los genes implicados en funciones similares también suelen transcribirse de manera conjunta, de modo que una proteína no anotada puede predecirse a menudo que tiene una función relacionada con proteínas con las que coexpresa.[13].

Los algoritmos de culpabilidad por asociación desarrollados a partir de este enfoque pueden utilizarse para analizar grandes cantidades de datos de secuencias e identificar genes con patrones de expresión similares a los de genes conocidos.[45][46] A menudo, un estudio de este tipo compara un grupo de genes candidatos (función desconocida) con un grupo objetivo (por ejemplo, un grupo de genes conocidos por estar asociados a una enfermedad específica), y clasifica los genes candidatos según la probabilidad de pertenecer al grupo objetivo basándose en los datos.[47] Sin embargo, estudios recientes han sugerido que existen algunos problemas con este tipo de análisis. Por ejemplo, dado que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos objetivo. Se argumenta que estos genes tienen más probabilidades de identificarse en la culpa mediante estudios de asociación, y por tanto las predicciones pueden no ser específicas.[47]

Con la acumulación de datos de RNA-seq capaces de estimar perfiles de expresión para isoformas alternativamente empalmadas, también se han desarrollado algoritmos de aprendizaje automático para predecir y diferenciar funciones a nivel de isoforma.[48] Esto representa un área emergente de investigación en la predicción de funciones, que integra datos genómicos heterogéneos a gran escala para inferir funciones a nivel de isoforma.[49]

Perfiles filogenéticos como herramienta clave en la identificación de la función de proteínas.

El perfil filogenético, en su forma original para inferir la función de un gen al encontrar otro gen de función conocida con un patrón idéntico de presencia y ausencia a través de un conjunto de genomas distribuidos filogenéticamente. En resumen, el perfil filogenético de un gen es una cadena binaria que registra la presencia( 1) o ausencia (0) de un ortólogo a través de un conjunto adecuado de genomas. Si la correlación entre los perfiles de dos genes, X y Y, es mucho mayor de lo que se esperaría por azar, entonces se asume que están funcionalmente relacionados [50].

^{Los perfiles filogenéticos de cuatro genes (A, B, C y D) se muestran a la derecha. Un '1' indica la presencia del gen en el genoma y un '0' su ausencia. Los dos perfiles idénticos de los genes A y B están resaltados en amarillo. File:Phylogenetic Profiling Method.png - Wikimedia Commons. (2010, 15 febrero).}

Métodos basados en redes.

^{Un ejemplo de red de interacción proteica, producida a través del recurso web STRING. Se utilizan patrones de interacciones proteicas dentro de las redes para inferir la función. Aquí, se muestra que los productos de los genes bacterianos trp que codifican la triptófano sintasa interactúan entre sí mismos y con otras proteínas relacionadas.}

Los algoritmos de tipo por asociación pueden utilizarse para producir una red funcional de asociación para un grupo objetivo dado de genes o proteínas.[51] Estas redes sirven como una representación de la evidencia de funciones compartidas o similares dentro de un grupo de genes, donde los nodos representan genes o proteínas y están conectados entre sí por enlaces que representan evidencia de función compartida.[52]

Un desafio fundamental de era postgenomica es la interpretación de esta gran cantidad de datos para dilucidar la función de las proteínas. Hasta la fecha , incluso para los organismos mejor estudiados, como la levadura, aproximadamente una cuarta parte de las proteínas permanecen sin caracterizar[52].

Los enfoques computacionales clásicos para la anotación de genes recopilan para cada proteína un conjunto de características que la definen y aplican algoritmos de aprendizaje automático para inferir reglas de anotación basadas en esas características. Las redes a gran escala de interacciones moleculares dentro de la célula, recientemente disponibles, han permitido ir más allá de estos enfoques unidimensionales y estudiar la función de las proteínas en el contexto de una red [52].

En particular, las nuevas tecnologías de alto rendimiento para la medición de interacciones proteína-proteína (PPI) han creado grandes conjuntos de datos sobre la interacción de proteínas en humanos y en la mayoría de las especies modelo. En estos datos se presentan comúnmente como redes, donde los nodos representantan proteínas y las aristas representan las PPI detectadas [52].

El principio común que subyace a todos los métodos directos de anotación funcional es que las proteínas que se encuentran mas cerca de unas de otras en la red de interacción proteína-proteína(PPI) tienen mas probabilidades de tener funciones similares [52].

^{Ejemplo de red de interacción proteína-proteína. Captura de pantalla de Cytoscape 2.3.}

Redes

Varias redes basadas en diferentes fuentes de datos pueden combinarse en una red compuesta, la cual puede ser utilizada por un algoritmo de predicción para anotar genes o proteínas candidatas.[53] Por ejemplo, los desarrolladores del sistema bioPIXIE utilizaron una amplia variedad de datos genómicos de Saccharomyces cerevisiae (levadura) para producir una red funcional compuesta para esa especie [54].

Este recurso permite la visualización de redes conocidas que representan procesos biológicos, así como la predicción de componentes nuevos a partir de dichas redes. Se han desarrollado muchos algoritmos para predecir funciones basándose en la integración de varias fuentes de datos (por ejemplo, genómica, proteómica, interacción proteica, etc.), y las pruebas en genes previamente anotados indican un alto nivel de precisión [52][55].

Las desventajas de algunos algoritmos de predicción de funciones han incluido la falta de accesibilidad y el tiempo requerido para el análisis. Sin embargo, en los últimos años se han desarrollado algoritmos más rápidos y precisos como GeneMANIA (algoritmo de integración de redes de asociación múltiple), los cuales están disponibles públicamente en la web, lo que indica la dirección futura de la predicción de funciones [53].

Herramientas y base de datos para la predicción de la función de las proteínas.

STRING: Herramienta web que integra diversas fuentes de datos para la predicción de funciones.

VisANT: Análisis visual de redes y minería de datos visual integrativa.

Mantis: Una herramienta de predicción de funciones basada en consenso que integra dinámicamente múltiples bases de datos de referencia.

Ver también

Referencias

Rost B, Liu J, Nair R, Wrzeszczynski KO, Ofran Y (diciembre de 2003). "Predicción automática de la función de las proteínas". Ciencias de la vida celulares y moleculares. 60 (12): 2637–50. doi:10.1007/s00018-003-3114-8. PMC 11138487.
Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología génica: herramienta para la unificación de la biología. El Consorcio de Ontología Génica". Genética de la naturaleza. 25 (1): 25–9. doi:10.1038/75556. PMC 3037419. PMID 10802651
Gabaldón T, Huynen MA (abril de 2004). "Predicción de la función y vías de las proteínas en la era del genoma". Ciencias de la vida celulares y moleculares. 61 (7–8): 930–44. doi:10.1007/s00018-003-3387-y. PMC 11138568. PMID 15095013. S2CID 18032660.
du Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología génica—una introducción para bioinformáticos". Sesiones informativas en Bioinformática. 12 (6): 723–35. doi:10.1093/bib/bbr002. PMC 3220872. PMID 21330331.
Whisstock JC, Lesk AM (agosto de 2003). "Predicción de la función de la proteína a partir de la secuencia y estructura de la proteína". Reseñas trimestrales de biofísica. 36 (3): 307–40. doi:10.1017/S0033583503003901. PMID 15029827. S2CID 27123114.
Reeck GR, de Haën C, Teller DC, Doolittle RF, Fitch WM, Dickerson RE, et al. (agosto de 1987). ""Homología" en proteínas y ácidos nucleicos: un confusión terminológica y una salida a ella". Celular. 50 (5): 667. Bibcode:1987Cell... 50..667R. doi:10.1016/0092-8674(87)90322-9. PMID 3621342. S2CID 42949514.
Platt A, Ross HC, Hankin S, Reece RJ (marzo de 2000). "La inserción de dos aminoácidos en un inductor transcripcional lo convierte en una galactokinasa". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. 97 (7): 3154–9. Bibcode:2000PNAS... 97.3154P. doi:10.1073/pnas.97.7.3154. PMC 16208. PMID 10737789.
Hulatt L, Freitas G (06 de septiembre,2024). Protein homology: Techniques & definitions.StudySmarterUK.https://www.studysmarter.co.uk/explanations/nutrition-and-food-science/proteins-in-nutrition/protein-homology/
Rost B (abril de 2002). "La función enzimática está menos conservada de lo esperado". Revista de Biología Molecular. 318 (2): 595–608. Bibcode:2002JMBio.318.. 595R. doi:10.1016/S0022-2836(02)00016-5. PMID 12051862.
Tian W, Skolnick J (octubre de 2003). "¿Qué tan bien se conserva la función enzimática en función de la identidad de la secuencia por pares?". Revista de Biología Molecular. 333 (4): 863–82. Bibcode:2003JMBio.333.. 863T. CiteSeerX 10.1.1.332.4052. doi:10.1016/j.jmb.2003.08.057. PMID 14568541.
Recursos de Bioinformática del NCBI: Una introducción: BLAST: Comparar e identificar secuencias. (23 de octubre de 2015). Berkeley.edu. https://guides.lib.berkeley.edu/ncbi/blast
Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en el dominio sobre funciones, fenotipos, enfermedades y más". Investigación sobre ácidos nucleicos. 41 (Emisión en base de datos): D536–44. doi:10.1093/nar/gks1080. PMC 3531119. PMID 23161684.
Sleator RD, Walsh P (marzo de 2010). "Una visión general de la predicción de la función de proteínas in silico". Archivos de Microbiología. 192 (3): 151–5. Bibcode:2010ArMic.192.. 151S. doi:10.1007/s00203-010-0549-9. PMID 20127480. S2CID 8932206.
Sigrist CJ, Cerutti L, de Castro E, Langendijk-Genevaux PS, Bulliard V, Bairoch A, Hulo N (enero de 2010). "PROSITE, una base de datos de dominios proteicos para caracterización funcional y anotación". Investigación sobre ácidos nucleicos. 38 (Emisión en base de datos): D161–6. doi:10.1093/nar/gkp885. PMC 2808866. PMID 19858104.
Menne KM, Hermjakob H, Apweiler R (agosto de 2000). "Una comparación de métodos de predicción de secuencias de señal utilizando un conjunto de pruebas de péptidos señales". Bioinformática. 16 (8): 741–2. doi:10.1093/bioinformática/16.8.741. PMID 11099261.
Petersen TN, Brunak S, von Heijne G, Nielsen H (septiembre de 2011). "SignalP 4.0: discriminación de péptidos señales de regiones transmembrana". Métodos de la naturaleza. 8 (10): 785–6. doi:10.1038/nmeth.1701. PMID 21959131. S2CID 16509924.
Dill, K. A., Ozkan, S. B., Shell, M. S., & Weikl, T. R. (09 de junio,2008). El problema del plegamiento de proteínas. Revisión Anual de Biofísica, 37(1), 289–316. https://doi.org/10.1146/annurev.biophys.37.092707.153558
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El Banco de Datos de Proteínas". Investigación sobre ácidos nucleicos. 28 (1): 235–42. doi:10.1093/nar/28.1.235. PMC 102472. PMID 10592235.
Ye Y, Godzik A (julio de 2004). "FATCAT: un servidor web para la comparación flexible de estructuras y búsqueda de similitud estructural". Investigación sobre ácidos nucleicos. 32 (problema del servidor web): W582–5. doi:10.1093/nar/gkh430. PMC 441568. PMID 15215455.
Shindyalov IN, Bourne PE (septiembre de 1998). "Alineación de la estructura de proteínas mediante extensión combinatoria incremental (CE) del camino óptimo". Ingeniería de proteínas. 11 (9): 739–47. doi:10.1093/protein/11.9.739. PMID 9796821.
Wang S, Ma J, Peng J, Xu J (marzo de 2013). "Alineación de la estructura de las proteínas más allá de la proximidad espacial". Informes científicos. 3 1448. Bibcode:2013NatSR... 3.1448W. doi:10.1038/srep01448. PMC 3596798. PMID 23486213.
Wikipedia contributors. (2024). Alineamiento estructural. Wikipedia, la enciclopedia libre. https://es.wikipedia.org/wiki/Alineamiento_estructural
Wikipedia contributors. (2024). Alineamiento de secuencias. Wikipedia, la enciclopedia libre. https://es.wikipedia.org/wiki/Alineamiento_de_secuencias
Wikipedia contributors. (2024). Predicción de la estructura de proteínas. Wikipedia, la enciclopedia libre.

https://en.wikipedia.org/wiki/Protein_structure_prediction

Källberg, M., Wang, H., Wang, S., Peng, J., Wang, Z., Lu, H., & Xu, J. (2012). Template-based protein structure modeling using the RaptorX web server. Nature Protocols, 7(8), 1511–1522.
Peng, J., & Xu, J. (2011). RaptorX: exploiting structure information for protein alignment by statistical inference. Proteins, 79(S10), 161–171.
Parasuram R, Lee JS, Yin P, Somarowthu S, Ondrechen MJ (diciembre de 2010). "Clasificación funcional de estructuras 3D de proteínas a partir de sitios de interacción locales predichos". Journal of Bioinformatics and Computational Biology. 8 (Supl 1): 1–15. doi:10.1142/s0219720010005166. PMID 21155016.
Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ (2013). "Anotación de función proteica con sitios locales de actividad estructuralmente alineados (SALSAs)". BMC Bioinformática. 14 (Suppl 3) S13. doi:10.1186/1471-2105-14-S3-S13. PMC 3584854. PMID 23514271.
Garma LD, Juffer AH (abril de 2016). "Comparación de conjuntos no secuenciales de residuos proteicos". Biología Computacional y Química. 61: 23–38. doi:10.1016/j.compbiolchem.2015.12.004. PMID 26773655.
Garma LD, Medina M, Juffer AH (noviembre de 2016). "Clasificación basada en la estructura de sitios de unión FAD: Un estudio comparativo de herramientas de alineación estructural". Proteínas. 84 (11): 1728–1747. doi:10.1002/prot.25158. PMID 27580869. S2CID 26066208.
Porter CT, Bartlett GJ, Thornton JM (enero de 2004). "El Atlas de Sitios Catalíticos: un recurso de sitios catalíticos y residuos identificados en enzimas utilizando datos estructurales". Investigación sobre ácidos nucleicos. 32 (Emisión en base de datos): D129–33. doi:10.1093/nar/gkh028. PMC 308762. PMID 14681376.
Wikipedia contributors. (2024). Estructura de proteínas. Wikipedia, la enciclopedia libre.

https://en.wikipedia.org/wiki/Protein_structure

Wikipedia contributors. (2024). Dominio proteico. Wikipedia, la enciclopedia libre.

https://en.wikipedia.org/wiki/Protein_domain

Wang G, MacRaild CA, Mohanty B, Mobli M, Cowieson NP, Anders RF, Simpson JS, McGowan S, Norton RS, Scanlon MJ (2014). "Conocimientos moleculares sobre la interacción entre el antígeno 1 de la membrana apical de Plasmodium falciparum y un péptido inhibidor de invasión". PLOCHO A UNO. 9 (10) e109674. Bibcode:2014PLoSO... 9j9674W. doi:10.1371/journal.pone.0109674. PMC 4208761. PMID 25343578.
Clodfelter KH, Waxman DJ, Vajda S (agosto de 2006). "El mapeo computacional de disolventes revela la importancia de los cambios conformacionales locales para una amplia especificidad de sustrato en citocromos de mamíferos P450". Bioquímica. 45 (31): 9393–407. doi:10.1021/bi060343v. PMID 16878974.
Mattos C, Ringe D (mayo de 1996). "Localización y caracterización de sitios de unión en proteínas". Biotecnología de la naturaleza. 14 (5): 595–9. doi:10.1038/NBT0596-595. PMID 9630949. S2CID 20273975.
Wikipedia contributors. (2024). Superficie proteica. Wikipedia, la enciclopedia libre.

https://en.wikipedia.org/wiki/Protein_surface

Wikipedia contributors. (2024). Sitio de unión. Wikipedia, la enciclopedia libre.

https://en.wikipedia.org/wiki/Binding_sit

Piovesan, D., Necci, M., Escobedo, N., Monzón, A. M., Hatos, A., Mičetić, I., Quaglia, F., Paladin, L., Ramasamy, P., Dosztányi, Z., Vranken, W. F., Davey, N. E., Parisi, G., Fuxreiter, M., & Tosatto, S. C. E. (2021). MobiDB: proteínas intrínsecamente desordenadas en 2021. Investigación de ácidos nucleicos, 49(D1), D361–D367. https://doi.org/10.1093/nar/gkaa1058
Okuda S, Yoshizawa AC (enero de 2011). "ODB: una base de datos para organizaciones operones, actualización 2011". Investigación sobre ácidos nucleicos. 39 (Emisión en base de datos): D552–D555. doi:10.1093/nar/gkq1090. PMC 3013687. PMID 21051344.
Eisenberg D, Marcotte EM, Xenarios I, Yeates TO (junio de 2000). "Función de las proteínas en la era post-genómica". La naturaleza. 405 (6788): 823–6. Bibcode:2000Natur.405.. 823E. doi:10.1038/35015694. PMID 10866208. S2CID 4398864.
Huynen, M., Snel, B., Lathe, W., 3º, & Bork, P. (2000). Predicción de la función de proteínas por contexto genómico: evaluación cuantitativa e inferencias cualitativas. Investigación del genoma, 10(8), 1204–1210. https://doi.org/10.1101/gr.10.8.1204
Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N (marzo de 1999). "El uso de clústeres génicos para inferir acoplamiento funcional". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América. 96 (6): 2896–901. Bibcode:1999PNAS... 96.2896O. doi:10.1073/pnas.96.6.2896. PMC 15866. PMID 10077608.
Lee JM, Sonnhammer EL (mayo de 2003). "Análisis genómico de agrupamiento génico de vías en eucariotas". Investigación del genoma. 13 (5): 875–82. doi:10.1101/gr.737703. PMC 430880. PMID 12695325.
Walker MG, Volkmuth W, Sprinzak E, Hodgson D, Klingler T (diciembre de 1999). "Predicción de la función génica mediante análisis de expresión a escala genómica: genes asociados al cáncer de próstata". Investigación del genoma. 9 (12): 1198–203. doi:10.1101/gr.9.12.1198. PMC 310991. PMID 10613842.
Klomp JA, Furge KA (julio de 2012). "Emparejamiento genómico de genes con roles celulares usando modelos de culpa por asociación derivados del análisis de muestra única". Notas de investigación de BMC. 5 (1) 370. doi:10.1186/1756-0500-5-370. PMC 3599284. PMID 22824328.
Pavlidis P, Gillis J (2012). "Progreso y desafíos en la predicción computacional de la función génica mediante redes". F1000Investigación. 1 (14): 14. doi:10.3410/f1000research.1-14.v1. PMC 3782350. PMID 23936626.
Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (noviembre 2013). "Diferenciación sistemática de funciones para isoformas alternadas mediante la integración de datos RNA-seq". Biología Computacional de PLOS. 9 (11) e1003314. Bibcode:2013PLSCB... 9E3314E. doi:10.1371/journal.pcbi.1003314. PMC 3820534. PMID 24244129.
Li HD, Menon R, Omenn GS, Guan Y (agosto de 2014). "La era emergente de la integración de datos genómicos para analizar la función isoforma de empalme". Tendencias en genética. 30 (8): 340–7. doi:10.1016/j.tig.2014.05.005. PMC 4112133. PMID 24951248.
Wu, J., Hu, Z., & DeLisi, C. (2006). Gene annotation and network inference by phylogenetic profiling. BMC Bioinformatics, 7(1), 80. https://doi.org/10.1186/1471-2105-7-80
Schwikowski, Benno; Uetz, Peter; Fields, Stanley (diciembre de 2000). "Una red de interacciones proteína-proteína en levaduras". Biotecnología de la naturaleza. 18 (12): 1257–1261. Bibcode:2000NatBi.. 18.1257S. doi:10.1038/82360. ISSN 1087-0156. PMID 11101803. S2CID 3009359.
Sharan R, Ulitsky I, Shamir R (2007). "Predicción basada en redes de la función proteica". Biología de Sistemas Moleculares. 3 (88) 88. doi:10.1038/msb4100129. PMC 1847944. PMID 17353930.
Mostafavi S, Ray D, Warde-Farley D, Grouios C, Morris Q (2008). "GeneMANIA: un algoritmo de integración de redes de asociación múltiple en tiempo real para predecir la función génica". Biología del genoma. 9 (Suppl 1) S4. Bibcode:2008GenBi... 9S... 4M. doi:10.1186/gb-2008-9-s1-s4. PMC 2447538. PMID 18613948.
Myers CL, Robson D, Wible A, Hibbs MA, Chiriac C, Theesfeld CL, Dolinski K, Troyanskaya OG (2005). "Descubrimiento de redes biológicas a partir de diversos datos genómicos funcionales". Biología del genoma. 6 (13) R114. doi:10.1186/gb-2005-6-13-r114. PMC 1414113. PMID 16420673.
Peña-Castillo L, Tasan M, Myers CL, Lee H, Joshi T, Zhang C, Guan Y, Leone M, Pagnani A, Kim WK, Krumpelman C, Tian W, Obozinski G, Qi Y, Mostafavi S, Lin GN, Berriz GF, Gibbons FD, Lanckriet G, Qiu J, Grant C, Barutcuoglu Z, Hill DP, Warde-Farley D, Grouios C, Ray D, Blake JA, Deng M, Jordan MI, Noble WS, Morris Q, Klein-Seetharaman J, Bar-Joseph Z, Chen T, Sun F, Troyanskaya OG, Marcotte EM, Xu D, Hughes TR, Roth FP (2008). "Una evaluación crítica de la predicción de la función del gen Mus musculus utilizando evidencia genómica integrada". Biología del genoma. 9 (Suppl 1) S2. doi:10.1186/gb-2008-9-s1-s2. PMC 2447536. PMID 18613946.
Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (enero 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína controladas por calidad, ampliamente accesibles". Investigación sobre ácidos nucleicos. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. PMC 5210637. PMID 27924014.
Granger BR, Chang YC, Wang Y, DeLisi C, Segrè D, Hu Z (abril de 2016). "Visualización de redes de interacción metabólica en comunidades microbianas usando VisANT 5.0". Biología Computacional de PLOS. 12 (4) e1004875. Bibcode:2016PLSCB.. 12E4875G. doi:10.1371/journal.pcbi.1004875. PMC 4833320. PMID 27081850.
Queirós P, Delogu F, Hickl O, May P, Wilmes P (junio 2021). "Mantis: anotación genómica flexible y basada en el consenso". GigaScience. 10 (6) giab042. doi:10.1093/gigascience/giab042. PMC 8170692. PMID 34076241.

External links

The dcGO database
Protein Data Bank
Catalytic Site Atlas
RaptorX Server for model-assisted protein function prediction
Blast2GO, high-throughput tool for protein function prediction and functional annotation (webpage).

Proteins: key methods of study
Experimental	Protein purification Green fluorescent protein Western blot Protein immunostaining Protein sequencing Gel electrophoresis/Protein electrophoresis Protein immunoprecipitation Peptide mass fingerprinting/Protein mass spectrometry Dual-polarization interferometry Microscale thermophoresis Chromatin immunoprecipitation Surface plasmon resonance Isothermal titration calorimetry X-ray crystallography Protein NMR Cryo-electron microscopy Freeze-fracture electron microscopy
Bioinformatics	Protein structure prediction Protein function prediction Protein–protein docking Protein structural alignment Protein ontology Protein–protein interaction prediction
Assay	Enzyme assay Protein assay Secretion assay
Display techniques	Bacterial display mRNA display Phage display Ribosome display Yeast display
Super-resolution microscopy	Photoactivated localization microscopy Vertico SMI