SCOP

A base de datos SCOP (Structural Classification of Proteins, Clasificación Estrutural de Proteínas) realiza unha clasificación das proteínas baseada en dominios estruturais en gran medida feita manualmente elaborada de acordo coas semellanzas das súas estruturas e secuencias de aminoácidos. Unha motivación para facer este tipo de clasificación é determinar as relacións evolutivas entre proteínas. As proteínas que teñen as mesmas formas pero teñen pouca semellanza nas súas secuencias ou funcións sitúanse en diferentes "superfamilias", e considérase que o seu antepasado común está moi distante. As proteínas que teñen a mesma forma e algunha semellanza nas secuencias ou funcións sitúanse en "familias", e considérase que teñen un antepasado común próximo.

A base de datos SCOP é accesible gratuitamente en Internet. SCOP creouse en 1994 no Centre for Protein Engineering e no Laboratory of Molecular Biology ambos os dous de Inglaterra.^[1] Primeiro encargábase do seu mantemento Alexey G. Murzin e outros colegas no Centre for Protein Engineering ata que se pechou en 2010 e despois no Laboratory of Molecular Biology en Cambridge, Inglaterra.^[2]^[3]^[4] En 2012 apareceu SCOPe, que estaba máis automatizada. En xaneiro de 2014, cesaron os trabalos en SCOP e a última versión oficial de SCOP é a 1.75 (que saíra en xuño de 2009). Non obstante, púxose a disposición do público unha nova base de datos chamada Structural Classification of Proteins 2 (SCOP2), que substituirá a SCOP. A base de datos SCOP2 define un novo enfoque para a clasificación de proteínas que é esencialmente diferente do que tiña SCOP, pero que mantén as súas mellores características.

Estrutura xerárquica

A fonte de estruturas de proteínas é Protein Data Bank (PDB). A unidade de clasificación de estrutura en SCOP é o dominio proteico. O que entenden os autores de SCOP por "dominio" é suxerido pola afirmación que fan de que as proteínas pequenas e a maioría das proteínas de tamaño medio só teñen un dominio,^[5] e pola observación de que á hemoglobina humana,^[6] a cal ten unha estrutura α₂β₂, asígnanselle dous dominios SCOP, un para a subunidade α e outro para a β.

As formas dos dominios denomínanse "pregamentos" (folds) en SCOP. Os dominios que pertencen ao mesmo pregamento teñen as mesmas estruturas secundarias principais coa mesma disposición e coas mesmas conexións topolóxicas. Na versión 1.75 de SCOP danse 1195 pregamentos distintos. Tamén se dan descricións de cada un deles. Por exemplo, o pregamento "similar ao da globina" ou "de tipo globina" (globin-like) descríbese así corazón ou core: 6 hélices; folla pregada, parcialmente aberto. O pregamento ao que pertence o dominio determínase por medio dunha inspección, máis ben que facendo uso dun programa informático.

Os niveis de clasificación de SCOP son os seguintes:

Clase: Tipos de pregamentos, por exemplo, folla beta.
Pregamento: As diferentes formas de dominios dentro dunha clase.
Superfamilia: Os dominios nun pregamento están agrupados en superfamilias, as cales teñen polo menos un antepasado común distante.
Familia: Os dominios nunha superfamilia están agrupados en familias, que teñen un antepasado común máis recente.
Dominio proteico: Os dominios nas familias están agrupados en dominios proteicos, que son esencialmente a mesma proteína.
Especies: Os dominios nos "dominios proteicos" están agrupados segundo a especie de ser vivo.
Dominio: Parte dunha proteína. Para as proteínas simples, pode constituír a proteína enteira.

Os pregamentos están agrupados en "clases". As clases están no nivel superior, ou "raíz" da clasificación xerárquica de SCOP. As clases preséntanse en SCOP aproximadamente así:

Clases:

a. Proteínas todo alfa [46456] (284)

Dominios que consisen en hélices α

b. Proteínas todo beta [48724] (174)

Dominios que consisten en follas ß

c. Proteínas alfa e beta (a/b) [51349] (147)

Principalmente follas beta paralelas (unidades beta-alfa-beta)

d. Proteínas alfa e beta (a+b) [53931] (376)

Principalmente follas beta antiparalelas (rexións alfa e beta segregadas)

e. Proteínas multidominio (alfa e beta) [56572] (66)

Pregamentos que consisten en dous ou máis dominios que pertencen a diferentes clases

f. Proteínas e péptidos da membrana e superficie celular [56835] (58)

Non se inclúen as proteínas do sistema inmunitario

g. Pequenas proteínas [56992] (90)

Xeralmente dominadas por un ligando metal, hemo, e/ou pontes disulfuro

h. Proteínas con hélice superenrolada (coiled-coil) [57942] (7)

Non é unha verdadeira clase

i. Estruturas de proteínas de baixa resolución [58117] (26)

Péptidos e fragmentos. Non é unha verdadeira clase

j. Péptidos [58231] (121)

Péptidos e fragmentos. Non é unha verdadeira clase.

k. Proteínas deseñadas [58788] (44)

Estruturas experimentais de proteínas con secuencias esencialmente non naturais. Non é unha verdadeira clase.

O número entre corchetes, chamado "sunid", é un SCOP unique integer identifier (identificador enteiro único de SCOP) para cada nodo da xerarquía de SCOP. O número entre parénteses indica cantos elementos hai en cada categoría. Por exemplo, hai 284 pregamentos na clase "Proteínas todo alfa". Cada membro da xerarquía é unha ligazón ao seguinte nivel de xerarquía.

Como exemplo, os primeiros pregamentos do total de 284 pregamentos na clase de "Proteínas todo α" móstranse da seguinte maneira:

Pregamentos:

1. similares á globina (Globin-like) [46457] (2)

core: 6 hélices; folla pregada, parcialmente aberto

2. Forquita alfa longa [46556] (20)

2 hélices; forquita antiparalela, xiro á esquerda

3. dominio de dockerina de tipo I [63445] (1)

repetición en tándem de dous motivos bucle-hélice de unión ao calcio, distintos da man EF

Cada pregamento vai seguido dunha descrición dese pregamento.

Os dominios dun pregamento clasifícanse ulteriormente en superfamilias, as cales, á súa vez, son clasificadas en familias. Dentro dun pregamento, os dominios que pertencen á mesma superfamilia considérase que teñen un antepasado común. Porén, este antepasado considérase que é distante, porque os diferentes membros dunha superfamilia teñen identidades de secuencia baixas. Como exemplo, as dúas superfamilias do pregamento "similar á globina" móstranse da seguinte maneira:

Superfamilias:

Similar á globina (Globin-like) [46458] (4)
ferredoxina alfa helicoidal [46548] (2) contén dous grupos Fe4-S4

Non se dá descrición para a superfamilia "similar á globina", presumiblemente porque a súa descrición é moi similar á do pregamento do cal toma o nome.

As familias están máis estreitamente relacionadas que as superfamilias. Os dominios nun pregamento están situados na mesma familia atendendo á semellanza de secuencias e de funcións, de modo que se cumpre que

teñen polo menos un 30% de semellanza nas secuencias, ou, se non se cumpre iso,
se teñen algunha semellanza nas secuencias, por exemplo, o 15%, e realizan a mesma función.

A semellanza na secuencia e estrutura é unha proba de que esas proteínas teñen unha relación evolutiva máis próxima que as proteínas da mesma superfamilia. Utilízanse ferramentas de secuencia, como BLAST, para axudar a situar os dominios en superfamilias e familias. Como exemplo, as catro familias na superfamilia "similar á globina" móstranse da seguinte maneira:

Familias:

A hemoglobina truncada [46459] (6) carece da primeira hélice (A)
A mini-hemoglobina do tecido nervioso (globina neural) [74660] (1) carece da primeira hélice pero no resto dos aspectos é máis similar ás globinas convencionais do que o son as truncadas
Globinas [46463] (81) Proteína de unión ao hemo
Proteínas do ficobilisoma do tipo da ficocianina [46532] (26) oligómeros de dous diferentes tipos de subunidades similares á globina que conteñen dúas hélices extra no N-terminal únense a un cromóforo bilina

As familias de SCOP poden tamén denominarse usando unha cadea de caracteres de clasificación SCOP concisa, sccs, a cal pode ser, por exemplo, a.1.1.2 para a familia da "Globina". A letra identifica a clase á cal pertence o dominio; os seguintes números enteiros identifican o pregamento, a superfamilia, e a familia, respectivamente.^[7]

Dentro dunha familia están os dominios proteicos. As proteínas están situadas no mesmo dominio proteico se son isoformas unhas das outras, ou se son esencialmente a mesma proteína, pero procedente de diferentes especies de seres vivos. Isto normalmente faise de forma manual. Os "dominios proteicos" son subdivididos despois en especies. (Os "dominios proteicos" non están en páxinas separadas na actual versión de SCOP; pero en pre-SCOP, estaban en páxinas separadas.) Como exemplo, algúns dos 81 dominios proteicos da familia das "Globinas" móstranse aquí:

Dominios Proteicos:

7. Leghemoglobina [46481]

1. Chícharo de raposo amarelo (Lupinus luteus) [TaxId: 3873] [46482] (17)

2. Soia (Glycine max), isoforma A [TaxId: 3847] [46483] (2)

8. Hemoglobina de planta non simbiótica [46484]

1. Arroz (Oryza sativa) [TaxId: 4530] [46485] (1)

9. Hemoglobina, cadea alfa [46486]

1. Humanos (Homo sapiens) [TaxId: 9606] [46487] (192)

2. Humanos (Homo sapiens), isoforma zeta [TaxId: 9606] [68937] (1)

3. Cabalo (Equus caballus) [TaxId: 9796] [46488] (19)

4. Cervo (Odocoileus virginianus) [TaxId: 9874] [46489] (1)

O "TaxId" éo número ID de taxonomía; tamén é unha ligazón ao buscador taxonómico do NCBI, que proporciona máis información sobre as especies ás cales pertence a proteína.

Ao clicar nunha especie ou isoforma aparece unha lista de dominios. Como exemplo, algúns dos 192 dominios da proteína "Hemoglobina, cadea alfa de humanos (Homo sapiens)" móstranse aquí:

Dominios da Entrada PDB:

1. 2dn3

correspondencia automática con d1abwa1

en complexo con cmo, hem

1. rexión a:2-141 [131583]

2. 1ird

en complexo con cmo, hem

1. cadea a [66286]

3. 2dn1

correspondencia automática con d1abwa1

en complexo con hem, mbn, oxy

1. rexión a:2-141 [131577]

Ao clicar nos números PDB suponse que se mostra a estrutura da molécula, pero as ligazóns están actualmente rotas. (Esas ligazóns funcionaban en pre-SCOP.)

Exemplo

A maioría das páxinas de SCOP conteñen unha caixa de busca. O introducir na caixa o texto "trypsin +human" obteñense varias proteínas, como a proteína tripsinóxeno humana. Ao seleccionar esa entrada móstrase unha páxina que inclúe a "liñaxe", a cal está na parte superior da maioría das páxinas de SCOP. A páxina inclúe a seguinte información:

Liñaxe:

1. Raíz: scop

2. Clase: Proteínas todo beta [48724]

3. Pregamento: serina proteases similares á tripsina [50493]

barril, pechada; n=6, S=8; greca

duplicación: consta de dous dominios do mesmo pregamento

4. Superfamilia: serina proteases similares á tripsina [50494]

5. Familia: Proteases eucarióticas [50514]

6. Proteína: Tripsin(óxeno) [50515]

7. Especies: Humanos (Homo sapiens) [TaxId: 9606] [50519]

Se o texto de busca que se introduce é "Subtilisin" aparece a proteína "Subtilisina de Bacillus subtilis, carlsberg", coa seguinte liñaxe:

Liñaxe:

1. Raíz: scop

2. Clase: Proteínas alfa e beta (a/b) [51349]

Principalmente follas beta paralelas (unidades beta-alfa-beta)

3. Pregamento: Similares á subtilisina (Subtilisin-like) [52742]

3 capas: a/b/a, folla beta paralela de sete febras, orde 2314567; conexión de enlaces cruzados á esquerda entre as febras 2 & 3

4. Superfamilia: Similar á subtilisina [52743]

5. Familia: Subtilases [52744]

6. Proteína: Subtilisina [52745]

7. Especies: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

Aínda que ambas as proteínas son proteases, nin sequera pertencen ao mesmo tipo de pregamento, o cal concorda con que son un exemplo de evolución converxente.

Comparación con outros sistemas de clasificación

A clasificación SCOP depende máis de decisións manuais que a clasificación semiautomática por medio de CATH, o seu principal rival. Utilízanse expertos humanos para decidir se certas proteínas están relacionadas evolutivamente e, por tanto, deberían asignarse á mesma superfamilia, ou se a súa semellanza é o resultado de restricións estruturais e por esa razón pertencen ao mesmo tipo de pregamento. Outra base de datos chamada FSSP, é xerada de xeito totalmente automático (e con actualizacións automáticas periódicas) pero non ofrece unha clasificación, o que permite que o usuario tire a súa propia conclusión en canto ao significado das relacións estruturais baseadas en comparacións de pares de estruturas proteicas individuais.

Sucesores de SCOP

En 2009, a base de datos orixinal SCOP clasificaba manualmente 38000 entradas PDB nunha estrutura estritamente xerárquica. Coa aceleración que experimentou o número de publicacións sobre estruturas de proteínas, a limitada automatización da clasificación non podía manter a clasificación das mesmas ao mesmo ritmo, o que orixinou que o conxunto de datos xa non fose completo. En 2012 apareceu a base de datos Structural Classification of Proteins extended (SCOPe ou Clasificación Estrutural de Proteínas ampliada) que tiña unha moita maior automatización do mesmo sistema xerárquico e é totalmente compatible con SCOP. En 2014, a curación manual foi reintroducida en SCOPe para manter unha axeitada asignación de estruturas. En febreiro de 2015, SCOPe 2.05 clasificaba 71000 das 110000 entradas totais de PDB.^[8]

SCOP2 é un prototipo de sistema de clasificación que ten como obxectivo ter en conta a maior complexidade evolutiva inherente na evolución da estrutura das proteínas. Xa que logo, non é unha simple xerarquía, senón unha rede que conecta as superfamilias de proteínas que representan as relacións evolutivas e estruturais, como as permutacións circulares, fusión de dominios e decadencia de dominios. Consecuentemente, os dominios non están separados por unhas fronteiras estritamente fixadas, senón que se definen polas súas relacións coas outras estruturas que teñen máis similitude con elas. En febreiro de 2015, o prototipo SCOP2 clasificaba 995 entradas PDB.^[8]

Notas

↑ Andreeva, A.; Howorth, D.; Chandonia, J. -M.; Brenner, S. E.; Hubbard, T. J. P.; Chothia, C.; Murzin, A. G. (2007). "Data growth and its impact on the SCOP database: New developments". Nucleic Acids Research 36 (Database issue): D419–D425. PMC 2238974. PMID 18000004. doi:10.1093/nar/gkm993.
↑ Hubbard, T. J.; Ailey, B.; Brenner, S. E.; Murzin, A. G.; Chothia, C. (1999). "SCOP: A Structural Classification of Proteins database". Nucleic Acids Research 27 (1): 254–256. PMC 148149. PMID 9847194. doi:10.1093/nar/27.1.254.
↑ Lo Conte, L.; Ailey, B.; Hubbard, T. J.; Brenner, S. E.; Murzin, A. G.; Chothia, C. (2000). "SCOP: A Structural Classification of Proteins database". Nucleic Acids Research 28 (1): 257–259. PMC 102479. PMID 10592240. doi:10.1093/nar/28.1.257.
↑ Andreeva, A.; Howorth, D.; Brenner, S. E.; Hubbard, T. J.; Chothia, C.; Murzin, A. G. (2004). "SCOP database in 2004: Refinements integrate structure and sequence family data". Nucleic Acids Research 32 (90001): D226–D229. PMC 308773. PMID 14681400. doi:10.1093/nar/gkh039.
↑ Murzin, A. G.; Brenner, S.; Hubbard, T.; Chothia, C. (1995). "SCOP: A structural classification of proteins database for the investigation of sequences and structures" (PDF). Journal of Molecular Biology 247 (4): 536–540. PMID 7723011. doi:10.1016/S0022-2836(05)80134-2. Arquivado dende o orixinal (PDF) o 26 de abril de 2012. Consultado o 02 de outubro de 2015.
↑ PDB 2DN1; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (July 2006). "1.25 Å resolution crystal structures of human haemoglobin in the oxy, deoxy and carbonmonoxy forms". J. Mol. Biol. 360 (3): 690–701. PMID 16765986. doi:10.1016/j.jmb.2006.05.036.
↑ Lo Conte, L.; Brenner, S. E.; Hubbard, T. J.; Chothia, C.; Murzin, A. G. (2002). "SCOP database in 2002: Refinements accommodate structural genomics". Nucleic Acids Research 30 (1): 264–267. PMC 99154. PMID 11752311. doi:10.1093/nar/30.1.264.
↑ ^8,0 ^8,1 "What is the relationship between SCOP, SCOPe, and SCOP2". scop.berkeley.edu. Consultado o 2015-08-22.

Véxase tamén

Outros artigos

Aliñamento estrutural
CATH (outro sistema de clasificación de proteinas)
FSSP (outro sistema de clasificación de proteinas)
SUPERFAMILY
Pfam

Ligazóns externas

Structural Classification of Proteins
Structural Classification of Proteins ampliada (SCOPe) - O sucesor máis automatizado de SCOP
Structural Classification of Proteins 2 Arquivado 21 de setembro de 2015 en Wayback Machine. - O prototipo dun novo sistema de clasificación non xerárquico con representación máis detallada de relacións evolutivas complexas
pre-SCOP - A versión de desenvolvemento ou de presentación preliminar de SCOP que será a seguinte versión que sairá.
SUPERFAMILY Arquivado 17 de outubro de 2008 en Wayback Machine. - Library of HMMs representing SCOP superfamilies and database of (superfamily and family) annotations for all completely sequenced organisms
Protein Structure Classification - a book chapter that discusses different protein classifications in detail.

[NAR2007-1] Andreeva, A.; Howorth, D.; Chandonia, J. -M.; Brenner, S. E.; Hubbard, T. J. P.; Chothia, C.; Murzin, A. G. (2007). "Data growth and its impact on the SCOP database: New developments". Nucleic Acids Research 36 (Database issue): D419–D425. PMC 2238974. PMID 18000004. doi:10.1093/nar/gkm993.

[NAR1999-2] Hubbard, T. J.; Ailey, B.; Brenner, S. E.; Murzin, A. G.; Chothia, C. (1999). "SCOP: A Structural Classification of Proteins database". Nucleic Acids Research 27 (1): 254–256. PMC 148149. PMID 9847194. doi:10.1093/nar/27.1.254.

[NAR2000-3] Lo Conte, L.; Ailey, B.; Hubbard, T. J.; Brenner, S. E.; Murzin, A. G.; Chothia, C. (2000). "SCOP: A Structural Classification of Proteins database". Nucleic Acids Research 28 (1): 257–259. PMC 102479. PMID 10592240. doi:10.1093/nar/28.1.257.

[NAR2004-4] Andreeva, A.; Howorth, D.; Brenner, S. E.; Hubbard, T. J.; Chothia, C.; Murzin, A. G. (2004). "SCOP database in 2004: Refinements integrate structure and sequence family data". Nucleic Acids Research 32 (90001): D226–D229. PMC 308773. PMID 14681400. doi:10.1093/nar/gkh039.

[JMB1995-5] Murzin, A. G.; Brenner, S.; Hubbard, T.; Chothia, C. (1995). "SCOP: A structural classification of proteins database for the investigation of sequences and structures" (PDF). Journal of Molecular Biology 247 (4): 536–540. PMID 7723011. doi:10.1016/S0022-2836(05)80134-2. Arquivado dende o orixinal (PDF) o 26 de abril de 2012. Consultado o 02 de outubro de 2015.

[pmid16765986-6] PDB 2DN1; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (July 2006). "1.25 Å resolution crystal structures of human haemoglobin in the oxy, deoxy and carbonmonoxy forms". J. Mol. Biol. 360 (3): 690–701. PMID 16765986. doi:10.1016/j.jmb.2006.05.036.

[NAR2002-7] Lo Conte, L.; Brenner, S. E.; Hubbard, T. J.; Chothia, C.; Murzin, A. G. (2002). "SCOP database in 2002: Refinements accommodate structural genomics". Nucleic Acids Research 30 (1): 264–267. PMC 99154. PMID 11752311. doi:10.1093/nar/30.1.264.

[:0-8] 8,0 ^8,1 "What is the relationship between SCOP, SCOPe, and SCOP2". scop.berkeley.edu. Consultado o 2015-08-22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]