Saltar ao contido

Gráfica de dispersión

1000 12/16
Na Galipedia, a Wikipedia en galego.

Gráfica de dispersión
Unha das sete ferramentas básicas da calidade
Primeiro descrito por John Herschel
Finalidade Identificar o tipo de relación (se existe) entre dúas variábeis cuantitativas
Tempo de espera entre as erupcións e a duración da erupción para o Old Faithful Geyser no Parque Nacional de Yellowstone, Wyoming, EUA. Esta gráfica suxire que xeralmente hai dous tipos de erupcións: de curta espera, de curta duración e de longa espera, de longa duración.
Un diagrama de dispersión 3D permite a visualización de datos multivariados. Esta gráfica de dispersión toma varias variábeis escalares e utilízaas en diferentes eixos no espazo. As diferentes variábeis combínanse para formar coordenadas no espazo e móstranse mediante puntos coloreadas.[1]

Unha gráfica de dispersión, tamén chamado diagrama de dispersión,[2] é un tipo de gráfica ou diagrama matemático que utiliza coordenadas cartesianas para mostrar valores dun conxunto de datos usualmente de dúas variábeis. Se os puntos están codificados (cor/forma/tamaño), pódese mostrar unha variábel adicional. Os datos móstranse como unha colección de puntos, tendo cada un o valor dunha variábel que determina a posición no eixo horizontal e o valor da outra variábel que determina a posición no eixo vertical.[3]

A primeira descrición da gráfica de dispersión atribúese xeralmente a John Herschel (1792–1871).[4][5]

Visión xeral

[editar | editar a fonte]

Unha gráfica de dispersión pódese utilizar cando unha variábel continua está baixo o control do experimentador e a outra depende dela ou cando ambas as dúas variábeis continuas son independentes. Se existe un parámetro que é incrementado e/ou decrementado sistematicamente polo outro, denomínase parámetro de control ou variábel independente e adoita representarse ao longo do eixo horizontal. A variábel medida ou dependente adoita representarse ao longo do eixo vertical. Se non existe ningunha variábel dependente, pódese representar calquera tipo de variábel en calquera dos eixos e unha gráfica de dispersión ilustrará só o grao de correlación (non causalidade) entre dúas variábeis.

Unha gráfica de dispersión pode suxerir varios tipos de correlacións entre variábeis cun determinado intervalo de confianza. Por exemplo, o peso e a altura estarían no eixo y e a altura no eixo x. As correlacións poden ser positivas (ascendente), negativas (descendentes) ou nulas (sen correlación). Se o patrón dos puntos inclínase desde a parte inferior esquerda á parte superior dereita, indica unha correlación positiva entre as variábeis que se estudan. Se o patrón de puntos inclínase da esquina superior esquerda cara a inferior dereita, indica unha correlación negativa. Pódese trazar unha liña de mellor axuste (denominada alternativamente "liña de tendencia") para estudar a relación entre as variábeis. Por tanto pódes determinar unha ecuación para a correlación entre as variábeis mediante a liña de tendencia. Para unha correlación linear, o procedemento de mellor axuste coñécese como regresión linear e está garantido que xera unha solución correcta nun tempo finito. Non se garante ningún procedemento universal de mellor axuste para xerar unha solución correcta para relacións arbitrarias.

Un diagrama de dispersión tamén é moi útil cando queremos ver como dous conxuntos de datos comparábeis coinciden para mostrar relacións non lineares entre variábeis. A capacidade de facelo pódese mellorar engadindo unha liña suave como regresión local.[6] A maiores, se os datos se representan mediante un modelo mixto de relacións simples, estas relacións serán visualmente evidentes como patróns superpostos.[cita necesaria]

Por exemplo, para mostrar un vínculo entre a capacidade pulmonar dunha persoa e o tempo que esa persoa podería aguantar a respiración, un investigador escollería un grupo de persoas para estudar, despois mediría a capacidade pulmonar de cada unha (primeira variábel) e canto tempo podería aguantar a respiración esa persoa (segunda variábel). A continuación, o investigador representaría os datos nun diagrama de dispersión, asignando "capacidade pulmonar" ao eixo horizontal e "tempo para reter a respiración" ao eixo vertical. 

Unha persoa cunha capacidade pulmonar de 400 que aguantou o alento durante 21.7 representaríase cun único punto na gráfica de dispersión no punto (400, 21.7) nas coordenadas cartesianas. A gráfica de dispersión de todas as persoas do estudo permitiría ao investigador obter unha comparación visual das dúas variábeis do conxunto de datos e axudará a determinar que tipo de relación pode haber entre as dúas variábeis.

Matrices de gráfica de dispersión

[editar | editar a fonte]

Para un conxunto de variábeis de datos (dimensións) X1, X2, ... , Xk, a matriz da gráfica de dispersión mostra todos os diagramas de dispersión por parellas das variábeis nunha única vista con múltiples diagramas de dispersión nun formato de matriz. Para k variábeis, a matriz de diagrama de dispersión conterá k filas e k columnas. Unha gráfica situada na intersección da fila e da columna j é unha gráfica de variábeis Xi fronte a Xj. [7] Isto significa que cada fila e columna é unha dimensión e cada cela representa unha gráfica de dispersión de dúas dimensións. 

Visualización de datos 3D xunto coa matriz de dispersión correspondente
  1. Visualización creada con visita a wci.llnl.gov. actualizado: 8 novembro de 2007.
  2. Jarrell, Stephen B. (1994). Basic Statistics (Special pre-publication ed.). Dubuque, Iowa: Wm. C. Brown Pub. p. 492. ISBN 978-0-697-21595-6. 
  3. Utts, Jessica M. Seeing Through Statistics 3rd Edition, Thomson Brooks/Cole, 2005, pp 166-167. ISBN 0-534-39402-7
  4. Friendly, Michael; Denis, Dan (2005). "The early origins and development of the scatterplot". Journal of the History of the Behavioral Sciences 41 (2): 103–130. PMID 15812820. doi:10.1002/jhbs.20078. 
  5. https://www.datavis.ca/papers/friendly-scat.pdf
  6. Cleveland, William (1993). Visualizing data. Murray Hill, N.J. Summit, N.J: At & T Bell Laboratories Published by Hobart Press. ISBN 978-0963488404. 
  7. Scatter Plot Matrix at itl.nist.gov.

Véxase tamén

[editar | editar a fonte]

Bibliografía

[editar | editar a fonte]
  • Cattaneo, Matias D.; Crump, Richard K.; Farrell, Max H.; Feng, Yingjie (2024). "On Binscatter". American Economic Review. 114 (5): 1488–1514.

Outros artigos

[editar | editar a fonte]

Ligazóns externas

[editar | editar a fonte]