Saltar ao contido

Aprendizaxe estatística

Na Galipedia, a Wikipedia en galego.
Axuste estatístico elaborado mediante o software R. Nel, trátase de predicir a variable "tempo mínimo entre erupcións" (eixo Y) a partir dos datos da variable explicativa "duración da erupción" (eixo X).

O campo da aprendizaxe estatística refírese ás ferramentas matemáticas empregadas para predicir ou estimar un resultado baseándose nunha serie de entradas; é dicir, obter output a partir de datos considerados input. Estas ferramentas considéranse supervisadas ou non-supervisadas segundo a disposición do output (nunha aprendizaxe estatística non-supervisada trátase de obter relacións e estruturar os datos, pois non se dispón de output para clasificalos). [1]

Cando os datos sometidos a análise involucran variables continuas ou cuantitativas, é común referirse ás técnicas de aprendizaxe estatística como ferramentas de regresión. Non obstante, tamén hai casos nos que o resultado a predicir non posúe un valor numérico (variables categóricas ou cualitativas). Este tipo de problemas considéranse de clasificación supervisada.

Respecto ás situacións nas que só temos datos de input sen relación aparente, é común agrupar aos individuos de estudo en grupos de acordo ás diferentes características observadas nas variables das que se dispón. O problema de agrupar individuos denomínase clustering e, a diferenza da clasificación supervisada, non trata de predicir o valor dunha variable, senón "xerar" o propio output nunha nova clasificación de individuos. Os grupos finais serán considerados clústers. Entre os diferentes métodos de agrupamento encóntranse os métodos de partición (algoritmo K-medias), os métodos xerárquicos e os caza-grupos (Mean-Shift, DBSCAN).

Para levar a cabo este tipo de análise, a estatística estuda miles de variables que esconden as verdadeiras relacións entre os datos ou individuos. Na aprendizaxe estatística é común facer uso de técnicas como compoñentes principais, que reducen significativamente a dimensión dos datos e melloran a visualización dos mesmos permitindo gráficos en dúas dimensións. Esta técnica supón a perda de certa variabilidade dos datos ao tratar de condensar múltiples variables nunhas poucas (na maioría dos casos dous).

O termo aprendizaxe estatística adoita asociarse ao auxe de sistemas complexos como redes neuronais e sistemas de intelixencia artificial que dispoñen de múltiples datos a través de Internet. Con todo, os seus sustentos teóricos orixináronse no século XIX de mans de diversos matemáticos e informáticos que, sen sabelo, abriron as posibilidades desta área de coñecemento.

A comezos do século XIX, Legendre e Gauss publicaron papers relacionados co célebre método de mínimos cadrados, que á súa vez abriu as portas do que se coñece como regresión linear. As primeiras aplicacións centráronse en problemas de astronomía, pero pronto empezaron a considerarse outras aproximacións. Entre elas, destaca a predición de valores cuantitativos, como o salario dun individuo dependendo da súa idade, sexo, localidade e estudos.

En canto á clasificación supervisada, Fisher propuxo o método de análise lineal discriminante en 1936. O obxectivo era predicir valores cualitativos, como a supervivencia dun paciente que padece unha enfermidade ou as subidas e baixadas do mercado. Nos anos 40 emerxeu unha formulación alternativa chamada regresión loxística. Nos 70's, Nelder e Wedderburn acuñaron o termo modelos lineais xeneralizados para referirse a unha familia enteira de métodos estatísticos.

Os escenarios non-lineais foron considerados como "problemáticos" para os científicos dos anos 70. Daquela, o axuste de métodos non-lineais non era factible computacionalmente. Afortunadamente, a tecnoloxía de computación dos anos 80 permitiu que Breiman, J. Friedman, Olshen e Stone introduciran ferramentas de clasificación e árbores de regresión. Entre as súas contribucións destacadas atópase a implementación práctica dos modelos así como a validación cruzada para seleccionar a mostra de adestramento e distinguila da de validación. No 1986, T. Hastie e R. Tibshirani acuñaron o termo modelos aditivos xeneralizados, que consisten en extensións non-lineais do modelo de regresión clásico.

A aprendizaxe automática aproveita a maoría de técnicas da estatística para mellorar o adestramento de modelos de regresión, clasificación e predición. Ademais, as técnicas estatísticas de análise da variabilidade dos datos permiten incrementar a eficiencia dos axustes e confeccionar mellores modelos.

Introdución

[editar | editar a fonte]

Os métodos de aprendizaxe estatística establecen as bases para:

A aprendizaxe ten dous obxectivos primordiais: inferencia e predición. Os problemas de aprendizaxe supervisada considéranse os máis sinxelos de entender e poñer en práctica.[2] Neles, cada punto do conxunto de adestramento é un par (entrada-saída) ou (x,y) no que a entrada ten asignada unha saída específica. Chámase "aprendizaxe" ao procedemento mediante o cal se infire a función que relaciona entrada e saída, de forma que dita función poida empregarse para predicir a saída de entradas futuras (sen saída previamente asignada).

Os problemas de aprendizaxe supervisada son problemas de regresión ou de clasificación estatística. A diferenza reside na saída.

  • Problema de regresión: saída cun rango continuo de valores.
  • Problema de clasificación: saída cun rango discreto de valores.

Por exemplo, unha regresión podería ter o obxectivo de encontrar a relación funcional entre a voltaxe de entrada e a intensidade de corrente da lei de Ohm.

Por outra banda, nunha clasificación a saída toma a forma dun conxunto discreto de etiquetas. Este tipo de problemas é máis común na aprendizaxe automática. O recoñecemento facial é un problema de clasificación onde a imaxe da cara dunha persoa funcionaría como entrada, e a etiqueta de saída sería o nome de identificación. Neste caso a imaxe de entrada tería que codificarse mediante un vector multidimensional onde cada elemento representa un píxel da devandita imaxe.

É recomendable que tanto regresión como clasificación aprendan sobre un conxunto de datos de adestramento e empreguen outro conxunto de datos (datos de proba ou validación) para predicir ou clasificar, coa intención de evitar fenómenos de sobreaxuste.[3]

Notación e álxebra esencial

[editar | editar a fonte]

Sexan as observacións dunha mostra xenérica, e o número de variables dispoñibles.

Dise que representa o valor da variable j-ésima para a observación i-ésima, con e .

Sexa

Para cada observación cóntase cun vector de lonxitude que contén os valores asociados ás variables para o individuo i-ésimo, é dicir

Por outra banda, defínese como a observación i-ésima da variable resposta (a que se pretende predicir). As observacións da variable escríbense nun vector como

Descrición matricial dun modelo multivariante .

Desta forma, as observacións completas consisten en sendo cada un vector de lonxitude .

Considérase, pois, cada columna da matriz como unha variable de input. A nomenclatura pode variar, pero o consenso é optar por un dos seguintes termos:

  • Predictor
  • Variable independente
  • Variable explicativa

Para , o común é empregar:

  • Resposta
  • Variable dependente
  • Variable explicada

Modelos de estimación

[editar | editar a fonte]

De observarse unha relación cuantitativa entre a variable resposta e os diferentes predictores, é común establecer unha relación entre e da forma

Sexa un termo de erro aleatorio, e a expresión dunha función descoñecida que actúa sobre .

Exemplo de axuste dos datos por regresión lineal.

A aprendizaxe estatística propón diferentes aproximacións á estimación de , algunhas delas amplamente coñecidas como a regresión linear. Non obstante, o por qué estimar presenta dúas situacións claramente diferenciadas: predición e inferencia.

Predición

[editar | editar a fonte]

En situacións nas que se conta coa matriz de datos , é común requirir do output no que se coñece como "predición da variable resposta". Pola hipótese de normalidade do erro , a predición de resulta

,

onde representa a estimación de e a predición para . A forma de é tipicamente descoñecida, e cada modelo en particular ocuparase de establecela. Así, en xeral enténdese como unha caixa negra.

Ao predicir, é importante distinguir entre dous tipos de erro: o reducible e o irreducible.

  • O erro reducible é potencialmente mellorable, xa que pode non ser un estimador perfecto de causando inexactitudes. Unha selección apropiada de técnicas de aprendizaxe estatística é capaz de mellorar a estimación e reducir este erro.
  • O erro irreducible é, como o seu nome indica, implícito ao propio modelo. Unha perfecta estimación da forma non podería reemplazar o papel de , pois é calculada en función do propio erro por definición.

O erro irreducible pode estar influenciado por variables que non se encontran entre as de , xa que a cantidade contén unha variación que non é posible medir.

Dada a predición , é demostrable que

sendo o valor esperado da diferenza cuadrática entre a resposta predita e o valor real de .

A varianza estatística de considerase a parte "irreducible" da expresión.

Inferencia

[editar | editar a fonte]

Cando o obxectivo da análise non é predicir a partir de senón achar a forma en que a variable resposta é afectada polas variables, fálase de inferencia. toma o papel de caixa negra e a meta é obter a súa forma exacta. O método co que proceder depende dunha serie de cuestións.

  • Preditores asociados á resposta (identificar os máis importantes).
  • Relación entre a resposta e cada preditor.
  • Linealidade ou non-linealidade da relación entre e cada preditor (repercute directamente na complexidade do modelo).

Clasificación de métodos

[editar | editar a fonte]

Os métodos de aprendizaxe estatística buscan aprender do conxunto de datos de adestramento para estimar a función descoñecida , é dicir, atopar tal que para calquera observación .

Métodos paramétricos

[editar | editar a fonte]
  1. Asunción de forma para . O máis sinxelo é asumir que é lineal en . Exemplo:.
  2. Adestramento ou axuste do modelo. No caso lineal, será suficiente con estimar os coeficientes , é dicir, . Para tal caso, adóitanse empregar métodos como mínimos cadrados.

O concepto de modelo paramétrico simplifica estimar a estimar un conxunto de parámetros. Con todo, córrese o risco de sobresimplificar o problema ao tentar encaixar a estimación nunha forma de non verdadeira.

Os modelos flexibles son máis complexos ao tratar diferentes formas funcionais para . En xeral, incurren en overfitting (sobreaxuste) e adáptanse demasiado ao ruído dos datos.

Métodos non-paramétricos

[editar | editar a fonte]
  1. Non asunción de forma explícita para .
  2. Procura de estimacións sen restriccións de forma.

A principal desvantaxe é que se requiren de moitas observacións para poder atopar unha estimación precisa. Unha posible aproximación son as TPS (Thin Plate Splines) baseándose en interpolación e smoothing, mais o risco de sobreaxuste aumenta considerablemente.

Explicabilidade

[editar | editar a fonte]

Por que empregar métodos restritivos fronte aos que permiten maior flexibilidade?

A estimación de expón dúbidas en canto á aproximación a tomar, que pode ser flexible ou restritiva. Un caso disto último sería a regresión linear, onde só podemos xerar rectas de regresión. Outros modelos como as TPS permiten un axuste a un rango amplo de formas. Con todo, os modelos restritivos adóitanse interpretar moito máis facilmente. Se a inferencia é o obxecto do estudo estatístico, restrinxir a forma simplifica a comprensión da relación entre e as variables .

De feito, modelos de regresión como o lasso favorecen a interpretación dos resultados ao tratar de establecer varios dos coeficientes a cero. En cambio, dentro dos modelos aditivos xeneralizados (siglas GAM, de Generalized Additive Models en inglés) proponse unha flexibilidade maior que permite relacións non-lineais. Pola contra, estas adoitan ser moito máis difíciles de explicar, onde a relación entre cada predictor e a resposta é unha curva.

SVMs (Support Vector Machines), bagging e boosting funcionan como kernels non-lineais que dificultan a interpretación dos modelos á conta de ser máis flexibles.

Aprendizaxe supervisada e non supervisada

[editar | editar a fonte]

As dúas categorías principais nas que recaen a maior parte de problemas de aprendizaxe estatística son aprendizaxe supervisada e aprendizaxe non supervisada.

Supervisada

[editar | editar a fonte]

Cando para cada observación temos unha resposta asociada, fálase dun problema de aprendizaxe supervisada se o obxectivo para futuras observacións é predicir o valor da variable resposta. Entre os diferentes métodos a empregar atópanse:

Non supervisada

[editar | editar a fonte]

Nunha situación na que se dispón dun vector de medidas sen resposta asociada, fálase de aprendizaxe non supervisada se a intención é xuntar as observacións (datos iniciais) en grupos. Unha das principais técnicas é o clustering, que aínda que pode resultar sinxelo para dúas variables, resulta en diagramas de dispersión para variables, o que dificulta en gran medida a identificacións dos clústers.

Semisupervisada

[editar | editar a fonte]

No caso de contar cun conxunto de datos ( observacións) cun subconxunto dos mesmos para os que se dispón dos valores da variable resposta, desas observacións non contan cun valor da resposta. O conxunto de datos podería considerarse, pois, a base dun problema de aprendizaxe semisupervisada.

Precisión de modelos

[editar | editar a fonte]

A precisión (accuracy) dun modelo estatístico trata de medir a mellor aproximación no momento de seleccionar un procedemento de aprendizaxe.

Erro cuadrático medio (MSE)

[editar | editar a fonte]

Mide a calidade do axuste cuantificando a media das diferenzas cuadráticas entre os valores reais () e as predicións .

,

con pequeno cando a resposta predita está próxima ao valor real.

No obstante, o de adestramento resulta poco útil a propósitos de análise. O obxectivo é aplicar esta medida sobre datos completamente novos e comprobar a desviación da predición respecto ao valor real, non sobre datos que xa coñecemos polo proceso de adestramento.

É dicir, para observacións de adestramento

compútase e se comparan cos valores reais da resposta .

Mais a comprobación

non é de interese, senón minimizar a diferenza aproximada entre e .

Así,

para observacións test do tipo resulta unha medida de precisión máis adecuada que o de adestramento.

Non obstante, contar con datos de test é unha dificultade engadida ao problema, polo que comunmente recórrese ao método de validación cruzada para estimar o de test empregando parte do conxunto de datos de adestramento.

Nesgo-Varianza

[editar | editar a fonte]

É posible descompoñer o esperado para un certo valor como a suma de tres cantidades.

Contribucións de nesgo e varianza ao erro total da predición.

.

  • funciona como o de test esperado.
  • Ao estimar repetidamente para todos os valores posibles de contidos no conxunto de datos de test obtense o total de validación.
  • A descomposición en Nesgo e Varianza establece que para minimizar o erro esperado de test é necesario un método estatístico de aprendizaxe que aspire a baixa varianza e baixo nesgo (ambas as cantidades sempre son non negativas).

Ademais, o esperado nunca estará por baixo de

  • Varianza: cantidade na que cambiaría se estimásemos cun conxunto de datos de adestramento diferente.
  • Nesgo: erro introducido pola aproximación dun problema real que non é modelable de forma sinxela.

Por regla xeral, os métodos flexibles aumentan a varianza e diminúen o nesgo. O balance Nesgo-Varianza (bias-variance trade-off) é unha medida do axuste dun modelo, pois é sinxelo atopar métodos con alta varianza e nesgo baixo (unha curva que pasase por cada punto das observacións) ou viceversa (liña horizontal aos datos).

Taxa de erro

[editar | editar a fonte]

Con non numérico (é dicir, variable resposta cualitativa) o concepto de balance Nesgo-Varianza tradúcese a un problema de clasificación.

Cóntase con oservacións con variables cualitativas.

Así, a precisión mídese coa taxa de erro

con variable indicadora tal que se , 0 noutro caso.

Cando a observación clasificouse correctamente.

Non obstante, o previamente descrito é o erro de adestramento, mais o que resulta de maior interese para medir a precisión do modelo é o erro de test, o cal se asocia cun conxunto de observacións da forma .

Sexa a clase predita para o individuo . Deste modo

emprégase como clasificador.

A forma máis común de minimizar a taxa de erro nun problema de clasificación é mediante o clasificador de Bayes, que asigna a cada observación a clase á que é máis probable que pertenza baseándose nos valores preditos dados. É dicir, localizar a clase que fai

(probabilidade condicionada)

o valor máis alto posible.

  • Exemplo con dúas clases: bastaría con saber se . En caso afirmativo, a predición sería a primeira clase. En caso contrario, a segunda .

A taxa de erro bayesiana global resulta , e é análoga ao erro irreducible.

Representación do método de K-vecinos pretos (K-nearest neighbors).

K-vecinos pretos (KNN)

[editar | editar a fonte]

Cabe a posibilidade de que se descoñeza a distribución condicional de dado . Isto imposibilita calcular a taxa de erro a través do clasificador de Bayes.

A aproximación máis habitual é estimar a distribución condicional de coñecido e, posteriormente, asignar á observación con probabilidade máis alta.

Dado un enteiro positivo e unha observación test , o clasificador KNN identifica os puntos do conxunto de datos de adestramento máis próximos a . Considérese este conxunto.

,

estima a probabilidade condicionada para a clase como a fracción de puntos de que teñen valores de resposta iguais a .

Despois, o algoritmo de KNN procede aplicando a regra de Bayes e clasificando a observación de test () na clase que conte coa maior probabilidade.

Regularización

[editar | editar a fonte]
Sobreaxuste (overfitting). Os puntos vermellos representan os datos do conxunto de adestramento, a liña verde a relación funcional verdadeira que seguen os datos e a liña azul a función "aprendida" (sobreaxustada aos datos de adestramento).

Un dos problemas máis importantes da aprendizaxe automática é o sobreaxuste. O obxectivo da maior parte de procesos de aprendizaxe é predicir, pero ás veces non convén encontrar a función que máis se axuste os datos previamente observados, senón unha que prediga ben datos futuros.

  • O sobreaxuste é síntoma de solucións inestables, onde unha pequena perturbación nos datos do conxunto de adestramento provoca unha gran variación na función aprendida.
  • Unha solución estable (función que non incurre en overfitting) garantiza xeneralidade e coherencia.[4][5]

A regularización pode resolver o problema do sobreaxuste e estabilizar o problema.

  • Unha forma sería restrinxir o espazo de hipóteses a funcións lineais (limita o problema á regresión linear).
  • Alternativamente, solucións de maior complexidade consisten no emprego de polinomios de grao , exponenciais ou funcións limitadas en .

Restrinxir o espazo de hipótese evita o sobreaxuste porque limita a forma das funcións e impide elixir unha función de risco empírico arbitrariamente preto a cero.

Un exemplo de regularización é a regularización de Tíjonov. Nela, minimízase:

sendo a función de perda escollida e un parámetros de regularización (positivo e fixo).[6]

Limitación do risco empírico

[editar | editar a fonte]

Considerando un clasificador binario , pódese aplicar a desigualdade de Hoeffding para limitar a probabilidade de que o risco empírico tome unha desviación do risco real a unha distribución subgaussiana.

Por regra xeral, a minimización empírica do risco non obriga a empregar un clasificador, senón que hai que elixilo. Por tanto, é útil limitar a probabilidade do supremo da diferenza sobre toda a clase.

Onde

  • número de fragmentación.
  • número de mostras do conxunto de datos de adestramento.

O termo exponencial procede de Hoeffding, pero hai un custo adicional por tomar o supremo sobre toda a clase, o devandito número de fragmentación.

  1. James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert, eds. (2013). An introduction to statistical learning: with applications in R. Springer texts in statistics. New York: Springer. ISBN 978-1-4614-7137-0. OCLC 828488009. 
  2. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). Statisical Learning Theory and Applications. Class 1.
  3. "Clasificación en machine learning: Introducción". DataCamp. Consultado o 04/09/2024. 
  4. Vapnik, V.N (1971). "On the uniform convergence of relative frequencies of events to their probabilities". Theory of Probability and Its Applications 16. 
  5. Mukherjee, Sayan; Niyogi, Partha; Poggio, Tomaso; Rifkin, Ryan (2006-07). "Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization". Advances in Computational Mathematics (en inglés) 25 (1-3): 161–193. ISSN 1019-7168. doi:10.1007/s10444-004-7634-z. 
  6. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). Statistical Learning Theory and Applications. Class 2.

Véxase tamén

[editar | editar a fonte]

Bibliografía

[editar | editar a fonte]

Outros artigos

[editar | editar a fonte]