Saltar ao contido

NeRF

Na Galipedia, a Wikipedia en galego.

Un campo de radiación neural (NeRF, siglas en inglés de Neural Radiance Field) é un método baseado na aprendizaxe profunda ou deep-learning para formar unha representación tridimensional dunha escena a partir de imaxes bidimensionais. O modelo NeRF permite aprender a síntese de novas vistas (view synthesis), a xeometría da escena e as propiedades de reflectancia da mesma, facendo posible renderizar vistas fotorrealistas desde puntos de vista novos.

Introducido por primeira vez en 2020 por Google,[1] desde entón gañou unha atención significativa polas súas potenciais aplicacións en gráficos por ordenador e creación de contidos.[2] Aínda que o concepto foi creado en 2020, un feixe de papers popularizaron o método especialmente desde o 2022.[3] De feito, a revista Time considerou NeRF como unha das mellores invencións dese ano.[4]

Definición

[editar | editar a fonte]
Rede neural perceptrón multicapa (MLP de 4 capas).

O termo campo de radiación neural (introducido por Xie, Yiheng)[5] refírese a unha rede neural que parametriza unha sinal, que pode ser unha escena 3D ou un obxecto. Ademais, sinais do tipo auditivo (audios), imaxes e practicamente calquera outro input discreto ou continuo pode ser representado por NeRF.[6]

En física, o concepto de campo involucra o mapeo de cantidades e coordenadas. Campos como o electromagnético ou o gravitatorio adoptan a representación dunha coordenada xunto á cantidade , que comunmente é un vector, escalar ou tensor. Os campos de radiación neural de NeRF alimentan a rede neural coas coordenadas da escena a replicar coa meta de producir cantidades de campo e reconstruír o problema cos sucesivos procesos de optimización.

A aplicación máis célebre do método NeRF é a síntese de vistas, é dicir, reconstruír unha contorna 3D a través dun conxunto de datos bidimensionais (usualmente fotografías). Métodos tradicionais como a fotogrametría ou modernos como o splatting gaussiano son outras aproximacións neste campo. NeRF implica tomar mostras de moitos puntos ao longo dos raios da cámara, así que pode apoiarse en técnicas tradicionais de renderizado de volume para producir unha imaxe final.[1]

O campo de radiación neural esixe capturar unha soa escena ou contorna para axustar os pesos da rede neural de tipo perceptrón multicapa (MLP, MultiLayer Perceptron) de forma eficaz. O obxectivo é sobreaxustar a rede para codificar os datos de entrada.

Representación

[editar | editar a fonte]
Malla vóxel.

As representacións máis comúns dentro dos gráficos por ordenador son:

  • Mallas vóxel (sendo o vóxel a unidade cúbica mínima que compón un obxecto 3D, equivalente ao píxel 2D).
  • Mallas poligonais (conxunto de vértices, arestas e caras que definen a forma dun obxecto 3D).[7]

Cada unha destas representacións ten os seus propios inconvenientes:

  • Os vóxeles tenden a ser caros de almacenar.
  • As mallas poligonais están limitadas a certas superficies.
Golfiño representado por unha malla poligonal (polygon mesh).

A representación proposta por NeRF difire no sentido de que os campos de radiación neural son moito máis lixeiros (fácil almacenamento) e permiten formas e dimensións arbitrarias. Vóxel e mallas poligonais non son diferenciables e continuas, pero os campos neurais sí, ademais de ser independentes do dominio (aceptan todo tipo de input sempre que se codifique en vectores de entrada).

Algoritmo

[editar | editar a fonte]

O algoritmo NeRF representa unha escena como un campo de radiación parametrizado por unha rede neuronal profunda perceptrón multicapa (MLP). A rede predí unha densidade de volume e unha radiación emitida dependente da vista dada a localización espacial (x, y, z) e a dirección de visión en ángulos de Euler (θ, Φ) da cámara.

Campos neurais

[editar | editar a fonte]

De acordo a Neural Fields in Visual Computing and Beyond, os pasos a seguir nunha computación de campos neurais son os seguintes:

  1. Mostra de coordenadas da escena (datos de entrada recollidos nun vector).
  2. Execución da rede neural e cálculo de cantidades de campo.
  3. Reconstrución do dominio do problema.
  4. Mapeo da reconstrución ao sensor de partida (imaxes 2D RGB, son ou outro tipo de input).
  5. Cálculo do erro entre a reconstrución elaborada por NeRF e a escena orixinal. Sucesivas optimizacións da rede neural.

É conveniente distinguir entre a reconstrución do campo neural e a observación da escena a través dun sensor.

Observación do sensor

[editar | editar a fonte]

Sexan

  • conxunto de coordenadas observadas.
  • observación singular do sensor.
  • conxunto de medidas.
  • medida singular.

a transformación de coordenadas observadas en medicións.

Reconstrución do campo neural

[editar | editar a fonte]

Sexan

  • conxunto de coordenadas de entrada.
  • coordenada singular.
  • conxunto de cantidades de campo.
  • cantidade de campo.

a transformación de coordenadas de entrada en valores de campo da rede.

O mapeo completo entre a observación do sensor e a reconstrución neural resulta en:

De modo que o problema de optimización consiste en minimizar o erro de predición. Matematicamente:

Campos de radiación neural

[editar | editar a fonte]

A arquitectura NeRF céntrase en concreto na síntese de vistas (reconstrución 3D). NeRF enténdese como un caso concreto dos campos neurais descritos no apartado anterior. Na seguinte táboa móstrase a nova terminoloxía asociada a NeRF.

Equivalencias Neural Fields e NeRF
Concepto Notación Elemento en NeRF
Coordenada do sensor Imaxes 2D
Medición do sensor Radiación
Sensor Cámara dixital
Coordenada de entrada Localización (x, y, z) e densidade de volume
Cantidade de campo Cor (r, g, b) e dirección en ángulos de Euler (θ, Φ)
Campo Rede neural perceptrón multicapa (MLP)
Mapeo completo Renderizado 3D

NeRF require de coordenadas en cinco dimensións como entrada, sendo estas a compoñente espacial (x, y, z) e a dirección en ángulos de Euler (θ, Φ). A rede neural MLP recibe o vector 5D como input e devolve a intensidade de cor en RGB xunto á densidade de volume .

  • describe o efecto do punto na escena global. Pode entenderse como unha "probabilidade" intuitivamente que sinala a radiación do punto (a maior efecto, maior probabilidade de que a cor predita sexa correcta).
  • O output RGB é o valor devolto por NeRF que, posteriormente, é suxeito a procesos de renderizado de volume tendo en conta a distancia do raio e, finalmente, a función de perda (coñecida como rendering loss) que se optimiza ata conseguir o efecto desexado.

Optimización

[editar | editar a fonte]

O algoritmo NeRF é diferenciable, o que permite a comparación entre a saída da rede neural (output) e as imaxes de orixe (input) a través dunha función de perda. É común empregar a regularización L2, é dicir, ridge, para tratar a suma de cadrados dos pesos.[8]

sendo

  • Pesos .
  • Parámetro de penalización . Controla a forza de penalización. Valores altos forzan aos pesos a ser máis pequenos, simplificando o modelo.

Renderizado de volume

[editar | editar a fonte]

O renderizado volumétrico é unha parte fundamental do proceso, é dicir, obter novas imaxes bidimensionais a partir da saída 3D da rede neural.

Para NeRF é común empregar a técnica de "raio marchante" (ray marching) que, a diferenza do "raio trazado" (ray tracing) funciona correctamente para superficies suaves e condicións especiais de iluminación (néboas e formas sutís nas que os obxectos non están claramente delimitados).[9]

Visualización do método de ray marching por SDF (función de distancia con signo).

O raio marchante volumétrico traza raios co obxectivo de tomar mostras da cor e densidade ao longo do mesmo. Finalmente, combínanse todas as mostras na cor do píxel final. É un proceso iterativo, de modo que resulta necesario establecer os pasos ou "chanzos" que definen a frecuencia de mostraxe ao longo do raio. Cada iteración avanza en dirección ao obxecto ou superficie, ata que o proceso conclúe cerca do sólido.

Cada punto de mostraxe ten:

  • Localización espacial (x, y, z).
  • Cor
  • Densidade volumétrica .

As compoñentes necesarias para a expresión do raio son:

  1. Orixe (posición)
  2. Dirección
  3. Pasos ou chanzos .

Así, o raio de luz como función das súas compoñentes tería a seguinte expresión:

,

e tendo en conta que tanto a densidade como a cor dependen do propio raio, poderían escribirse así mesmo como e , respectivamente.

Integrando os raios obtéñense as cores finais de cada píxel.

Aplicacións

[editar | editar a fonte]

Os NeRF teñen unha ampla gama de aplicacións, entre as que se encontran:[10][11]

  • Creación de contidos. Os NeRF teñen un grande potencial na creación de contido con vistas fotorrealistas.[12] A tecnoloxía democratiza un espazo que antes só era accesible por equipos de artistas VFX con activos caros. Os campos de radiación neuronal permiten crear ambientes 3D atractivos co único requisito de posuír unha cámara.[10] NeRF pode combinarse con intelixencia articial xerativa, o que permite aos usuarios sen experiencia de modelaxe instruír cambios en escenas 3D fotorrealistas.[13] Os NeRF teñen usos potenciais na produción de vídeo, gráficos por ordenador e deseño de produtos.
  • Contido interactivo. O fotorrealismo dos NeRF posibilita o seu uso inmersivo en realidade virtual ou videoxogos. Os NeRF pódense combinar con técnicas de renderizado clásicas para inserir obxectos sintéticos e crear experiencias virtuais verosímiles.[14]
  • Tomografía 3D computarizada.
    Imaxe médica. Os NeRF foron utilizados para reconstruír tomografías computadorizadas 3D a partir de vistas de raios X escasas ou mesmo únicas. O modelo demostrou representacións de alta fidelidade dos datos de peito e xeonllos. De ser adopto, este método pode salvar aos pacientes de doses excesivas de radiación ionizante, permitindo un diagnóstico máis seguro.[15]

Robótica e autonomía

[editar | editar a fonte]

A capacidade dos NeRF para comprender obxectos transparentes e reflexivos fainos útiles para os robots que interactúan en tales ambientes. O uso de NeRF permitiu que un brazo robótico manipulase con precisión unha copa de viño transparente, unha tarefa na que a visión tradicional por ordenador tería dificultades.[16]

Os NeRF tamén poden xerar rostros humanos fotorrealistas ou avatares.[17]

  1. 1,0 1,1 Mildenhall, Ben; Srinivasan, Pratul P.; Tancik, Matthew; Barron, Jonathan T.; Ramamoorthi, Ravi; Ng, Ren (2020). Vedaldi, Andrea; Bischof, Horst; Brox, Thomas; Frahm, Jan-Michael, eds. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis". Computer Vision – ECCV 2020. Lecture Notes in Computer Science (en inglés) (Cham: Springer International Publishing): 405–421. ISBN 978-3-030-58452-8. doi:10.1007/978-3-030-58452-8_24. 
  2. "What is a Neural Radiance Field (NeRF)?". Definition from TechTarget; Enterprise AI (en inglés). Consultado o 2024-02-16. 
  3. "NeRF at CVPR 2022". Frank Dellaert (en inglés). 2022-06-21. Consultado o 2024-09-03. 
  4. "NVIDIA Instant NeRF: The 200 Best Inventions of 2022". Time (en inglés). 2022-11-10. Consultado o 2024-09-03. 
  5. "Neural Fields in Visual Computing and Beyond". arXiv. Consultado o 03/09/2024. 
  6. Karagiannakos, Sergios (2022-11-25). "How Neural Radiance Fields (NeRF) and Instant Neural Graphics Primitives work". AI Summer (en inglés). Consultado o 2024-09-03. 
  7. "Introduction to 3D Polygon Mesh - 3D Studio". Estudio 3D (en castelán). 2022-02-02. Consultado o 2024-09-03. 
  8. "regularization l2". Bing. Consultado o 2024-09-03. 
  9. Cem Yuksel (2022-04-13). "Interactive Graphics 25 - Volume Rendering". Consultado o 2024-09-03. 
  10. 10,0 10,1 Tancik, Matthew; Weber, Ethan; Ng, Evonne; Li, Ruilong; Yi, Brent; Wang, Terrance; Kristoffersen, Alexander; Austin, Jake; Salahi, Kamyar (2023-07-23). "Nerfstudio: A Modular Framework for Neural Radiance Field Development". ACM SIGGRAPH 2023 Conference Proceedings. SIGGRAPH '23 (New York, NY, USA: Association for Computing Machinery): 1–12. ISBN 979-8-4007-0159-7. doi:10.1145/3588432.3591516. 
  11. AI, Luma. "Luma AI". Luma AI (en inglés). Consultado o 2024-02-16. 
  12. "Shutterstock Speaks About NeRFs At Ad Week". Radiance Fields; radiancefields.com (en inglés). 2023-10-20. Consultado o 2024-02-16. 
  13. "InstructPix2Pix: Learning to Follow Image Editing Instructions". IEEE Xplore; ieeexplore.ieee.org; IEEE Conference Publication. doi:10.1109/cvpr52729.2023.01764. Consultado o 2024-02-16. 
  14. "Venturing Beyond Reality: VR-NeRF ; Radiance Fields". radiancefields.com (en inglés). 2023-11-08. Consultado o 2024-02-16. 
  15. "MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-ray". IEEE Conference Publication; IEEE Xplore; ieeexplore.ieee.org. doi:10.1109/embc48229.2022.9871757. Consultado o 2024-02-16. 
  16. Kerr, Justin; Fu, Letian; Huang, Huang; Avigal, Yahav; Tancik, Matthew; Ichnowski, Jeffrey; Kanazawa, Angjoo; Goldberg, Ken (2022-08-15). "Evo-NeRF: Evolving NeRF for Sequential Robot Grasping of Transparent Objects" (en inglés). 
  17. Aurora (2023-06-04). "Generating highly detailed human faces using Neural Radiance Fields". ILLUMINATION (en inglés). Arquivado dende o orixinal o 16 de novembro de 2023. Consultado o 2024-02-16. 

Véxase tamén

[editar | editar a fonte]

Outros artigos

[editar | editar a fonte]