Estimación de exposición y vulnerabilidad sísmica empleando técnicas de aprendizaje automático con datos tomados por sensores remotos: aplicaciones en Lorca (España) y Puerto Príncipe (Haití)

Torres Fernández, Yolanda

2021-A
Descargar PDF

Resumen

Según el informe de CRED/UNISDR (2016), más de la mitad de las víctimas mortales causadas por los desastres naturales en los últimos 20 años se debieron a terremotos. A través del Marco de Sendai, la ONU promueve la implantación de medidas orientadas a la reducción del riesgo
de desastres (DRR) que está justificada por dos razones, principalmente: (1) las amenazas naturales están siendo más frecuentes y mortales con el paso de los años; y (2) la vulnerabilidad de las áreas urbanas va en aumento. Se insta, por tanto, a los países a trabajar por una mejora
de la resiliencia de sus ciudades y comunidades.
En ese sentido, con esta tesis se pretende avanzar en la explotación de los datos disponibles para optimizar los procesos de comprensión y caracterización de la vulnerabilidad sísmica del entorno urbano. El desarrollo que las tecnologías geoespaciales han experimentado en las
últimas décadas ha hecho posible incorporarlas a estos estudios. Sin embargo, a pesar de que se obtienen resultados satisfactorios en la caracterización de la edificación, aun no se ha valorado, de una manera robusta, la aplicabilidad de esos resultados en los estudios de riesgo
sísmico.
Por tanto, en la presente investigación se ha evaluado si es viable técnica y económicamente estimar la exposición y la vulnerabilidad sísmica de una ciudad por medio de técnicas de observación terrestre e incorporar el resultado a un estudio de riesgo. Se han realizado sendas
aplicaciones en dos escenarios muy distintos: Lorca y Puerto Príncipe. En ambas ciudades, se han analizado datos tomados por sensores remotos siguiendo las fases diseñadas en el procedimiento metodológico: (1) se ha estratificado la ciudad en patrones urbanos; (2) se han
extraído las huellas de los edificios y los atributos que conforman la base de datos de exposición; y (3) se les ha asignado un modelo de vulnerabilidad empleando técnicas de aprendizaje automático. Se ha prestado especial atención a la cuantificación de las incertidumbres inherentes a todos los procesos de análisis y se ha estudiado su impacto en un cálculo de daños por sismo. Finalmente, se ha comparado el coste de este tipo de estudios con el de los procedimientos tradicionales basados en realizar inspecciones de edificios in situ.
Toda la investigación se ha realizado con datos abiertos que no han supuesto ningún coste. Se han empleado imágenes de satélite Landsat, ortofotos de alta resolución, LiDAR y datos catastrales. Para la verificación de los resultados de todas las fases del análisis se ha contado
con bases de datos de referencia generadas en investigaciones anteriores de otros autores y cedidas para este estudio.
En el escenario de Lorca, se ha trabajado en una zona del centro histórico y otra de ensanche. Se han identificado un total de 5 tipologías constructivas: 2 de edificios de mampostería y 3 de hormigón armado. La clasificación de más de 800 edificios en estas tipologías se ha conseguido con precisiones globales del 82% (en las zonas del centro) y del 90% (en el ensanche). Tras asignar a cada tipo de edificio el modelo de vulnerabilidad que mejor reproduce su desempeño sísmico, se ha calculado un escenario de daños correspondiente a un sismo simulado de Mw =
5.2 con epicentro a 4 km al norte de la ciudad. La comparación de estos daños con los que se obtienen con la base de datos de vulnerabilidad de referencia arroja un MAPE del 4%. En Puerto Príncipe, se ha trabajado con más de 6000 edificios en áreas de muestra de toda la ciudad, ubicadas en zonas Residenciales, Urbanas, Rurales y asentamientos Informales. Se han identificado 4 tipologías constructivas: 2 de edificios de mampostería y madera y otras 2 de hormigón armado. Los modelos predictivos de clasificación de tipologías alcanzan precisiones globales entre el 74%-88%, según la zona. A cada tipología se le ha asignado un modelo de vulnerabilidad y se ha calculado un escenario de daños tras simular un sismo de Mw = 7.0 a 20 km de la ciudad. La comparación de los daños obtenidos con el mejor modelo de exposición y los que se obtienen al usar los datos de vulnerabilidad de referencia deja un MAPE también del 4%.
Estos valores bajos de error parecen demostrar que las incertidumbres encadenadas en los procesos previos de generación de huellas, cálculo de atributos y clasificación de tipologías tienen un impacto mínimo en la estimación de daños por sismo. Son resultados altamente satisfactorios, que permiten responder positivamente a la hipótesis de investigación sobre la viabilidad técnica del uso de las bases de datos creadas por teledetección en estudios de riesgo. Finalmente, se ha llevado a cabo un análisis comparativo del coste de este tipo de estudios para evaluación de la exposición y la vulnerabilidad sísmica y el coste que conlleva la realización de una campaña de campo para el mismo fin. La información sobre el coste de las campañas de campo ha sido proporcionada por 12 expertos internacionales con base en su propia experiencia. De la comparación se deduce que el análisis de datos tomados por sensores remotos permite obtener un producto comparable al que se obtendría en campo, pero por un 10%-30% de su precio y empleando, como mucho, un tercio del tiempo, lo que avala la viabilidad económica de estos estudios.
Como aporte final de esta investigación, se propone un procedimiento de 5 fases para generar bases de datos de exposición y vulnerabilidad de alta calidad a nivel de edificio, que combina teledetección y campañas de campo dirigidas optimizando recursos y coste.

Abstract

More than half of the causalities caused by disasters (related to natural hazards) during the last 20 years were due to earthquakes (CRED/UNISDR, 2016). The UN, through the Sendai Framework, fosters the implantation of measurements for Disaster Risk Reduction (DRR). This
is based on two factors: (1) the increase in the frequency and mortal impact of natural hazards and (2) the rise of the vulnerability conditions in urban areas. Hence, all countries are urged to work toward the improvement of the resilience of cities and communities.
In this sense, this dissertation aims at expanding knowledge on the exploitation of available data to optimize the processes of understanding the earthquake vulnerability of the built environment. Earth Observation (EO) technologies have been successfully incorporated in
these studies during the past decade. However, despite good results are achieved in building characterization, it has not been robustly valued yet the applicability of these results to a seismic risk study.
Thus, in the present research it is examined the technical and economic viability of assessing the urban exposure and seismic vulnerability by means of Earth Observation techniques and incorporating the results in a risk study. Two applications are performed in cities that present
significant differences regarding extension and complexity: Lorca (Spain) and Port Prince (Haiti).
In both cities, data acquired by remote sensors are analyzed according to the stages designed in the methodological procedure: (1) stratification of the city into homogeneous urban patterns; (2) building footprint extraction and attribute calculation to implement the exposure database; and (3) vulnerability model allocation using machine learning techniques followed by an estimation of earthquake damage. Special attention is paid to the quantification of the uncertainties inherent in all the steps of the analysis and their impact on the final results of damage. Finally, the cost of this procedure is compared to the cost of traditional approaches based on in-field building inspections.
The entire research is developed with open data that have do not imply any monetary cost. The data includes Landsat satellite images, high-resolution orthophotos, LiDAR and cadastral data. Reference databases generated in previous studies by other authors (and provided to this
study) are used for the verification of the results obtained in all the phases of the analyses.
In the scenario of Lorca, the work is carried out in one area of the historic center and a sprawl of the city. A total of five building typologies are identified: two of masonry and three of reinforced concrete. The classification of more than 800 buildings is achieved with global
accuracies of 82% and 90% for the historic center and the sprawl, respectively. After assigning to each building the vulnerability model that best reproduces its seismic performance, it is calculated the damage scenario corresponding to a Mw 5.2 earthquake with epicenter located
4 km to the North of the city. The comparison of these result with those obtained with the reference vulnerability database gives a MAPE of 4%.
In Port Prince, the work is done over more than 6000 buildings in sampling areas of the entire city, located in residential, urban, rural and informal settlements. Four building typologies are identified: two of masonry and timber and another two of reinforced concrete. The predictive
models for classification of typologies reach global accuracies of 74%-88%, depending on the zone. Each typology is assigned a vulnerability model and it is computed a damage scenario after simulating a Mw = 7.0 earthquake located 20 km East of the city. The comparison of the
damage obtained with the best exposure model and those obtained using the reference vulnerability data gives also a MAPE of 4%.
These low error values seem to demonstrate that the uncertainties involved in the previous processes of footprint generation, attribute determination and typologies classification have a minimum impact on the estimation of earthquake damage. They are highly satisfactory results,
which allow giving an affirmative answer to the research hypothesis on the technical viability of using exposure and vulnerability databases created by means of EO techniques in seismic risk studies.
Finally, the cost of an in-field survey to collect exposure and vulnerability data is compared to the cost of creating the same database using remote sensing techniques. The latter has been derived from this study, while the former has been provided by twelve international experts
based on their own experience. From the comparison, it is deduced that the analysis of remotely sensed data provides a product that is comparable to the one obtained in the field, but for a 10%-30% of its monetary cost and consuming about one third of the total time, which avails the economic feasibility of these studies.
As a final contribution of this research, it is proposed a five-stage procedure to generate highquality, building-scale exposure and vulnerability databases that combines remote sensing and directed in-field surveys that allows for optimization of resources and cost.

Índice

Bloque 1 ……………………………………………………………………………. 15
1 Introducción ………………………………………………………………………. 17
1.1 Marco conceptual …………………………………………………………………. 21
1.2 El problema de la evaluación de la vulnerabilidad sísmica …………………………….. 23
1.3 Motivación y alcance ……………………………………………………………… 27
1.4 Contexto y antecedentes …………………………………………………………… 29
2 Estado del arte ……………………………………………………………………. 33
2.1 Modelos de exposición …………………………………………………………….. 33
2.2 Modelos de vulnerabilidad …………………………………………………………. 38
2.3 Técnicas de teledetección aplicadas a la caracterización de edificios ………………….. 41
3 Hipótesis de la investigación y objetivos …………………………………………….. 49
Bloque 2 ……………………………………………………………………………. 53
4 Propuesta metodológica ……………………………………………………………… 55
4.1 Introducción …………………………………………………………………….. 55
4.2 Procedimiento metodológico ………………………………………………………… 55
4.2.1 Fase 1: Estratificación de la ciudad ……………………………………………… 55
4.2.1.1 Segmentación de la imagen ……………………………………………………… 57
4.2.1.2 Clasificación de los segmentos …………………………………………………. 58
4.2.1.3 Verificación de los resultados de clasificación ………………………………….. 63
4.2.2 Fase 2: Creación de la base de datos de Exposición …………………………………. 66
4.2.2.1 Generación de las huellas de los edificios ………………………………………. 66
4.2.2.2 Verificación del número de huellas ……………………………………………… 68
4.2.2.3 Cálculo de los atributos ………………………………………………………. 68
4.2.2.4 Verificación de los atributos ………………………………………………….. 72
4.2.3 Fase 3: Clasificación de tipologías y asignación de la vulnerabilidad sísmica …………. 72
4.2.3.1 Elección del modelo de vulnerabilidad y clasificación de tipologías
constructivas. ………………………………………………………………………. 72
4.2.3.2 Verificación de los resultados de clasificación de los edificios en MBT …………….. 73
Bloque 3 ……………………………………………………………………………. 75
5 Aplicación del procedimiento diseñado en dos escenarios ………………………………… 77
5.1 Aplicación en Lorca, España ……………………………………………………….. 77
5.1.1 Área de estudio y datos …………………………………………………………. 78
5.1.2 Proceso de cálculo diseñado para Lorca. Resultados y análisis. ………………………. 82
5.1.2.1 Fase 1: estratificación de la ciudad de Lorca ……………………………………. 82
5.1.2.2 Fase 2: creación de la base de datos de exposición de Lorca ……………………….. 86
5.1.2.3 Fase 3: clasificación de tipologías constructivas y asignación de la
vulnerabilidad sísmica a los edificios de Lorca. ………………………………………… 98
5.1.3 Estimación de tiempos y costes……………………………………………………. 105
5.1.4 Estimación del daño a partir de los datos obtenidos ………………………………… 107
5.1.5 Sumario y conclusiones de la aplicación en Lorca …………………………………… 110
5.2 Aplicación en Puerto Príncipe, Haití ……………………………………………….. 115
5.2.1 Área de estudio y datos …………………………………………………………. 117
5.2.2 Proceso de cálculo diseñado para Puerto Príncipe. Resultados y análisis. ……………… 123
5.2.2.1 Fase 1: estratificación del escenario de Puerto Príncipe ………………………….. 125
5.2.2.2 Fase 2: creación de la base de datos de exposición de Puerto Príncipe ………………. 137
5.2.2.3 Fase 3: clasificación de tipologías constructivas y asignación de la
vulnerabilidad sísmica a los edificios de Puerto Príncipe ………………………………… 151
5.2.2.4 Extrapolación al resto del área de estudio ………………………………………. 160
5.2.3 Estimación de tiempos y costes……………………………………………………. 163
5.2.4 Estimación del daño a partir de los datos obtenidos ………………………………… 164
5.2.5 Sumario y conclusiones de la aplicación en Puerto Príncipe ………………………….. 173
6 Análisis comparativo de costes: estudio por teledetección Vs. campaña de campo ……………. 181
Bloque 4 ……………………………………………………………………………. 189
7 Sumario, discusión y conclusiones generales …………………………………………… 191
8 Summary, discussion and main conclusions ……………………………………………… 203
9 Líneas futuras …………………………………………………………………….. 213
Bloque 5 ……………………………………………………………………………. 215
10 Referencias ………………………………………………………………………. 217
11 Glosario de términos y acrónimos ……………………………………………………. 231
12 Anexos …………………………………………………………………………… 237

Conclusiones

7 Sumario, discusión y conclusiones generales El propósito general de esta tesis es comprobar si es viable, técnica y económicamente, la incorporación de las bases de datos de exposición y vulnerabilidad generadas por teledetección en los estudios de riesgo sísmico. Es de especial interés cuantificar las incertidumbres y los
costes asociados. Con base en una serie de objetivos planteados para dar cumplimiento a este propósito, se ha diseñado un procedimiento metodológico en tres fases, que se ha aplicado en dos escenarios urbanos muy distintos en extensión y en complejidad: Lorca y Puerto Príncipe.
En ambas ciudades, se han analizado datos tomados por sensores remotos siguiendo las fases diseñadas: (1) se han identificado los patrones urbanos; (2) se han extraído las huellas de los edificios y los atributos que conforman la base de datos de exposición; y (3) se les ha asignado
un modelo de vulnerabilidad empleando técnicas de aprendizaje automático. Finalmente, se han realizado sendos cálculos de daño por sismo en escenarios simulados. Todos los pasos han sido exhaustivamente verificados. Siempre que ha sido posible, la fuente de referencia ha sido
una base de datos independiente.
El enfoque en cada escenario es diferente. En Lorca, se pretende diseñar un procedimiento que sea rápido de implementar y replicable en otras ciudades de España, de cara a los más de 700 planes municipales de prevención ante el riesgo sísmico que la Directriz Básica de Planificación
de Protección Civil ordena que deben hacerse (DBPC, 2004). Esto motiva el uso de datos que ya estén disponibles y den cobertura a todo el territorio nacional, además de evitar intensivas tareas de refinamiento en post-proceso o manuales. En Puerto Príncipe, interesa diseñar un
procedimiento que permita abarcar grandes extensiones y que sea replicable en otras ciudades cercanas a la falla de Enriquillo, dado que se ha demostrado que aún está cargada con potencial suficiente como para generar un terremoto similar al de 2010 (Symithe y Calais, 2016). Las dos
ciudades elegidas son muy diferentes y plantean retos en todas las fases del procedimiento metodológico, que se han abordado de manera distinta en función de los datos disponibles y el enfoque. Por este motivo se propone que los procedimientos que se diseñen sean lo más flexibles posible para poder adaptarse a las particularidades de cada escenario (Torres et al., 2019b). Las diferentes técnicas de análisis empleadas en cada escenario se detallan en la Figura 5-4 y la Figura 5-26. La revisión del estado del arte (sección 2 y Anexo II) mostraba que, a pesar de haberse desarrollado numerosos estudios en este campo en los últimos 10-15 años, aún quedan preguntas por responder. Estas preguntas están relacionadas con la forma de integrar los datos tomados por sensores remotos, con el proceso de muestreo, con la flexibilidad del procedimiento metodológico, con la aplicabilidad de los resultados y con la verificación de los mismos. En la presente tesis se ha tratado de dar respuesta a estas preguntas, contribuyendo así a la construcción del conocimiento en este campo.
A continuación, se presentan las principales conclusiones extraídas del desarrollo de esta tesis (marcadas en negrita), en relación con los objetivos planteados. 1. Sobre el acceso a las fuentes de datos y su integración.
En noviembre de 2010, el Dr. David Lallemant fue el ponente principal del workshop organizado por The Information Products Laboratory for Emergency Response, parte del Chester F. Carlson Center for Imaging Science. Lallemant habló de cómo la publicación de datos espaciales horas después del terremoto de Haití ocurrido el 10 de enero de 2010 estaba haciendo posible la estimación de los daños y la priorización de la distribución de la ayuda: “With all this data there was an outpouring of data products and a huge willingness of people to give their time and effort,” Lallemant says. “And because the data was open, they could do that.”20 “Con todos estos datos, hubo una efusión de productos derivados y una gran disposición de la gente a aportar su tiempo y su esfuerzo”, dice Lallemant. “Y pudieron hacerlo porque los datos eran abiertos”.
Pero sus palabras dicen más. Expresan la transformación social que se produce cuando las personas tienen acceso a datos abiertos: “están dispuestas a dar su tiempo y su esfuerzo”. En particular para la ciencia, es de vital importancia contar con datos que hagan posible la
investigación y permitan avanzar en el conocimiento. En esta tesis, todas las fuentes de datos utilizadas son abiertas y, gracias a eso, ha sido
posible realizar la investigación, contrastar las hipótesis y alcanzar los objetivos planteados. Aunque parte del software empleado es propietario, se ha ido creando en paralelo un código con Python que reproduce todo el proceso de análisis. Este código ha sido publicado
en abierto en Github (Arredondo, 2019) y, junto con el uso de software libre de SIG, permite la reproducción del estudio sin coste adicional en programas informáticos. En el escenario de Lorca, se han empleado parcelas del Catastro, LiDAR y ortofotos del PNOA, así como una imagen Landsat OLI8 del repositorio EarthExplorer. En cuanto a la evaluación de estas fuentes, no han supuesto ningún coste económico para el proyecto, han sido fácilmente accesibles (el Catastro, a través de INSPIRE, y el PNOA no requieren ni siquiera registro), e idóneas en relación con resoluciones, formato y extensión. Esto se ha conseguido probar con éxito un nuevo uso para los datos del PNOA. Además, el CNIG ha publicado recientemente un nuevo producto, el Mapa LiDAR, creado a partir de LiDAR clasificado con alta precisión para toda España, lo que refuerza el enfoque del escenario de Lorca de contar con datos actualizados con cobertura nacional. Este dataset podría ahor ar la parte de clasificación del LiDAR, lo que reduciría considerablemente el tiempo de análisis (1 día de 5. Sección 5.1.3). La fuente de referencia fue elaborada en una tesis doctoral previa (Martínez-Cuevas, 2014) y ha sido posible reutilizarla de nuevo en esta investigación. El reaprovechamiento de los datos abre las puertas a nuevos desarrollos. Esta opinión es compartida por otros autores (e.g. Geiss y Taubenböck, 2013) y por la comunidad científica, en general. Con objeto de contribuir a esta corriente, todos los datos generados en esta tesis serán publicados en OpenStreetMap y Mendeley, y serán reutilizados en futuros proyectos y en docencia. De ahí la importancia del segundo objetivo que propone alinear el formato de las bases de datos de exposición aquí generadas con alguna taxonomía reciente para garantizar su interoperabilidad. En consecuencia, los
atributos generados siguen las indicaciones de la taxonomía de clasificación de edificios del proyecto RIESGOS, que es la más reciente y completa.En el escenario de Puerto Príncipe, se han empleado ortofotos y LiDAR del RIT, una imagen Landsat TM y dos bases de datos de referencia, una oficial (del MTPTC de Haití) y otra generada en un proyecto de investigación previo (Corbane et al., 2011). De nuevo, se ha contado con datos oficiales y de investigaciones previas, todos ellos publicados en abierto o aportados para esta tesis, que no han supuesto ningún coste económico. Además, han resultado idóneos en formato, resolución y extensión. Existe una limitación con la base de datos ministerial, y es que adolece de cierta falta de completitud y su acceso abierto no está garantizado. En ambos escenarios se ha utilizado LiDAR como fuente de datos tridimensional para resolver el problema de la altura de las edificaciones. Si se revisa el estado del arte (Anexo II), se puede comprobar que muy pocos autores han recurrido a esta fuente, siendo más habitual el uso de DEM derivados de SAR. A pesar de que las resoluciones del Radar van mejorando, los estudios que se han realizado en este campo han trabajado con resoluciones de 12 m, 5 m y 1 m. El LiDAR supera estos valores, con densidades mínimas del orden de 1 pto/m2 (de hecho, el LiDAR empleado en Haití tiene más de 3 pto/m2).
Finalmente, es importante remarcar el potencial que supone para un país tener fuentes de datos institucionales abiertas. Los casos del Catastro y el PNOA de España, que recibió un premio de la ONU en 2013, o el repositorio EarthExplorer del USGS, son claros ejemplos de ello. Hay que
mostrar que, lejos de suponer un perjuicio para el país, contribuyen a su desarrollo y a su posicionamiento internacional.
2. Sobre el cálculo de atributos para confeccionar las bases de datos de exposición y vulnerabilidad.
Los procesos de generación de huellas de edificios son motivo de discusión en la comunidad científica (e.g. Qi et al., 2017). Algunos autores invierten tiempo en generar segmentaciones semi-automáticas anidadas o multi-nivel (Bruzzone y Carlin, 2006; Soille, 2009; Geiss et al., 2016; 2017) que conllevan un análisis más intensivo y un refinamiento en post-proceso; otros, en cambio, prefieren directamente digitalizar las huellas, reportando mejores precisiones y tiempos de pocas horas en conseguir varios miles de edificios (Su et al., 2015; Qi et al., 2017).
En esta tesis se han aplicado ambos métodos en el escenario de Haití, y segmentación en el caso de Lorca, seguida de selección de segmentos con LiDAR. Esta innovadora combinación tiene importantes ventajas respecto al OBIA, como que se consigue tener la vegetación clasificada en distintos rangos de altura, no se pierden segmentos por ser clasificados como sombra, ya que esta clase no existe cuando se trabaja con LiDAR, y se identifican segmentos correspondientes a objetos singulares, como puentes. A las huellas digitalizadas se les ha llamado regulares, e irregulares a las segmentadas. La conclusión que se extrae es que cada método presenta ventajas e inconvenientes y no es posible afirmar que uno es mejor que el otro. Hay que mantener el procedimiento lo suficientemente flexible como para poder elegir el más adecuado en cada caso de estudio.
 La segmentación es más rápida y se pueden cubrir grandes extensiones sin incurrir apenas en más tiempo de procesado. Sin embargo, se ha podido comprobar en este estudio que da mejores resultados si se realiza de forma estratificada, es decir, con diferentes parámetros en cada patrón urbano. Esto, que además de haberse comprobado aquí, resulta muy razonable, no es aplicado en general por otros autores. El gran inconveniente de la segmentación que no se ha resuelto aún, y está probablemente lejos de resolverse, es la sobre-segmentación de objetos. Es la principal fuente de incertidumbre en este procedimiento, ya que la segmentación es el primer paso del cual parte el resto de la aplicación. Además, se ha comprobado que los resultados obtenidos con las huellas irregulares son siempre de peor calidad que los obtenidos con las huellas regulares (sin que por ello resulten inválidas). El problema de sobre-segmentación se da en todos los estudios citados en el estado del arte que han recurrido a esta técnica. Algunos autores lo resuelven incorporando segmentos mayores de un nivel superior (o dos) de la segmentación anidada, pero se corre el riesgo de agrupar segmentos pequeños en objetos a los que no pertenecen. En caso de utilizar una segmentación para obtener los
edificios, en esta tesis se propone encontrar un tamaño de segmentos que permita un acuerdo entre el número de objetos que se generan y su tamaño. Es decir, si el número de segmentos supera al de edificios reales (que es lo habitual), al menos que no sean demasiado pequeños. Y es que, si el área de los segmentos es demasiado pequeña, se desvirtúa el concepto de edificio y no saldrían bien clasificados de los modelos de
predicción de tipología constructiva que utilizan el área como atributo. Conseguir una segmentación que cree una máscara de área construida precisa permitiría realizar el estudio de riesgo sísmico en términos de área construida, en lugar de en número de edificios. Esto es una solución innovadora al problema de la sobresegmentación de edificios en este campo de aplicación, que no había sido propuesta en la comunidad científica hasta ahora.Es conveniente recordar que en este estudio se ha comprobado que la inclusión del dato de altura en la segmentación mejora significativamente los resultados de la clasificación de objetos final, con precisiones globales que pasan de estar por debajo
del 70% a estar por encima del 90% (precisiones finales en la Figura 5-62).  La digitalización, en cambio, proporciona resultados muy precisos para las huellas de los edificios, pero no es escalable a grandes extensiones de terreno en tiempos razonables. Para cubrir grandes áreas, en esta tesis se propone la digitalización estratificada de huellas en áreas de muestra y la posterior extrapolación del número de edificios a través del valor de la densidad obtenido mediante un remuestreo con bootstrap. En el escenario de Haití se han alcanzado resultados
satisfactorios sobre la base de datos de referencia del ministerio, con errores porcentuales en la estimación del número de edificios menores del 10% en los estratos que se pueden considerar más completos (el Residencial y los dos Urbanos). Un registro de tiempos de digitalización ha permitido demostrar que se pueden digitalizar entre 5 y 13 edificios por minuto (incluyendo el etiquetado del material del tejado), en línea con lo reportado por Qi et al. (2017). El número de huellas generado por segmentación ha sido verificado por comparación con la base de datos de referencia en Lorca, y por comparación con las huellas digitalizadas, en Puerto Príncipe. La segmentación de las zona del Centro en Lorca no ha resultado muy satisfactoria por la complejidad en las formas de los tejados. No se ha dedicado más tiempo a su refinamiento, ya que se cuenta con huellas catastrales para todo el territorio nacional y no es necesario generarlas automáticamente. En Puerto Príncipe, en cambio, donde no hay una base de datos de huellas de edificios oficial y abierta, la segmentación ha adquirido un papel más relevante al considerarse como única fuente probable en caso de replicar este estudio en otras ciudades del país. En consecuencia, se ha obtenido un número de huellas más
equiparable con el número de edificios real, al que supera en una media del 25% (Figura 5-62). Los edificios más sobre‐segmentados son los de las zonas Residenciales. Este dato es relevante en sí mismo, pues permite tomar la decisión de descartar la segmentación en esas zonas y dirigir hacia ellas los trabajos de digitalización, que resultarían muy reducidos. O bien, establecer una regresión o un factor de conversión (de 1/1.25) para estimar el número de edificios a través del número de huellas segmentadas.
En este paso de generación de huellas, así como en los siguientes, se ha podido comprobar la eficacia de trabajar de manera estatificada en patrones urbanos, a pesar de no ser lo habitual. Esto, que se ha mencionado para el caso de la segmentación, también se aplica a otros
procesos como la clasificación del LiDAR o el cálculo de los modelos predictivos de tipologías. En Lorca se ha trabajado en zonas de muestra que están en 3 de los 5 patrones identificados en la ciudad: Ensanche, con edificios multifamiliares, principalmente; y dos zonas del centro
histórico (Centro A, con edificios de mayor tamaño, y Centro B, con edificios más pequeños). En Puerto Príncipe, se ha trabajado en 5 patrones: Residencial, Urbano Regular (con calles más bien rectas y viviendas de tamaño medio), Urbano Irregular (con calles sinuosas y viviendas más pequeñas), Rural e Informal (infraviviendas). Los edificios, la red viaria y la vegetación tienen características distintas en cada estrato, y precisamente esas diferencias ayudan a mejorar los resultados de los procesos de análisis. En otras palabras, los parámetros máximos y mínimos (relativos a áreas, alturas, orientaciones, distancias, etc.) de los objetos (edificios, árboles, calles, etc.) son particulares en cada patrón urbano y es más acertado establecerlos por separado. Además, trabajar de manera estratificada permite extraer mejores conclusiones e identificar y localizar problemas, que pueden darse en un patrón urbano, pero en otro no. Una de las preguntas que se han abordado en esta tesis tiene que ver con la forma de realizar el proceso de muestreo para las clasificaciones. La pregunta surge por las diferentes aproximaciones que se pueden encontrar en la literatura, donde la mayoría de los autores toman las muestras de manera aleatoria (e.g Geiss et al., 2016; Riedel et al., 2014; Mück et al., 2013) y muy pocos los hacen de forma manual (e.g Wieland et al, 2012a). Generalmente hacen numerosas pruebas de entrenamiento de modelos con números de muestras que van desde varias decenas a cientos (Matsuka et al., 2012; Costanzo et al., 2016), pero rara vez optan por
modelos entrenados con pocas muestras. En este estudio, se han probado ocho datasets con diferente configuración en cuanto al número y tipo de muestras, al proceso de selección de estas y al equilibrio entre clases para clasificar los patrones urbanos en la estratificación de Puerto
Príncipe (sección 5.2.2.1). El resultado permite concluir que se obtienen mejores precisiones con datasets equilibrados y con muestras del mismo tipo en las fases de entrenamiento y verificación. Esto plantea un reto cuando se entrenan modelos con una fuente de datos y después se verifican con otra, algo que se ha abordado también en esta tesis obteniendo resultados robustos (clasificación de MBT en Puerto Príncipe). Del experimento, se vio también que los resultados no varían mucho cuando las muestras se eligen aleatoria o manualmente, lo que abre la puerta al muestreo manual, siempre que se consiga recoger en la muestra toda la variabilidad presente en la población. La preferencia por datasets equilibrados también se ha comprobado aun cuando la distribución real de las clases es muy dispar, como ocurre en las tipologías constructivas de Puerto Príncipe (sección 5.2.2.3). El cálculo de los atributos es el paso siguiente a la creación de las huellas de los edificios. Un principio importante para esta tesis ha sido la separación del concepto de exposición y el de vulnerabilidad. Por ello, la base de datos de exposición es un resultado con valor por sí solo (Figura 5-10 y Figura 5-41). Hay autores que clasifican las tipologías constructivas
directamente desde el análisis espectral de la imagen (Borfecchia et al., 2010; Geiss et al., 2015) empleando centenares de atributos. Esto da lugar a modelos que no son comprensibles y a resultados de clasificación de edificios en MBT cuyos atributos más relevantes han pasado a un
segundo plano. Los mayoría de los atributos incluidos en las bases de datos de esta tesis han sido adaptados a la taxonomía del proyecto RIESGOS. Algunos son sencillos de calcular, como los referentes a la posición y forma de las huellas (área, coordenadas planimétricas del centroide, grado de compacidad); otros han necesitado algún cálculo adicional (orientación, elongación, posición relativa en la manzana); y otros han requerido un proceso elaborado que desencadena, a su vez, otros procesos de análisis. Se trata de la altura, la inclinación del tejado (para obtener su forma) y los materiales de este. La altura se deriva del dato tridimensional, que es el LiDAR en esta tesis. El LiDAR ha de ser clasificado previamente, si no viene clasificado de origen. En este estudio se ha empleado para ese fin el algoritmo TOD que ha sido validado en un contexto internacional, quedando segundo en el ranking (una descripción más completa puede encontrarse en Torres et al., 2019a). La mediana de las alturas de los puntos LiDAR clasificados como edificio que caen dentro de cada huella ha sido el estadístico utilizado para aproximar la altura de los edificios. Para la pendiente, se ha utilizado la media de las pendientes de los triángulos del TIN creado dentro de cada huella con estos mismos puntos. En cuanto al material de las cubiertas, en Haití se ha obtenido por OBIA tras la segmentación y, en el caso de las
huellas digitalizadas, etiquetándolo manualmente (metálico y de hormigón). Una innovación destacable introducida aquí ha sido la inclusión de una banda ráster creada a partir de la intensidad del LiDAR para la clasificación OBIA de los tejados de Puerto Príncipe (además de la de alturas, que ya se viene utilizando). Con este dato, agregado a la composición de bandas RGB+SWIR+altura, se han podido distinguir los tejados por su material (hormigón y metal) en el 83% de las más de 6000 instancias. En Lorca, donde no se ha realizado un análisis OBIA ni se ha digitalizado, ha sido necesario calcular un modelo predictivo para obtener el material del tejado en función de los otros atributos (ordenados por su poder discriminante: número de plantas, coordenadas del centroide, área y pendiente del tejado).
En todos los casos posibles, los atributos se han verificado exhaustivamente. Las precisiones pueden consultarse en la Figura 5-20 y Figura 5-62. El resultado es una base de datos de exposición en cada escenario que recoge las características (atributos) de cada edificio, a nivel individual, y que pueden emplearse para analizar su vulnerabilidad sísmica, como en este caso, o como base para trabajar en su vulnerabilidad ante otros peligros naturales. 3. Sobre la clasificación de tipologías constructivas (MBT) En Lorca se han identificado dos tipologías predominantes, de acuerdo con los autores de la base de datos de referencia (Martínez-Cuevas, 2014; Martínez-Cuevas et al., 2017): edificios de mampostería sin reforzar (M) y edificios de hormigón armado (RC). En Puerto Príncipe, también se han agrupado en dos, con base en estudios previos (Molina et al., 2014; Torres et al., 2016) y en línea con otros autores (Hancilar et al., 2013): edificios de mampostería y madera
(MAndW) y edificios de hormigón armado (RC). Cada una de estas tipologías, ha sido subdividida en función del número de plantas.
La clasificación de los edificios en tipologías constructivas es el paso previo a la asignación de un modelo de vulnerabilidad a través de modelado predictivo usando técnicas de aprendizaje automático. De todos los atributos calculados aquí, sólo se han empleado los de mayor poder
discriminante para la clasificación de MBT. Esta decisión está fundamentada en la premisa de crear modelos de predicción que sean sencillos y comprensibles, de manera que se puedan extraer conclusiones sobre qué atributos son los que más influyen en la clasificación y sopesar el coste-beneficio de obtenerlos. Así, se ha podido comprobar que la clasificación de las MBT en Lorca está basada en los atributos altura y ocalización; mientras que en el escenario de Puerto Príncipe, son la altura y el material del tejado los atributos fundamentales. La obtención de estos atributos no ha sido directa en este estudio, pero se pueden plantear a futuro nuevas vías más rápidas de obtenerlos. Por ejemplo, para la altura, el LiDAR ya se podrá descargar clasificado del CNIG para los estudios en España; y para el tejado, podría probarse si un OBIA es más rápido y eficaz, como ha ocurrido en Haití, que un modelo predictivo, como en Lorca. Para la zona Centro de Lorca, se obtiene una precisión global (OA) en la clasificación de MBT del 82% con un modelo generado por regresión logística (Figura 5-20). En Puerto Príncipe, los modelos creados con SVM y kernel PUK han permitido alcanzar una OA del 75% para huellas irregulares y del 79% para las regulares (Figura 5-62). En ambos escenarios, los errores provienen, principalmente, de falsos positivos de mampostería, que introducen más edificios de esta tipología en la base de datos de los que realmente hay. Los modelos aquí generados alcanzan precisiones del mismo orden, e incluso superiores, que las obtenidas por otros autores en estudios similares (ver tabla comparativa del Anexo II); y presentan la ventaja añadida de utilizar un número muy reducido de atributos (2 en el caso de Lorca y 3‐5 en el de Puerto Príncipe).
En cuanto a las técnicas de aprendizaje automático utilizadas para crear los modelos predictivos, se han comparado diferentes algoritmos para tratar de responder a la pregunta habitual de cuál es el mejor clasificador. El hecho de utilizar relativamente pocos atributos ha permitido probar técnicas como la regresión logística o las redes Bayesianas (incluso naïve Bayes), que son más sencillas de calcular y, sobre todo, de interpretar, que los SVM. En la mayoría de los casos, el desempeño de las técnicas sencillas iguala, o incluso, supera al de las
más sofisticadas. La regresión logística ha resultado ser uno de los clasificadores más potentes, además de ser muy transparente y de fácil interpretación. Se ha comprobado que los SVM son muy sensibles al sobre‐ajuste, pues los modelos predictivos para MBT creados con estos algoritmos son los que más precisión pierden en las fases de verificación en relación a las de entrenamiento. Se han probado tres kernels diferentes para crear los modelos con SVM: polinómico, RBF y PUK. Este último, que ha sido introducido hace relativamente pocos años (Üstün et al., 2006), no había sido probado en este campo hasta ahora, lo que supone una innovación aportada en este estudio. De hecho, el SVM creado con kernel PUK es el clasificador que mejores precisiones proporciona en casi la totalidad de los casos.
4. Sobre la asignación de vulnerabilidad y cálculo de daños por sismo A cada tipología constructiva identificada se le ha asignado el modelo de vulnerabilidad sísmica que mejor puede describir su comportamiento ante una sacudida sísmica. En Lorca, a la tipología M se le ha asignado el modelo M3, y a la tipología RC, el modelo RC1, ambos de Lagomarsino y Giovinazzi (2006). En Puerto Príncipe, se han tomado los modelos de
vulnerabilidad del trabajo previo de Molina et al. (2014), asignando el modelo CM-UM a la tipología MAndW, y el RC-CB a la tipología RC. En cada modelo de vulnerabilidad se han considerado los distintos rangos de alturas, subdividiendo los edificios de cada tipología según el número de plantas. En total, han resultado 5 MBT para Lorca (2 de M y 3 de RC) y 4 MBT para Puerto Príncipe (2 de MAndW y 2 de RC).
En cada escenario, se ha simulado un sismo y se han estimado los daños utilizando el método analítico I-DCM (secciones 5.1.4 y 5.2.4). En Lorca, el evento simulado es de Mw = 5.2 y su epicentro se ha ubicado a unos 4 km al norte del área de estudio. En Puerto Príncipe, es de Mw = 7.0 y se he localizado a unos 20 km al este de la ciudad. En los cálculos, se ha mantenido todo constante (parámetros del sismo, suelo, modelo de tenuación, modelos de vulnerabilidad, definiciones de grados de daño y metodología) y solo se ha variado el input de vulnerabilidad:
(1) base de datos de referencia; (2) bases de datos estimadas en este estudio con huellas regulares y con irregulares, siempre que ha sido posible. Esto permite hacer una comparación precisa del impacto, únicamente, de las incertidumbres de la evaluación de la vulnerabilidad en
el cálculo del daño. En el escenario de Lorca, la comparación de daños totales arroja un MAPE del 4% para las huellas regulares de las zonas del Centro (Figura 5-20); en Puerto Príncipe, es del 4%, cuando se comparan las huellas regulares con la referencia, y del 8% en el caso de las irregulares (Figura 5-62). En un desglose detallado de los daños por tipologías y por alturas, se aprecia que las mayores diferencias se dan en el daño nulo y ligero. Estos grados de daños son los que menor influencia tienen en el cálculo de los indicadores más críticos de riesgo sísmico.
Estos valores bajos de error parecen demostrar que las incertidumbres encadenadas en los procesos previos de generación de huellas, cálculo de atributos y clasificación de tipologías tienen un impacto mínimo en la estimación de daños por sismo. Son resultados altamente satisfactorios, que permiten responder positivamente a la hipótesis de investigación sobre la viabilidad técnica del uso de las bases de datos creadas por teledetección en estudios de riesgo. Si se analizan las tipologías por separado, se puede observar que los errores por falso positivo de mampostería se reflejan en un aumento del número de este tipo de edificios, como era de esperar. Sin embargo, hay más edificios de mampostería tanto dañados como no dañados, es decir, no se alteran los patrones de daños en ninguno de los escenarios. En cuanto a la separación de daños por altura de las edificaciones, no se aprecian diferencias reseñables.
Con las huellas irregulares de Puerto Príncipe, que presentaban un 25% de error porcentual en la estimación del número de edificios, pero un error menor (del 12%) en la estimación del área construida, se ha realizado un cálculo de daños en términos de área. Es la alternativa que se presenta para la estimación del riesgo sísmico en casos como este, o más extremos, en los que el número de huellas obtenido por procesos semi-automáticos no permita aproximar el número de edificios de forma precisa, pero sí el área construida.
Con la extrapolación de la distribución de edificios por tipologías a toda la ciudad de Puerto Príncipe, se ha podido realizar otro cálculo de daños asociado al escenario sísmico. Las estimaciones de edificios inhabitables obtenidas con las huellas regulare e irregulares son comparables, con distribuciones espaciales prácticamente iguales. Se ha obtenido que algo de más de 27000 edificios quedarían inhabitables, lo que supone un 19% del total en la ciudad de Puerto Príncipe.
5. Sobre la evaluación de costes En la sección 6 se ha llevado a cabo un análisis comparativo del coste que conlleva la realización de una campaña de campo para recabar información sobre los edificios de cara a generar una base de datos de exposición y vulnerabilidad, y el coste que supone crearla por teledetección.
Este último se ha derivado de la realización del presente estudio. El coste de una campaña de campo ha sido obtenido a partir de información aportada por 12 expertos internacionales en la materia. De la comparación se deduce que el análisis de datos tomados por sensores remotos permite obtener un producto comparable al que se obtendría en campo, pero por un 10%‐30% de su precio y dedicando, como máximo, un tercio del tiempo, lo que avala la viabilidad económica de estos estudios. Esto aplica tanto para ciudades de países en desarrollo como desarrollados.
La conclusión directa de esta comparación sería proponer la teledetección como la vía más adecuada para el análisis de vulnerabilidad en una ciudad, en lugar de las tradicionales campañas de campo. Pero la realidad es que lo óptimo (y lo que se propone en esta teses) es una combinación de ambas, en la que colaborase un equipo interdisciplinar de expertos enIngeniería civil/Arquitectura e Ingeniería/Ciencia de datos, como se reclama en la comunidad científica (e.g. Wieland, 2013; Geiss y Taubenböck, 2013; Taubenböck et al., 2009). Para ello, se propone un proceso de 5 fases generales:
1. Estudio cualitativo de la ciudad por medio del análisis de imágenes de satélite, aéreas o terrestres. Para esto hay diversas fuentes libres: Landsat, ASTER-GDEM, PNOA, Sentinel, Google Earth, Google Street View…
2. Estratificación de la ciudad en patrones urbanos homogéneos atendiendo al tamaño y la disposición de sus edificaciones, a la regularidad de la red viaria, a la presencia de vegetación, edad aproximada de las construcciones, etc.
3. Generación de huellas de los edificios. Para ello, se pueden consultar fuentes oficiales donde ya estén generadas (catastro, censo, instituto de estadística, etc.) u otras, como OSM. Si no las hay, se procedería a digitalizarlas o a segmentar las imágenes de alta resolución. Para
esto es probable que sea necesario adquirir datos, tanto imágenes ópticas como información 3D (LiDAR o Radar).
En este paso se toma la decisión de si es necesario realizar una campaña de campo para toma de muestras.
4. En caso afirmativo, se diseñaría la campaña a partir de toda la información obtenida en los pasos previos. Con la ciudad estratificada y con las huellas generadas, se localizan aquellas áreas de la ciudad donde es indispensable ir a campo a recoger la información de los
edificios. Esto vendría condicionado por la dificultar de identificar una tipología concreta, o de aplicar las técnicas de análisis en algún estrato o área específica dentro de un determinado estrato. Esto se ha visto en las zonas del Centro de Lorca y en el estrato Residencial de Haití, donde los casos de sobre-segmentación no permitían obtener huellas precisas.
Además, se podría realizar una toma de muestras en otras partes de la ciudad para poder entrenar nuevos modelos predictivos, en caso necesario, o para realizar un control de calidad de la base de datos que se genere finalmente.
En cualquier caso, la campaña de campo no estaría destinada a recoger información de todos los edificios (o de todas las tipologías), sino de una parte concreta, determinada de antemano. Esto permite abaratar los costes considerablemente y optimizar la planificación.
Esta es la diferencia principal con los procedimientos actuales, según se desprende del estado de arte. Hoy en día, se va a campo a traer una muestra representativa de todas las tipologías. Con el enfoque que se propone aquí, sólo se iría a campo a tomar unos datos concretos. Un ejemplo puede ilustrar mejor esto: los edificios multifamiliares de hormigón armado, exentos, de grandes áreas y varias alturas, están presentes en muchas ciudades del mundo. Estos edificios son muy sencillos de identificar automáticamente en las imágenes y sus atributos se calculan fácilmente. No sería necesario recoger ningún dato sobre esta tipología en campo. Si los expertos estiman que se pueden inspeccionar unos 4 edificios por hora, teniendo en cuenta la cantidad de edificios de este tipo que puede haber en una ciudad, se estarían ahorrando muchas horas de trabajo en campo y muchos desplazamientos, al no tener que visitar las zonas donde estos edificios predominan.
5. Cálculo de atributos dentro de las huellas y aplicación de los modelos predictivos para la clasificación de tipologías. Finalmente, asignación de vulnerabilidad a cada tipología. El producto derivado de este procedimiento sería una base de datos de exposición y
vulnerabilidad de la ciudad, de alta precisión, creada por combinación de análisis de teledetección y campaña de campo dirigida, que habría permitido optimizar costes y tiempo.