-
Datasets
- Se han empleado datos obtenidos de https://www.kaggle.com/datasets/mirbektoktogaraev/madrid-real-estate-market para el conjunto de los datos del mercado de la vivienda.
- Los datos correspondientes a los salarios medios por grupos de edad de los madrileños se han obtenido del siguiente enlace: https://gestiona.comunidad.madrid/desvan/AccionListadoTematicoDesvan.icm?temaPadre=432&esTema=S&descripcionPadre=Salario%20medio%20anual%20por%20grupos%20de%20edad.%20Espa%F1oles&codTema=1902636 y se han codificado como variables
- Los datos del coste medio de vida en función del grupo de edad se han obtenido a partir de lo que podemos encontrar en https://www.numbeo.com/cost-of-living/in/Madrid.
- Para algunas estimaciones se han usado https://www.idealista.com/news/inmobiliario/vivienda/2019/04/01/772456-el-80-de-los-compradores-de-una-vivienda-nueva-tiene-35-anos-o-mas y el simulador de hipotecas de Idealistsa, utilizando los datos históricos del interés de la época para la que interesaba calcular el coste de las letras de la hipoteca.
- Además, se ha generado una visualización en Flourish Studio para el mapa de cloropletas de los barrios de Madrid usando un geojson obtenido de https://github.com/codeforgermany/click_that_hood/blob/main/public/data/madrid-districts.geojson. También se utilizaron unos datos obtenidos de una web de la que no conservo la referencia, y que usé en una práctica de otra asignatura del máster para hacer un análisis de gentrificación poniendo en el foco la vivienda turística en el centro de la ciudad. Se encontraban en formato shapely y los adjunto ya que hice pruebas siguiendo el tutorial de Flourish Studio para convertir el formato a geojson utilizando la herramienta https://mapshaper.org, ya que me ha parecido un proceso interesante.
-
Código:
- Se usan 3 jupyter notebooks para varios procesos.
- selection_and_data_cleaning.ipynb se preprocesan los datos, seleccionando columnas útiles, dando formato a las columnas que son de interés para la práctica y dejando un dataset intermedio llamado houses_dataset_after_cleaning.
- null_analysis.ipynb se utiliza para tratar los valores nulos.
- effort_by_age_group_and_outliers.ipynb se utiliza para generar los costes de los distintos grupos de edad en base a las estimaciones de Numbeo y los datos de la comunidad de Madrid, apoyándome en los datos de Idealista cuando ha sido necesario (en concreto para el grupo 3 y para entender mejor la situación general de los 4 grupos viendo los perfiles de compradores en la comunidad).
- Además, en este último dataset se ha generado un análisis de outliers y se han eliminado estos valores atípicos, ya que en una primera versión vi que se distorsionaba mucho la visualización del mapa.
- Por último y también en este notebook, se genera el dataset con datos de precio y esfuerzos medianos para los 2 grupos de condiciones seleccionadas que posteriormente se emplea en la segunda visualización.
- La idea de este último conjunto de datos era utilizar no sólo los datos geográficos de los pisos y el precio, sino también los datos de las características más generales de las viviendas listadas para poder entender cómo afectaba en más detalle a los grupos, sobre todo buscando enfatizar en el contraste existente entre los grupos 1 y 2, que están empezando una vida 'familiar' o simplemente adulta frente a los grupos 3 y 4, en clara ventaja que, como concluyo en el vídeo, considero que es meramente circunstancial aunque sea un hecho que existe.
-
Notifications
You must be signed in to change notification settings - Fork 0
License
LuisGF93/data_visualization_final_practice
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published