La ciencia de los datos, considerada como un campo de investigación en ascenso, que combina conocimientos relacionados con la computación, la inteligencia artificial, la matemática y la estadística, está cimentada en el análisis de complejos volúmenes de información generados en diversas plataformas. En Brasil, para satisfacer la demanda creciente de científicos de datos, las instituciones de educación superior han invertido en la creación de licenciaturas y carreras de posgrado. El objetivo es la formación de profesionales capaces de interpretar, estructurar y analizar contenidos que pueden alcanzar el orden de los petabytes, unidades de almacenamiento que corresponden a 1.024 terabytes.
“Además de conocimientos de computación, matemáticos y estadísticos, el científico de datos debe ser curioso y aficionado a resolver problemas”, dice André Ponce de Leon Ferreira Carvalho, vicedirector del Instituto de Ciencias Matemáticas y Computación de la Universidad de São Paulo (ICMC-USP), en São Carlos, y del Centro de Ciencias Matemáticas Aplicadas a la Industria (Cemeai), uno de los Centros de Investigación, Innovación y Difusión (Cepid) financiados por la FAPESP. La formación profesional también incluye la capacidad de identificar información valiosa en bases de datos gigantescas, un área que se ha hecho conocida como big data. La institución, que ya está formando científicos de datos a nivel de posgrado, inaugura ahora una licenciatura específica en el área. “Los profesionales que ya están trabajando con la ciencia de los datos provienen, en general, de áreas correlacionadas, tales como ciencias de la computación, física, matemática, ingeniería y estadística”, informa Ponce de Leon Ferreira Carvalho. “El aumento de la demanda justifica esta formación más específica”.
Desde 2018, el énfasis en la ciencia de los datos forma parte del plan de estudios de todas las carreras del ICMC-USP, lo que pone de manifiesto su importancia como campo de estudios multidisciplinario. En 2020, la licenciatura en estadística, por ejemplo, pasó a llamarse estadística y ciencia de los datos. “Esta es una tendencia mundial tanto en las carreras de estadística como de informática, que han pasado a darle más importancia a la ciencia de los datos”, añade Ponce de Leon Ferreira Carvalho. Entre las asignaturas que componen la matriz curricular de la nueva carrera figuran la ingeniería de software, la inteligencia artificial, la computación de alto rendimiento, las redes de computadoras y la minería en grandes bases de datos.
Además del volumen casi inconmensurable de información que se produce cada día, a esto se le suma el uso de teléfonos inteligentes, asistentes virtuales, cerraduras electrónicas, relojes, refrigeradores, aspiradoras, aires acondicionados y televisores que también generan datos que pueden utilizarse para mejorar los productos y servicios, o bien simplemente para facilitar la vida cotidiana. “La información generada por los diversos sensores presentes en los automóviles, como por ejemplo, la cámara de retroceso y los medidores de temperatura y velocidad, se almacena en bases de datos y puede utilizarse para realizar el mantenimiento preventivo del vehículo, además de avisarle al conductor cuando se encuentra en una zona proclive a inundaciones o con un gran registro de accidentes”, ilustra Ponce de Leon Ferreira Carvalho.
La amplia base de datos que les permite a los científicos realizar un análisis sistemático está dividida, por lo general, en datos estructurados y no estructurados. Los primeros son los que surgen de forma ya organizada, tales como la cantidad de accesos a un sitio web o una aplicación específica, el número de usuarios, los productos más consumidos y los lugares con mayor movimiento de personas. Los datos no estructurados recaban textos e imágenes publicados en las redes sociales, sonidos captados por micrófonos que pueden instalarse en el océano, en los bosques o en entornos urbanos, por ejemplo. Una vez sistematizados, pueden ayudar a predecir fenómenos meteorológicos tales como los huracanes, e identificar incendios o la frecuencia de atracos en un área determinada.
1. Tener afinidad con el área de las ciencias exactas, fundamentalmente matemática y estadística
2. Estar familiarizado con los lenguajes de programación
3. Capacidad para solucionar problemas e identificar oportunidades de innovación
4. Disposición para integrarse a equipos multidisciplinarios
5. Capacidad de comunicación
Una demanda en aumento
Así como en un principio la computadora fue vista como una amenaza para los puestos de trabajo, al asociarse la automatización con el aumento del desempleo, a partir de su uso también surgieron nuevas profesiones, entre ellas las relacionadas con el campo de las tecnologías de la información y la comunicación, las llamadas TIC. Según datos publicados por la consultora Bain & Company, cuya sede se encuentra en la ciudad de Boston (EE. UU.), se estima que, en 2020, en todo el mundo se graduaron aproximadamente un millón de nuevos científicos de datos en los niveles de licenciatura y posgrado. Los datos con los que cuenta la Asociación Brasileña de Empresas de Tecnología de la Información y la Comunicación (Brasscom) indican que, en el país, la búsqueda de profesionales de la tecnología no solo va en aumento, sino que también puede padecer con la falta de mano de obra calificada. Para 2024, se espera que la demanda anual sea de 70 mil nuevos profesionales.
“Además de las empresas que están pasando por transformaciones digitales o que ya nacieron con esta orientación, hay oportunidades en diversas áreas de la ciencia, que dependen cada vez más de los científicos de datos para interpretar la información producida en grandes cantidades”, dice Bianca Zadrozny, investigadora y gerente sénior del área de Modelado Espaciotemporal del Laboratorio de Investigación de IBM Brasil. La empresa estima que el número de nuevas vacantes en Estados Unidos seguirá creciendo a razón de un 5% anual, con 60 mil nuevos puestos laborales solo en 2020. “El científico de datos se está transformando en una de las ocupaciones más destacadas dentro de las empresas, debido a su capacidad para plantear hipótesis, diseñar experimentos, evaluar resultados y presentarlos en un formato comprensible”, añade Zadrozny.
Al evaluar el panorama nacional, Luis Gustavo Nonato, coordinador de la nueva carrera en el ICMC-USP, apunta en la misma dirección. “En Brasil hay un déficit enorme. Las empresas intentan contratar a científicos de datos permanentemente y, aun con la diversidad actual de carreras, siguen faltando profesionales”, dice. Según él, el crecimiento de la demanda está presente en todas las regiones de Brasil, pero es en el sur y en el sudeste donde se concentra la mayor cantidad de vacantes. “Además de las empresas, los gobiernos y los organismos públicos le asignan cada vez más importancia a la gestión de los datos regionales, esenciales para la formulación de políticas públicas”.
Un ejemplo de ello lo constituyen las metodologías y modelos que se vienen utilizando para incrementar la eficiencia de los procesos legales y sistematizar los datos generados en el ámbito legislativo. Desde septiembre de 2020, el ICMC-USP posee un convenio con el Tribunal de Justicia del Estado de São Paulo (TJSP) para la creación de herramientas de inteligencia artificial que permitan la estructuración de una base de datos analítica a partir de la información contenida en los documentos procesales. “El objetivo es analizar el contenido de los textos y relevar los temas más recurrentes, además de detectar las similitudes en los distintos procesos”, explica Ponce de Leon Ferreira Carvalho, del ICMC-USP.
El instituto también acaba de firmar un contrato con la Cámara de Diputados, en Brasilia, para el desarrollo de métodos de aprendizaje automático y procesamiento del lenguaje natural cuyo propósito es analizar el contenido de los canales de participación popular que mantiene el organismo. “Con ello, será posible identificar los argumentos de la población en relación con las propuestas legislativas, recopilando las posiciones contrarias o favorables a un determinado proyecto de ley”.
Atenta al aumento de la demanda, la Pontificia Universidad Católica de Campinas (PUC-Campinas) también abrirá este año una licenciatura en el área. La carrera, cuya denominación será Ciencia de Datos e Inteligencia Artificial, tendrá una duración de cuatro años, los tres primeros de cursado matutino y el último en el turno noche. “Esta organización les permitirá a los estudiantes del último año realizar pasantías en las diversas empresas de tecnología de la región”, explica Daniele Maia Rodrigues, directora de la Facultad de Ingeniería de Computación de la PUC-Campinas. Entre los objetivos propuestos por el programa, Maia Rodrigues destaca la adquisición de competencias técnicas e interpersonales por los científicos de datos, que deben combinar conocimientos sobre algoritmos y sistemas computacionales, además de la capacidad de trabajar en equipos multidisciplinarios. Para desarrollar esas habilidades, los alumnos deben ser idóneos en desarrollo de sistemas computacionales, programación, redes informáticas, computación en la nube, infraestructura de sistemas, inteligencia artificial, aprendizaje de máquinas y procesamiento del lenguaje natural, esto es, la capacidad de un ordenador para interpretar el lenguaje humano a través de la escritura o el habla. “Es importante señalar que los científicos de datos probablemente formarán parte de equipos relacionados con otras áreas del conocimiento, según cuál sea el nicho de negocio específico”, añade Rodrigues.
Andrés SandovalEl posgrado
Más allá de la actualización de los conocimientos, los profesionales, sobre todo los del área de las ciencias exactas, han visto en la ciencia de los datos una oportunidad para desempeñarse en un campo de trabajo diferente. Como la licenciatura en ciencia de los datos es una alternativa profesional reciente, las empresas habían comenzado a contratar ingenieros, matemáticos, administradores, economistas y físicos que ahora buscan complementar su formación en esa área.
“Para alcanzar el éxito profesional es indispensable tener nociones de lenguajes de programación como Python y R”, explica Eduardo Barbosa, coordinador del posgrado lato sensu en data science y decisión del Instituto de Ensino e Pesquisa (Insper). Centrados en el análisis de bibliotecas de datos voluminosas, los lenguajes Python y R son ampliamente utilizados en la programación de aplicaciones. Con el propósito de capacitar científicos de datos capaces de brindar apoyo a la toma de decisiones empresariales, la carrera se basa en el aprendizaje de modelos estadísticos y aprendizaje automático, programación y design thinking para la ciencia de datos, lo que implica desarrollar la capacidad de comprender problemas y proponer soluciones. “En el examen de selección buscamos identificar si el candidato cumple con los requisitos básicos para ser admitido en el programa. El objetivo es evitar la frustración de los profesionales sin afinidad por el área de las ciencias exactas”, informa Barbosa. Con una duración de 20 horas divididas en tres días, la institución también ofrece una modalidad exprés, dirigida a la formación de ejecutivos que quieran utilizar los conceptos del área para mejorar los resultados de sus negocios.
Con una primera cohorte iniciada en 2018, la carrera de especialización en ciencia de datos y big data de la Universidad Federal de Bahía (UFBA) está dividida en tres módulos, cada uno de cuatro meses de duración, que incluyen materias tales como estadística aplicada, álgebra matricial y métodos numéricos, programación en R y Python, aprendizaje de máquinas, fundamentos de big data, inteligencia artificial y reconocimiento de patrones de imagen, sonido y video. “Además de estadísticos, matemáticos, científicos de la computación e ingenieros, entre los inscritos también hay profesionales de la comunicación, del derecho y de la administración, entre otros”, dice Jalmar Manuel Farfan Carrasco, coordinador de la carrera que dicta el Departamento de Estadística del Instituto de Matemática y Estadística de la UFBA. Para una articulación entre alumnos de áreas tan diferentes del conocimiento y para facilitar la comprensión de los conceptos específicos, el programa de posgrado ha impulsado actividades en grupo, reuniendo, siempre que sea posible, a los estudiantes graduados en estadística e informática y a profesionales de otras áreas, como el derecho, la comunicación o la psicología, entre otras. “Al enfocarse en un mismo problema de diferentes maneras, esa interacción permite que cada miembro contribuya de una manera única en la búsqueda de soluciones”, añade Farfan Carrasco.
Republicar