Puedes ver un webcast sobre este tema en https://info.microsoft.com/ww-landing-intro-sql-server-2019.html

Hace tiempo (entendiendo esta antigüedad en el contexto de lo que es la informatica) que Spark con su Scala me parece un lenguaje que hay que empezar a dominar , ahora más aún, en SQL 2019 ,  se puede poner todo junto, SQL Server y Spark y puede usarse todos los lenguajes de inteligencia artificial, Python, R, etc para consultar datos, no solo en los tradicionales SQL servers sino también en clusters de bigdata.

En el webcast podreis ver como nos hablan de uno de los retos que más horas nos han hecho invertir en nuestros proyectos, los métodos para integración de datos, tanto los procesos ELT o ETL como lo que llaman Data virtualization, básicamente dos aproximaciones a tener los datos todos en un solo lugar, ya sea real copiando datos, o virtual  dejando los datos en su situación y virtualizando su acceso sin replicar o mover datos aunque es un poco tendencioso, porque cuenta todas las maldades del ETL ELT  pero no los relacionados con la virtualizacion  y son unos cuantos. Aún así es interesantisimo de ver, en este caso PolyBase  es quien acude al rescate puesto que utiliza su potencia para consultar cualquier origen de datos.

Siguiendo con esa virtualizacion podrás ver como con la misma estructura, se pueden consultar no solamente datos de otros gestores de base de datos como teradata u oracle, sino también clusters de spark o ficheros alojados en un hdfs. También veras como pueden funcionar varios SQL Servers en paralelo o con spark. También veras el concepto scale-out data pool para poder crear caches intermedias de estos datos, y el concepto de compute pool, paralelizando y creando clusters de SQL SErver al mas puro estilo hadoop pero con un lenguaje conocido y un interfaz amable para hacerlo.

De lo mas destacable, la promesa de que con Microsoft, todos los componentes que están dentro del cluster big data, van a ser compatibles en los cambios de versión , esto a los que estamos en el mundo Microsoft nos parece natural, pero  en mis propias carnes he sufrido lo poco natural que es en el mundo del big data.

La tecnología Kubernetes al rescate, algo que también podras ver el video, como a través de esta tecnología se puede desplegar un cluster no importa si es en  Azure ya sea en IaaS o en servicio como Azure Kubernetes o es On-premisses.

Los logs de todas los nodos acaban en una base de datos elastic search para poder ser administradas y consultadas. Muy interesante.

Seguridad y mantenimiento, unificado a traves de un single sing-on con directorio activo.

El dibujo de como Microsoft ve la plataforma de Inteligencia Artificial también es muy ilustrativa, puedes usar  Spark STreaming, SSIS,  para leer datos y llevarlos a una instancia de SQL SErver o a HDFS o a unos data pools… entonces puedes empezar a preparar y entrenar tus modelos con Spark Machine Learing o con SQL Server Machine Learning SErvices, y a traves de un modelo  servir esos datos a las herramientas de BI o aplicaciones, también pudes usar notebooks en Azure data Studio, los notebooks son una de las herramientas prefereidas para AI.

 

Disfrutad el webcast

 

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *