Cys_data engineer_tp

  • Pubblicato il 09/06/2026
  • Genova (GE)
  • Da definire

Descrizione:

Experteer Overview In questa posizione lavorerai all’interno dell’Area Cyber & Security Solutions per progettare e realizzare data pipeline robuste, scalabili e a bassa latenza. Collaborerai con team di analytics per trasformare grandi volumi di dati in insight operativi, unificando batch e streaming. Ti occuperai di orchestrazione, modellazione dati e integrazione con data lakehouse, contribuendo a soluzioni di sicurezza e intelligence. Un ruolo ideale per chi vuole plasmare l’analisi dati in contesti industriali ad alto livello tecnologico e di impatto. Retribuzione / Benefits Sviluppare data pipelines per ingestione, processamento e trasformazione di grandi volumi di dati Implementare batch processing con Apache Spark (Py Spark, Scala) Sviluppare real-time data pipelines con Apache Kafka e Apache Flink Realizzare stream processing per trasformazione, arricchimento e aggregazione di eventi Orchestrare workflow complessi con Apache Airflow (DAG, dipendenze, scheduling) Sviluppare trasformazioni analitiche con SQL avanzato e dbt per layers di analytics Implementare streaming aggregations con windowing (tumbling, sliding, session) Integrare streaming e batch (lambda architecture) per analytics unificati Gestire exactly-once processing e state management in Flink Sviluppare Kafka producers/consumers con configurazioni ottimizzate Implementare data quality testing e validation frameworks Integrazione con data lakehouse (Delta Lake, Iceberg) e object storage Stream-to-lake integration per persistence in lakehouse Data modeling (dimensional, star schema) per analytics e reporting Collaborare con analytics teams per requisiti e data modeling Ottimizzare performance di Spark e streaming per low-latency Implementare pattern di incremental processing per efficienza Monitoring e alerting per pipeline streaming Gestione backpressure e recovery in streaming Supportare integrazione con BI tools per reporting Contribuire a Data Ops e best practices per stream processing Responsabilità Data processing con Apache Spark (Py Spark, Scala) Stream processing con Apache Flink (Data Stream API, Table API, SQL) Apache Kafka per event streaming (consumers, producers, Kafka Connect) Real-time data pipelines con windowing e event-time processing State management e fault tolerance in streaming (checkpointing, savepoints) Orchestration con Apache Airflow (DAG, custom operators) SQL avanzato (window functions, CTE, ottimizzazione) dbt per analytics transformations e data modeling Data modeling (dimensional, star schema) Data lakehouse platforms (Delta Lake, Apache Iceberg) con ACID Integrazione con data lakehouse per stream-batch convergence Data quality frameworks (Great Expectations, dbt tests) Exactly-once semantics e watermarking Performance tuning per low-latency e high-throughput Python e/o Java/Scala per streaming e data engineering Monitoring per streaming (Prometheus, Grafana) Schema registry (Confluent, AWS Glue) Containerizzazione (Docker, Kubernetes) Git per version control Disponibilità a brevi trasferte Certificazioni rilevanti (Databricks, Snowflake, Confluent, Flink) sono preferenziali #J-18808-Ljbffr