Descrizione:
Experteer Overview
In questa posizione lavorerai all’interno dell’Area Cyber & Security Solutions per progettare e realizzare data pipeline robuste, scalabili e a bassa latenza. Collaborerai con team di analytics per trasformare grandi volumi di dati in insight operativi, unificando batch e streaming. Ti occuperai di orchestrazione, modellazione dati e integrazione con data lakehouse, contribuendo a soluzioni di sicurezza e intelligence. Un ruolo ideale per chi vuole plasmare l’analisi dati in contesti industriali ad alto livello tecnologico e di impatto.
Retribuzione / Benefits
- Sviluppare data pipelines per ingestione, processamento e trasformazione di grandi volumi di dati
- Implementare batch processing con Apache Spark (PySpark, Scala)
- Sviluppare real-time data pipelines con Apache Kafka e Apache Flink
- Realizzare stream processing per trasformazione, arricchimento e aggregazione di eventi
- Orchestrare workflow complessi con Apache Airflow (DAG, dipendenze, scheduling)
- Sviluppare trasformazioni analitiche con SQL avanzato e dbt per layers di analytics
- Implementare streaming aggregations con windowing (tumbling, sliding, session)
- Integrare streaming e batch (lambda architecture) per analytics unificati
- Gestire exactly-once processing e state management in Flink
- Sviluppare Kafka producers/consumers con configurazioni ottimizzate
- Implementare data quality testing e validation frameworks
- Integrazione con data lakehouse (Delta Lake, Iceberg) e object storage
- Stream-to-lake integration per persistence in lakehouse
- Data modeling (dimensional, star schema) per analytics e reporting
- Collaborare con analytics teams per requisiti e data modeling
- Ottimizzare performance di Spark e streaming per low-latency
- Implementare pattern di incremental processing per efficienza
- Monitoring e alerting per pipeline streaming
- Gestione backpressure e recovery in streaming
- Supportare integrazione con BI tools per reporting
- Contribuire a DataOps e best practices per stream processing
Responsabilità
- Data processing con Apache Spark (PySpark, Scala)
- Stream processing con Apache Flink (DataStream API, Table API, SQL)
- Apache Kafka per event streaming (consumers, producers, Kafka Connect)
- Real-time data pipelines con windowing e event-time processing
- State management e fault tolerance in streaming (checkpointing, savepoints)
- Orchestration con Apache Airflow (DAG, custom operators)
- SQL avanzato (window functions, CTE, ottimizzazione)
- dbt per analytics transformations e data modeling
- Data modeling (dimensional, star schema)
- Data lakehouse platforms (Delta Lake, Apache Iceberg) con ACID
- Integrazione con data lakehouse per stream-batch convergence
- Data quality frameworks (Great Expectations, dbt tests)
- Exactly-once semantics e watermarking
- Performance tuning per low-latency e high-throughput
- Python e/o Java/Scala per streaming e data engineering
- Monitoring per streaming (Prometheus, Grafana)
- Schema registry (Confluent, AWS Glue)
- Containerizzazione (Docker, Kubernetes)
- Git per version control
- Disponibilità a brevi trasferte
- Certificazioni rilevanti (Databricks, Snowflake, Confluent, Flink) sono preferenziali
#J-18808-Ljbffr
Il trattamento dei dati personali pervenuti si svolgera' in conformita' alle normative vigenti