Estamos à procura de um Go Platform Engineer que se destaque na interseção entre infraestrutura, sistemas de IA e DevOps. Nesta função, será responsável por arquitetar e escalar a espinha dorsal da nossa AI Platform: garantindo alta disponibilidade, baixa latência e integração perfeita das capacidades de machine learning em produção. Será responsável pelos microsserviços que alimentam a inferência de IA, construirá uma infraestrutura robusta multi-tenant e apoiará a equipe de Data & AI com práticas de DevOps de nível de produção.
Responsabilidades:
Projetar, desenvolver e manter microsserviços em Go que gerenciem inferência de modelos de IA, pipelines de processamento de dados e fluxos de streaming em tempo real.
Arquitetar APIs escaláveis (gRPC/REST) que funcionem como ponte entre os modelos de IA e aplicações em produção.
Gerir a infraestrutura Kubernetes (EKS), incluindo deployments, políticas de autoscaling, service mesh e monitoramento da saúde do cluster.
Implementar comunicação entre serviços usando gRPC e filas de mensagens (RabbitMQ/SQS) para processamento assíncrono.
Integrar-se com serviços de IA em nuvem (AWS Bedrock, OpenAI, Anthropic) e gerenciar a infraestrutura de serving de modelos.
Construir funcionalidades multi-tenant, incluindo autenticação (JWT/JWKS), limitação de taxa, rastreamento de uso e isolamento de tenants.
Colaborar com a equipe de Data & AI para colocar modelos de machine learning em produção, encapsulando-os em serviços prontos para produção com health checks, circuit breakers e degradação graciosa.
Criar observabilidade completa: logging estruturado, métricas (Prometheus), tracing distribuído (Jaeger/Tempo) e alertas.
Implementar pipelines CI/CD e infraestrutura como código (Terraform) para deployments automatizados e recuperação de desastres.
Garantir alta disponibilidade por meio de monitoramento adequado, resposta a incidentes e análises post-mortem.
Otimizar o uso de recursos para workloads em GPU e estratégias de escalonamento custo-eficientes.
