مهندس موثوقية الموقع الأول (SRE)
Data & ML Ops
سلةالمدينة المنورة٨/١٠/٢٠٢٥
دوام كامل
سلة
وصف الوظيفة
نحن نبحث عن مهندس موثوقية موقع أول (SRE) للمساعدة في تصميم وتوسيع وتأمين البنية الأساسية لمنصتنا سريعة النمو. ستعمل عبر جميع الأنظمة الحرجة — من التطبيقات والواجهات البرمجية التي تواجه العملاء إلى المنصات الداخلية وخدمات البيانات — مما يضمن التوفر والأداء وكفاءة التكلفة على نطاق واسع. ستكون عملياً مع Kubernetes والملاحظة و GitOps والأتمتة والبنية الأساسية السحابية، مع العمل بشكل وثيق مع فرق التطبيقات والمنصات والبيانات لتقديم بيئة موثوقة وذاتية الشفاء عالية الجودة. هذا الدور مثالي لمهندس يزدهر في الأنظمة الموزعة المعقدة، ويحب أتمتة كل شيء، ويمكنه موازنة السرعة والاستقرار وكفاءة التكلفة في الإنتاج.
المتطلبات التعليمية:
درجة البكالوريوس في علوم الحاسوب أو الهندسة أو مجال ذي صلة — أو خبرة عملية معادلة.
المسؤوليات:
- تصميم ونشر ومراقبة وصيانة أعباء العمل الإنتاجية عبر مجموعات Kubernetes (EKS/AKS/GKE).
- بناء أنظمة ذاتية الشفاء وقابلة للتوسع تقلل التدخل اليدوي وتضمن التوفر.
- تصميم وتشغيل منصات قاعدة بيانات وتخزين موثوقة (SQL و NoSQL ومتاجر الكائنات) في بيئات Kubernetes.
- تنفيذ استراتيجيات النسخ الاحتياطي واستعادة الكوارث والتكرار والفشل لتحقيق أهداف RPO/RTO.
- استكشاف وتعافي وحدات التخزين المستمرة في Kubernetes (StorageClasses و CSI drivers و PVC issues).
- تحسين أداء التخزين والتكلفة من خلال استراتيجيات متعددة المستويات وفصل البيانات الساخنة/الباردة وسياسات دورة حياة S3/offloading.
- تأمين وتوسيع منصات التخزين الموجه للكائنات (مثل MinIO/S3-compatible) لخطوط أنابيب البيانات عالية الإنتاجية.
- إدارة التخزين على مستوى البلوك (EBS/io2/gp3) وأنظمة الملفات المشتركة (EFS و NFS) لتحقيق التوازن بين المرونة والتكلفة.
- التعاون مع الفرق لتحسين الشبكات والتحكم في حركة الدخول/الخروج وشبكة الخدمات للاتصال الآمن.
موثوقية المنصة والبنية الأساسية:
- تصميم ونشر ومراقبة وصيانة أعباء العمل الإنتاجية عبر مجموعات Kubernetes (EKS/AKS/GKE).
- بناء أنظمة ذاتية الشفاء وقابلة للتوسع تقلل العمل اليدوي والتدخل.
- تحسين الشبكات والتحكم في حركة الدخول/الخروج وشبكة الخدمات للاتصال الآمن والفعال.
- تصميم وتشغيل منصات قاعدة بيانات وتخزين موثوقة (SQL و NoSQL ومتاجر الكائنات) في بيئات Kubernetes.
- امتلاك استراتيجيات النسخ الاحتياطي واستعادة الكوارث والتكرار والفشل لتحقيق أهداف RPO/RTO لخدمات البيانات الحرجة.
- تحسين أداء التخزين والتكلفة من خلال استراتيجيات متعددة المستويات وفصل البيانات الساخنة/الباردة وسياسات دورة حياة S3/offloading.
- استكشاف واستعادة وحدات التخزين المستمرة في Kubernetes بثقة أثناء الحوادث (StorageClasses و CSI drivers و PVC issues).
- تأمين وتوسيع منصات التخزين الموجه للكائنات (مثل MinIO/S3-compatible) والتكامل مع الأعباء لخطوط أنابيب البيانات عالية الإنتاجية.
- العمل مع التخزين على مستوى البلوك (EBS/io2/gp3) وأنظمة الملفات المشتركة (EFS و NFS) لتحقيق التوازن بين الأداء والمرونة والتكلفة.
الأتمتة والتسليم:
- الدعوة إلى GitOps وأفضل ممارسات CI/CD (ArgoCD و Flux و GitHub Actions).
- بناء الأتمتة لتوفير البنية الأساسية والترقيات باستخدام Terraform و Helm و Kubernetes Operators.
- تقليل مخاطر الإصدار من خلال استراتيجيات التسليم التدريجي (blue/green و canary وتحديثات rolling للمثيلات الموضعية).
الملاحظة والاستجابة للحوادث:
- امتلاك مكدس المراقبة والتنبيهات (Prometheus و Grafana و Loki و VictoriaMetrics و OpenSearch).
- قيادة إدارة الحوادث والمراجعات اللاحقة لمنع التكرار.
- توفير رؤية فورية في صحة النظام والأداء ومقاييس التكلفة.
الأمان والامتثال:
- تنفيذ سياسات IAM بأقل امتيازات والاتصال الآمن بين الخدمات و ACLs/firewalls الشبكية.
- فرض RBAC الخاص بـ Kubernetes وإدارة الأسرار وسلسلة إمدادات الصور الآمنة.
- المشاركة في جهود جاهزية التدقيق والامتثال.
تحسين الأداء والتكلفة:
- تحليل وضبط أداء النظام على نطاق واسع (CPU/memory/IO).
- الشراكة مع فرق المنتج والمنصة لتحديد حجم المجموعات وقواعد البيانات ومستويات التخزين بشكل صحيح.
- إدخال لوحات معلومات رؤية التكلفة لقيادة الهندسة.
المؤهلات المفضلة:
- خبرة في إدارة الأنظمة الحرجة على نطاق واسع (حركة عالية ومتعددة المناطق).
- تحسين التكاليف المثبت في بيئات سحابية/K8s.
- الإلمام بشبكة الخدمات (Istio و Linkerd) أو التحكم المتقدم في الشبكات/الخروج.
- الخبرة في مكونات منصة البيانات (Airflow و Debezium و ClickHouse وغيرها) بالإضافة إلى ذلك ولكن غير مطلوبة.
- مهارات اتصال قوية والعمل الجماعي — القدرة على التعاون عبر فرق الهندسة و DevOps والأمان والمنتج.
المتطلبات الأساسية:
- 8+ سنوات في أدوار SRE / DevOps / Infrastructure Engineering.
- خبرة عميقة في Kubernetes (متعدد المجموعات وتطوير مخطط Helm والشبكات المتقدمة).
- GitOps workflows قوية باستخدام ArgoCD/Flux.
- الخبرة مع AWS (مفضل) أو Azure/GCP بالإضافة إلى Infrastructure-as-Code (Terraform و Pulumi و CloudFormation).
- معرفة متقدمة بقواعد البيانات SQL و NoSQL (MySQL/Aurora و PostgreSQL و MongoDB و Redis).
- مهارات البرمجة النصية/الأتمتة في Python أو Bash أو Go.
- خلفية قوية في المراقبة/الملاحظة (Prometheus و Grafana و Loki و ELK/Opensearch و VictoriaMetrics).
- خبرة مع CI/CD على نطاق واسع وإدارة حوادث الإنتاج.
- خبرة مع البث/المراسلة (Kafka و RabbitMQ أو ما شابه).
الفوائع:
- برامج تدريب وتطوير شاملة.
- حوافز المكافآت المبنية على الأداء.
- خيارات العمل من المنزل المرنة.
Job Description
We are looking for a Senior Site Reliability Engineer (SRE) to help design, scale, and secure our rapidly growing platform infrastructure. You will work across all critical systems — from customer-facing applications and APIs to internal platforms and data services — ensuring availability, performance, and cost efficiency at scale. You’ll be hands-on with Kubernetes, observability, GitOps, automation, and cloud infrastructure, while partnering closely with application, platform, and data teams to deliver a highly reliable and self-healing environment. This role is ideal for an engineer who thrives on complex distributed systems, loves to automate everything, and can balance speed, stability, and cost-efficiency in production. Bachelor’s degree in Computer Science, Engineering, or a related field — or equivalent work experience . Design, deploy, monitor, and maintain production workloads across Kubernetes (EKS/AKS/GKE) clusters. Build self-healing, auto-scaling systems that minimize manual intervention and ensure uptime. Design and operate reliable database and storage platforms (SQL, NoSQL, and object stores) within Kubernetes environments. Implement backup, disaster recovery, replication, and failover strategies to meet RPO/RTO targets. Troubleshoot and recover Kubernetes Persistent Volumes (StorageClasses, CSI drivers, PVC issues) . Optimize storage performance and cost through multi-tier strategies, hot/cold data separation , and S3/offloading lifecycle policies . Secure and scale object storage platforms (e.g., MinIO/S3-compatible) for high-throughput data pipelines . Manage block storage (EBS/io2/gp3) and shared file systems (EFS, NFS) for resilience and cost balance. Collaborate with teams to optimize networking, ingress/egress traffic , and service mesh for secure communication. Platform & Infrastructure Reliability Design, deploy, monitor, and maintain production workloads across Kubernetes (EKS/AKS/GKE) clusters. Build self-healing, auto-scaling systems that minimize toil and manual intervention. Optimize networking, ingress/egress traffic control, and service mesh for secure & performant communication. Design and operate reliable database and storage platforms (SQL, NoSQL, and object stores) in Kubernetes environments. Own backup, disaster recovery, replication, and failover strategies to meet RPO/RTO targets for critical data services. Optimize storage performance and cost through multi-tier strategies, hot/cold data separation, and S3/offloading lifecycle policies. Troubleshoot and recover Kubernetes Persistent Volumes confidently during incidents (StorageClasses, CSI drivers, PVC issues). Secure and scale object storage platforms (e.g., MinIO/S3-compatible) and integrate with workloads for high-throughput data pipelines. Work with block storage (EBS/io2/gp3) and shared file systems (EFS, NFS) to balance performance, resiliency, and cost. Automation & Delivery Champion GitOps and CI/CD best practices (ArgoCD, Flux, GitHub Actions). Build automation for infrastructure provisioning and upgrades using Terraform, Helm, and Kubernetes Operators. Reduce release risk through progressive delivery strategies (blue/green, canary, spot instance rolling updates). Observability & Incident Response Own the monitoring and alerting stack (Prometheus, Grafana, Loki, VictoriaMetrics, OpenSearch). Lead incident management and postmortems to prevent recurrence. Provide real-time visibility into system health, performance, and cost metrics. Security & Compliance Implement least-privilege IAM policies, secure service-to-service communication, and network ACLs/firewalls. Enforce Kubernetes RBAC, secret management, and secure image supply chain. Participate in audit readiness and compliance efforts. Performance & Cost Optimization Analyze and tune system performance under scale (CPU/memory/IO). Partner with product and platform teams to right-size clusters, databases, and storage tiers. Introduce cost visibility dashboards for engineering leadership. Preferred Qualifications Experience managing mission-critical systems at scale (high traffic, multi-region). Proven cost optimization in cloud/K8s environments. Familiarity with service mesh (Istio, Linkerd) or advanced networking/egress control. Experience with data platform components (Airflow, Debezium, ClickHouse, etc.) is a plus but not required. Strong communication skills and teamworker — able to collaborate across engineering, DevOps, security, and product teams. 8+ years in SRE / DevOps / Infrastructure Engineering roles. Deep Kubernetes expertise (multi-cluster, Helm chart development, advanced networking). Strong GitOps workflows using ArgoCD/Flux. Expertise with AWS (preferred) or Azure/GCP, plus Infrastructure-as-Code (Terraform, Pulumi, CloudFormation). Advanced knowledge of SQL & NoSQL databases (MySQL/Aurora, PostgreSQL, MongoDB, Redis). Scripting/automation skills in Python, Bash, or Go. Solid background in monitoring/observability (Prometheus, Grafana, Loki, ELK/Opensearch, VictoriaMetrics). Experience with CI/CD at scale and managing production incidents. Experience with streaming/messaging (Kafka, RabbitMQ, or similar). Comprehensive Training & Development programs. Performance-based Bonus incentives. Flexible Work From Home options.