مهندس موثوقية الموقع الأول
Senior Site Reliability Engineer (SRE)
سلةمكة المكرمة٢١/١/٢٠٢٦
دوام كامل
سلة
وصف الوظيفة
كمهندس موثوقية موقع أول في سلة، ستقود مبادرات الموثوقية، وتتعامل مع الحوادث المعقدة، وتحسن أداء المنصة، وتوجه فرق الهندسة نحو بناء أنظمة قوية. ستشارك أيضاً في دوران الاستدعاء الفوري كجزء من التزامنا بموثوقية المنصة.
الموثوقية وإدارة الحوادث
قيادة استجابة الحوادث عالية الشدة وتعزيز مراجعات ما بعد الحادثة. استكشاف المشاكل المعقدة عبر التطبيقات والبنية التحتية والشبكات. تحسين MTTR من خلال مراقبة أفضل والتنبيهات وأدوات التشخيص. المشاركة في دوران الاستدعاء الفوري لدعم أنظمة الإنتاج.
الأداء والقابلية للتوسع
تحديد وحل اختناقات الأداء وتحديات التوسع. إجراء اختبارات الحمل والتخطيط للقدرات لسيناريوهات حركة المرور العالية.
البنية التحتية والعمليات
تحسين البنية التحتية الأصلية السحابية وعمليات النشر والأتمتة. تحسين المرونة والتسامح مع الأعطال وآليات الاسترجاع عبر الأنظمة.
الملاحظة
بناء وتحسين لوحات المعلومات والتنبيهات والمقاييس والسجلات والتتبعات. تحديد SLIs/SLOs وتحسين الرؤية في سلوك النظام.
الأدوات والأتمتة
تطوير أدوات تقلل الأعمال التشغيلية وتزيد من الموثوقية. المساهمة في البنية التحتية كرمز و CI/CD pipelines و GitOps workflows.
التعاون
العمل بشكل وثيق مع فرق الهندسة لضمان أن الخدمات قوية وجاهزة للإنتاج. توجيه المهندسين في الموثوقية والتصحيح والممارسات التشغيلية الفضلى.
مهارات إضافية
الخبرة في الأنظمة واسعة النطاق وحركة المرور العالية. الخبرة في تصميم متسامح مع الأعطال و DR و HA patterns. الإلمام بـ SLOs و SLIs وموازنات الأخطاء.
تفضيل الموقع
يفضل أن يكون المرشحون الموجودون في نطاق المناطق الزمنية GMT 0 إلى +6 لتوافق التعاون الفريقي وتغطية الاستدعاء الفوري.
المتطلبات
خبرة قوية مع Kubernetes و تقنيات service mesh والمنصات السحابية (AWS أو GCP أو Azure). فهم عميق لـ Linux والشبكات والأنظمة الموزعة وموازنة الحمل. خبرة عملية مع Terraform أو أدوات Infrastructure-as-Code المماثلة. خبرة مع منصات الملاحظة مثل Prometheus و Grafana و Loki و Mimir و Elastic أو ما يعادلها. الكفاءة في لغات البرمجة النصية أو لغات البرمجة مثل Bash و Python و Go. الخبرة مع CI/CD pipelines و GitOps practices. مهارات قوية في التصحيح واستجابة الحوادث وتحليل الأداء.
Job Description
As a Senior SRE at Salla, you will lead reliability initiatives, handle complex incidents, improve platform performance, and guide engineering teams toward building resilient systems. You will also participate in the on-call rotation as part of our commitment to platform reliability. Reliability & Incident Management Lead high-severity incident response and drive post-incident reviews. Troubleshoot complex issues across applications, infrastructure, and networks. Improve MTTR through better monitoring, alerts, and diagnostic tooling. Participate in the on-call rotation supporting production systems. Performance & Scalability Identify and resolve performance bottlenecks and scaling challenges. Conduct load testing and capacity planning for high-traffic scenarios. Infrastructure & Operations Enhance cloud-native infrastructure, deployment processes, and automation. Improve resilience, fault-tolerance, and recovery mechanisms across systems. Observability Build and refine dashboards, alerts, metrics, logs, and traces. Define SLIs/SLOs and improve visibility into system behavior. Tooling & Automation Develop tools that reduce operational toil and increase reliability. Contribute to infrastructure-as-code, CI/CD pipelines, and GitOps workflows. Collaboration Work closely with engineering teams to ensure services are robust and production-ready. Mentor engineers on reliability, debugging, and operational best practices. Bonus Skills Background in large-scale, high-traffic systems. Experience with fault-tolerant design, DR, and HA patterns. Familiarity with SLOs, SLIs, and error budgets. Location Preference Candidates located within GMT 0 to +6 time zones are preferred to align with team collaboration and on-call coverage. Strong experience with Kubernetes , service mesh technologies , and cloud platforms ( AWS, GCP, or Azure ). Deep understanding of Linux , networking , distributed systems , and load balancing . Hands-on experience with Terraform or similar Infrastructure-as-Code tools. Experience with observability platforms such as Prometheus, Grafana, Loki, Mimir, Elastic , or equivalent. Proficiency in scripting or programming languages such as Bash, Python, or Go . Experience with CI/CD pipelines and GitOps practices. Strong debugging, incident response, and performance analysis skills.