سلة

مهندس موثوقية الموقع الأول (SRE) - بيانات وعمليات التعلم الآلي

Data & ML Ops

سلةالمدينة المنورة٨‏/١٠‏/٢٠٢٥
تقديم الطلب
دوام كامل8+ سنوات خبرةبكالوريوس
سلة

سلة

وصف الوظيفة

نحن نبحث عن مهندس موثوقية موقع أول (SRE) لمساعدتنا في تصميم وتوسيع وتأمين البنية التحتية للمنصة سريعة النمو لدينا. ستعمل عبر جميع الأنظمة الحرجة — من التطبيقات والواجهات البرمجية التي تواجه العملاء إلى المنصات الداخلية وخدمات البيانات — مما يضمن التوفر والأداء وكفاءة التكلفة على نطاق واسع. ستكون عملياً مع Kubernetes والملاحظة و GitOps والأتمتة والبنية التحتية للسحابة، مع التعاون الوثيق مع فرق التطبيقات والمنصات والبيانات لتقديم بيئة موثوقة وقادرة على التعافي الذاتي. هذا الدور مثالي لمهندس يستمتع بالأنظمة الموزعة المعقدة، ويحب أتمتة كل شيء، ويمكنه تحقيق التوازن بين السرعة والاستقرار وكفاءة التكلفة في الإنتاج. المتطلبات التعليمية: - درجة البكالوريوس في علوم الحاسوب أو الهندسة أو مجال ذي صلة — أو خبرة عملية معادلة. المسؤوليات الأساسية: موثوقية المنصة والبنية التحتية: - تصميم ونشر ومراقبة وصيانة أحمال العمل الإنتاجية عبر مجموعات Kubernetes (EKS/AKS/GKE). - بناء أنظمة قادرة على التعافي الذاتي والتوسع التلقائي التي تقلل المتاعب والتدخل اليدوي. - تحسين الشبكات والتحكم في حركة المرور الداخلة والخارجة و service mesh لضمان اتصال آمن وفعال. - تصميم وتشغيل منصات قواعد البيانات والتخزين الموثوقة (SQL و NoSQL ومتاجر الكائنات) في بيئات Kubernetes. - امتلاك استراتيجيات النسخ الاحتياطي واستعادة الكوارث والتكرار وإعادة التوجيه لتلبية أهداف RPO/RTO لخدمات البيانات الحرجة. - تحسين أداء التخزين والتكلفة من خلال استراتيجيات متعددة المستويات وفصل البيانات الساخنة والباردة وسياسات دورة حياة S3. - استكشاف الأخطاء واستعادة Kubernetes Persistent Volumes بثقة أثناء الحوادث (StorageClasses و CSI drivers و PVC issues). - تأمين وتوسيع نطاق منصات التخزين الموزعة (مثل MinIO/S3-compatible) والتكامل مع أحمال العمل لخطوط أنابيب البيانات عالية الإنتاجية. - العمل مع تخزين الكتل (EBS/io2/gp3) وأنظمة الملفات المشتركة (EFS و NFS) لتحقيق التوازن بين الأداء والمرونة والتكلفة. الأتمتة والتسليم: - الترويج لأفضل الممارسات في GitOps و CI/CD (ArgoCD و Flux و GitHub Actions). - بناء الأتمتة لتوفير البنية التحتية والترقيات باستخدام Terraform و Helm و Kubernetes Operators. - تقليل مخاطر الإصدار من خلال استراتيجيات التسليم التدريجي (blue/green و canary و spot instance rolling updates). الملاحظة والاستجابة للحوادث: - امتلاك مكدس المراقبة والتنبيهات (Prometheus و Grafana و Loki و VictoriaMetrics و OpenSearch). - قيادة إدارة الحوادث والتحليلات اللاحقة لمنع تكرارها. - توفير رؤية فورية لصحة النظام والأداء ومقاييس التكلفة. الأمان والامتثال: - تنفيذ سياسات IAM بأقل الامتيازات واتصال آمن من خدمة إلى خدمة و ACLs/firewalls للشبكة. - فرض Kubernetes RBAC وإدارة الأسرار وسلسلة إمداد الصور الآمنة. - المشاركة في جهود جاهزية التدقيق والامتثال. تحسين الأداء والتكلفة: - تحليل وضبط أداء النظام على نطاق واسع (CPU/memory/IO). - الشراكة مع فرق المنتج والمنصة لتحديد حجم المجموعات وقواعس البيانات وطبقات التخزين. - تقديم لوحات معلومات رؤية التكاليف لقيادة الهندسة. المؤهلات المفضلة: - خبرة في إدارة الأنظمة الحرجة على نطاق واسع (حركة مرور عالية، متعدد المناطق). - تحسين التكلفة المثبتة في بيئات Cloud/K8s. - الألفة مع خدمة الشبكة (Istio و Linkerd) أو التحكم المتقدم في الشبكة/الخروج. - الخبرة في مكونات منصة البيانات (Airflow و Debezium و ClickHouse وغيرها) إضافة مفيدة لكن غير مطلوبة. - مهارات تواصل قوية وقدرة على العمل في فريق — القدرة على التعاون عبر فرق الهندسة و DevOps والأمان والمنتج. - 8+ سنوات في أدوار SRE / DevOps / Infrastructure Engineering. - خبرة عميقة في Kubernetes (multi-cluster و Helm chart development و advanced networking). - مهارات قوية في GitOps workflows باستخدام ArgoCD/Flux. - الخبرة في AWS (مفضل) أو Azure/GCP، بالإضافة إلى Infrastructure-as-Code (Terraform و Pulumi و CloudFormation). - معرفة متقدمة بقواعد البيانات SQL و NoSQL (MySQL/Aurora و PostgreSQL و MongoDB و Redis). - مهارات البرمجة النصية والأتمتة في Python أو Bash أو Go. - خلفية قوية في المراقبة والملاحظة (Prometheus و Grafana و Loki و ELK/Opensearch و VictoriaMetrics). - الخبرة في CI/CD على نطاق واسع وإدارة حوادث الإنتاج. - الخبرة في البث والمراسلة (Kafka و RabbitMQ أو ما شابه). الفوائد: - برامج تدريب وتطوير شاملة. - حوافز مكافآت بناءً على الأداء. - خيارات مرنة للعمل من المنزل.

Job Description

Technology

المهارات المطلوبة

KubernetesGitOpsAWSTerraformPrometheusArgoCDDockerPythonCI/CDIncident Management
مهندس موثوقية الموقع الأول (SRE) - بيانات وعمليات التعلم الآلي - سلة