جامعة الملك عبدالله للعلوم والتقنية

محلل دعم أتمتة الذكاء الاصطناعي/تعلم الآلة

AI/ML Support Automation Analyst

جامعة الملك عبدالله للعلوم والتقنيةالمملكة العربية السعوديةمنذ يومين
دوام كامل5+ years سنوات خبرة

وصف الوظيفة

محلل دعم أتمتة الذكاء الاصطناعي/تعلم الآلة

نظرة عامة

سيكون محلل دعم أتمتة الذكاء الاصطناعي/تعلم الآلة عضواً أساسياً في فريق دعم الذكاء الاصطناعي KSL، مع التركيز على البنية التحتية لـ MLOps، وتنسيق الحاويات، وأتمتة التدفقات في نطاق الحوسبة الفائقة. تحت إشراف رئيس فريق دعم الذكاء الاصطناعي/تعلم الآلة، ستكون هذه الوظيفة مسؤولة عن تطوير وصيانة صور حاويات آمنة ومتوافقة مع OCI، وأنابيب CI/CD قوية، وتدفقات MLOps الأصلية من السحابة التي تمكن الباحثين من نشر وإدارة أعباء العمل AI/ML بكفاءة.

1. MLOps وتطوير الحاويات

  • تقديم دعم مستخدم مناسب وفي الوقت المناسب عبر الهاتف، والزيارات الشخصية، والبريد الإلكتروني، وتقديم طلبات نظام التذاكر لجميع أنواع الاستفسارات.
  • الحفاظ على معايير خدمة العملاء العالية في التعامل والاستجابة لقضايا المستخدمين والأسئلة.
  • تطوير وصيانة صور حاويات البرمجيات AI/ML وعلوم البيانات الآمنة والمتوافقة مع HPC.
  • تصميم وتنفيذ تدفقات MLOps وأنابيب قوية على نطاق الحوسبة الفائقة.
  • تطوير وصيانة أنابيب CI/CD لنشر البنية التحتية القابلة للتكرار والتدفق.
  • تصميم ونشر واجهات برمجة التطبيقات (APIs) لخدمات AI/ML ونقاط النهاية للافتراض.
  • تنفيذ وإدارة التنسيق Kubernetes، بما في ذلك تكوينات CNI، CSI، وشبكة الخدمات وتحسينها.
  • نشر وصيانة سجلات الحاويات (Harbor) وسجلات النماذج (MLFlow، Kubeflow Model Registry).

2. دعم الحوكمة والامتثال

  • المساعدة في مراجعات الاستعداد الحسابي لمشاريع أبحاث الذكاء الاصطناعي.
  • المساعدة في مراجعات التحكم في نماذج الذكاء الاصطناعي والمواد لضمان الامتثال للمعايير المؤسسية.
  • تقديم المشورة للمستخدمين حول استخدام الموارد بكفاءة لعمليات AI/ML وMLOps.
  • ضمان امتثال صور الحاويات والتدفقات للسياسات الأمنية وأفضل الممارسات.
  • دعم تنفيذ أنظمة مراقبة الاستخدام والإبلاغ.

3. الأداء والتحقق

  • إجراء عمليات تصحيح الأداء وتعديلها لتدفقات MLOps والتدفقات الأصلية من السحابة.
  • تطوير وصيانة معايير تحميل AI/ML وMLOps لشراء أنظمة جديدة.
  • إنشاء وتحديث أعباء اختبار الانحدار للمجموعات الموجودة.
  • نشر وصيانة مجموعات مراقبة الرؤية والموارد باستخدام Prometheus، Grafana، NVIDIA DCGM، وGrafana Loki.
  • المساهمة في تقييم التكنولوجيا وممارسات التحقق لعمليات الاستثمار في البنية التحتية المستقبلية.

4. التدريب والتوثيق

  • إنشاء محتوى تدريبي شامل للمستخدمين حول منصات MLOps، Kubernetes، وتجزئة الحاويات.
  • تطوير وصيانة وثائق المستخدم عالية الجودة لأدوات التدفق وأتمتة التدفقات.
  • دعم تقديم ورش عمل حول أفضل ممارسات CI/CD، وتنسيق الحاويات، وMLOps.
  • المساهمة في مبادرات نقل المعرفة داخل مجتمع أبحاث KAUST.
  • تقديم استشارات فردية للباحثين حول الاستخدام الفعال لبنية أتمتة البنية التحتية.

الكفاءات

  • خبرة ملموسة في تطوير أنابيب MLOps القوية والمعقدة.
  • خبرة عملية في تصميم ونشر واجهات برمجة التطبيقات.
  • خبرة في تطوير أنابيب CI/CD القوية والقابلة للنقل لنشر البنية التحتية والتدفق القابل للتكرار.
  • تفضيل الخبرة في دعم الباحثين أو العمل في بيئات الحوسبة الأكاديمية/البحثية.

- الأساسية

  • Kubernetes: خبرة قوية في Kubernetes، واجهة الشبكة الحاوية (CNI)، واجهة التخزين الحاوية (CSI)، وشبكة الخدمات.
  • MLOps: خبرة في تطوير وصيانة أنابيب MLOps والتدفقات.
  • CI/CD: كفاءة في بناء أنابيب CI/CD لنشر البنية التحتية والتطبيق.
  • تجزئة الحاويات: خبرة في بناء صور حاويات آمنة ومتوافقة مع OCI.
  • تطوير واجهة برمجة التطبيقات: خبرة في تصميم وتطوير ونشر واجهات برمجة التطبيقات.
  • البرمجة: كفاءة في بايثون؛ خبرة في Go، وتسجيل Bash.
  • Linux: مهارات قوية في إدارة أنظمة Linux/Unix.

- المطلوبة

  • خبرة في ArgoCD، Airflow، DASK، Spark لتنسيق التدفق.
  • خبرة في Kubeflow، KServe، وSeldon لخدمة ML والأنابيب.
  • خبرة في نشر وصيانة مجموعات المراقبة (Prometheus، Grafana، NVIDIA DCGM، Grafana Loki).
  • معرفة بروتوكول سياق النموذج (MCP) والأطر الوكيلة.
  • خبرة في نشر خدمات الاستدلال على نطاق واسع.
  • خبرة في نشر وصيانة سجلات الحاويات (Harbor) وسجلات النماذج (MLFlow، Kubeflow Model Registry، Artifact Hub).
  • خبرة في ممارسات GitOps وCode Infrastructure (Terraform، Ansible).
  • خبرة في جدولة HPC (SLURM) وتكامل HPC-cloud.

المهارات الناعمة

  • مهارات قوية في حل المشكلات والتحليل.
  • مهارات تواصل مكتوبة وشفوية ممتازة باللغة الإنجليزية.
  • عقلية خدمة العملاء مع الصبر لدعم مستويات مهارة متنوعة.
  • القدرة على العمل بشكل مستقل وكجزء من فريق تعاوني.
  • ممارسات قوية في التوثيق ومشاركة المعرفة.
  • حساسية ثقافية للعمل في بيئة دولية.

المؤهلات المفضلة

  • خبرة في المختبرات الوطنية أو مرافق الحوسبة البحثية الرئيسية.
  • خبرة في جدولة GPU وإدارة الموارد في Kubernetes.
  • خلفية في DevOps أو هندسة موثوقية الموقع (SRE).
  • المساهمات في مشاريع السحابة الأصلية أو MLOps مفتوحة المصدر.
  • المنشورات أو العروض التقديمية حول مواضيع MLOps، Kubernetes، أو الأتمتة.
  • معرفة رؤية المملكة العربية السعودية 2030 ومبادرات الذكاء الاصطناعي الوطنية.

الشهادات الإضافية

  • AWS/Azure/GCP، Terraform، NVIDIA DLI.
  • شهادات مثل CKA (مدير Kubernetes المعتمد)، CKAD (مطور تطبيقات Kubernetes المعتمد)، CKS (خبير Kubernetes للأمن)، أو CNPE (مهندس منصة Cloud Native المعتمد).

المؤهلات

  • درجة البكالوريوس أو الماجستير في علوم الكمبيوتر، أو علوم البيانات، أو العلوم الحسابية، أو الذكاء الاصطناعي، أو مجال ذي صلة.

المهارات المطلوبة

KubernetesMLOpsCI/CDContainerizationAPI DevelopmentPythonGoBash ScriptingLinuxArgoCD

Job Description

AI/ML Support Automation Analyst

About the Role

The AI/ML Support Automation Analyst will play a crucial role in the KSL AI Support Team, focusing on MLOps infrastructure, container orchestration, and workflow automation at a supercomputing scale. Working under the AI/ML Support Team Lead, this role is responsible for developing and maintaining secure, OCI-compliant container images, robust CI/CD pipelines, and cloud-native MLOps workflows that enable researchers to efficiently deploy and manage AI/ML workloads. The Analyst will bridge the gap between cutting-edge Kubernetes-based infrastructure and the diverse needs of the research community, contributing to governance, technical enablement, and community development initiatives.

Major Responsibilities

  1. MLOps and Container Development
  • Provide timely and useful user support via telephone, walk-in, email, and ticketing system submissions for all types of inquiries.
  • Maintain high customer service standards in dealing with and responding to user issues and questions.
  • Develop and maintain secure, OCI-compliant, and HPC-ready AI/ML and data science software container images.
  • Design and implement robust MLOps workflows and pipelines at supercomputing scale.
  • Develop and maintain CI/CD pipelines for reproducible infrastructure and workflow deployment.
  • Design and deploy APIs for AI/ML services and inference endpoints.
  • Implement and manage Kubernetes-based orchestration, including CNI, CSI, and service mesh configurations and optimization.
  • Deploy and maintain container registries (Harbor) and model registries (MLFlow, Kubeflow Model Registry).
  1. Governance and Compliance Support
  • Assist in computational readiness reviews for AI research projects.
  • Assist in AI model and artifact control reviews to ensure compliance with institutional standards.
  • Provide consultation to users on efficient resource usage for AI/ML and MLOps workflows.
  • Ensure container images and workflows comply with security policies and best practices.
  • Support the implementation of usage monitoring and reporting systems.
  1. Performance and Benchmarking
  • Perform performance debugging and tuning of MLOps and cloud-native workflows.
  • Develop and maintain AI/ML and MLOps workload benchmarks for procuring new systems.
  • Create and maintain regression testing workloads for existing clusters.
  • Deploy and maintain observability and resource monitoring stacks using Prometheus, Grafana, NVIDIA DCGM, and Grafana Loki.
  • Contribute to technology evaluation and benchmarking exercises for future infrastructure investments.
  1. Training and Documentation
  • Create comprehensive training content for users on MLOps platforms, Kubernetes, and containerization.
  • Develop and maintain high-quality user documentation for automation tools and workflows.
  • Support the delivery of workshops on CI/CD, container orchestration, and MLOps best practices.
  • Contribute to knowledge transfer initiatives within the KAUST research community.
  • Provide one-on-one consultation to researchers on efficient use of automation infrastructure.

Personal Requirements

Competencies

  • Demonstrated experience developing robust and complex MLOps pipelines.
  • Hands-on experience with API design and deployment.
  • Experience developing robust and portable CI/CD pipelines for reproducible infrastructure and workflow deployment.
  • Experience supporting researchers or working in academic/research computing settings preferred.

Technical Skills - Essential

  • Kubernetes: Strong expertise in Kubernetes, Container Network Interface (CNI), Container Storage Interface (CSI), and Service Mesh.
  • MLOps: Experience developing and maintaining MLOps pipelines and workflows.
  • CI/CD: Proficiency in building CI/CD pipelines for infrastructure and application deployment.
  • Containerization: Experience building secure, OCI-compliant container images.
  • API Development: Experience in API design, development, and deployment.
  • Programming: Proficiency in Python; experience with Go, Bash scripting.
  • Linux: Strong Linux/Unix systems administration skills.

Technical Skills - Desired

  • Experience with ArgoCD, Airflow, DASK, Spark for workflow orchestration.
  • Experience with Kubeflow, KServe, and Seldon for ML serving and pipelines.
  • Experience deploying and maintaining observability stacks (Prometheus, Grafana, NVIDIA DCGM, Grafana Loki).
  • Knowledge of Model Context Protocol (MCP) and agentic frameworks.
  • Experience deploying inference services at scale.
  • Experience deploying and maintaining container registries (Harbor) and model registries (MLFlow, Kubeflow Model Registry, Artifact Hub).
  • Experience with GitOps practices and Infrastructure as Code (Terraform, Ansible).
  • Experience with HPC schedulers (SLURM) and HPC-cloud integration.

Soft Skills

  • Strong problem-solving and analytical abilities.
  • Excellent written and verbal communication skills in English.
  • Customer service mindset with patience for supporting diverse skill levels.
  • Ability to work independently and as part of a collaborative team.
  • Strong documentation and knowledge-sharing practices.
  • Cultural sensitivity for working in an international environment.

Preferred Qualifications

  • Experience in national laboratories or major research computing facilities.
  • Experience with GPU scheduling and resource management in Kubernetes.
  • Background in DevOps or Site Reliability Engineering (SRE).
  • Contributions to open-source cloud-native or MLOps projects.
  • Publications or presentations on MLOps, Kubernetes, or automation topics.
  • Knowledge of Saudi Arabia's Vision 2030 and national AI initiatives.

Qualifications

  • Bachelor's or master’s degree in computer science, Data Science, Computational Science, Artificial Intelligence, or a related field.
  • Certifications such as CKA (Certified Kubernetes Administrator), CKAD (Certified Kubernetes Application Developer), CKS (Certified Kubernetes Security Specialist), or CNPE (Certified Cloud Native Platform Engineer) are highly valued.

Experience

  • Minimum of 2 years of relevant experience.