تُعد منتجات الذكاء الاصطناعي التوليدي جيدة بقدر البيانات التي تقف وراءها. يمتلك هذا الدور طبقة البيانات من البداية إلى النهاية: الأنابيب التي تجلب البيانات، التحولات التي تشكلها، وكيفية وصولها إلى أنظمة الاسترجاع، الوكلاء، والتحليلات. تعمل الوظيفة على AWS، والهدف هو مصدر محكوم واحد يمكن لكل مستهلك الاعتماد عليه.
نحن نرغب في شخص قام ببناء أنابيب بيانات لأنظمة الذكاء الاصطناعي، وليس فقط للتقارير. يعد إعداد البيانات لنماذج اللغة الكبيرة أو الوكلاء عملًا خاصًا بالتقسيم، التضمينات، الفهرسة، والحفاظ على محتوى محدث، وقد قمت بذلك من قبل. الفريق صغير ويشمل عدة لغات، لذا ستكون مسؤولاً عن أنابيبك وستساعد في تحديد المعايير التي سنتبعها.
ماذا ستقوم به
- بناء وتشغيل أنابيب الدفعات والدفق التي تنقل البيانات من أنظمة المصدر إلى البحيرة ومن ثم إلى المستودع، مع امتلاك الطبقات بينهما من البيانات الخام إلى المصنفة، إلى جانب مخطط البيانات، الجودة، والتسلسل.
- بناء طبقة البيانات وراء الاسترجاع: ربط المصادر، تحليل الوثائق، التقسيم، توليد التضمينات، وفهرسة المصفوفات، بما في ذلك إعادة تضمين المحتوى عند تغييره.
- نمذجة مجموعات البيانات والمقاييس المصنفة، بحيث يعمل مستهلكو الذكاء الاصطناعي والتحليلات من تعريف واحد بدلاً من إعادة بناء المنطق.
- إضافة عمليات التحقق من الجودة، التحقق، والرصد لظهور المشكلات قبل وصولها إلى النموذج أو المستخدم.
- تطبيق التحكم في الوصول حيث ينبغي: قواعد على مستوى الصف والعمود، التعامل مع البيانات الشخصية الحساسة، ومجموعات البيانات الواعية بالصلاحيات، مع فرضها كما يسمح به المكدس في وقت الاستعلام.
- العمل مع مهندسي المنصة ومهندسي DevOps لتعريض البيانات والاسترجاع كخدمات موثقة وموثوقة.
- الحفاظ على التكاليف في حدودها، مع الاهتمام الخاص بتكاليف التضمين وأعباء المصفوفات.
- مراجعة الكود، كتابة الوثائق، والمساعدة في تشكيل كيفية بناء الفريق لطبقة البيانات الخاصة به.
- ثماني سنوات أو أكثر في مجال هندسة البيانات بشكل عام. يشمل ذلك العمل العملي في بناء بيانات الذكاء الاصطناعي أو أنظمة التعلم الآلي مثل الاسترجاع، التضمينات، أو بيانات الخصائص، والتي يمكن أن تكون جزءًا حديثًا من خلفيتك.
- SQL قوية وقوية في بايثون، بما في ذلك PySpark أو معالجة موزعة مماثلة.
- خبرة في الإنتاج عبر مكدس بيانات AWS: S3 للبحيرة، Glue للتحويل وإعادة الهيكلة، Data Catalog للتحليلات، وRedshift كمستودع.
- خبرة عملية في بنية بيانات متعددة الطبقات، سواء أسميتها medallion (البرونزي، الفضي، الذهبي)، بحيرة بيانات تغذي مستودع، أو بحيرة منزلية، بما في ذلك بناء مراحل التحول التي تنقل البيانات من الخام إلى المصنفة.
- خبرة في أداة تحويل البيانات أو دمج مثل Airbyte، Fivetran، أو Meltano، بما في ذلك بناء أو صيانة المربطات.
- خبرة في أنابيب الأحداث باستخدام SQS و SNS، ومع تقنية واحدة على الأقل من دفق البيانات أو التقاط البيانات مثل Kinesis، Amazon MSK، أو Debezium.
- خبرة عملية في طبقة معجمية أو مقاييس فوق المستودع، مثل Cube أو dbt Semantic Layer.
- خبرة عملية في متجر واحد على الأقل وتدفق تضمين: pgvector، Amazon OpenSearch، Pinecone، Weaviate، أو Milvus.
- راحة في تنسيقات الأعمدة والجداول المفتوحة: Parquet مع Apache Iceberg، Delta Lake، أو Hudi.
- معرفة عملية بمُنسق مثل Amazon MWAA، Step Functions، Dagster، أو Prefect، وكفاية في كود البنية التحتية للعمل عن كثب مع DevOps.
المهارات المطلوبة
بناء أنابيب البياناتتحويل البياناتفهرسة المصفوفاتتضمينات المحتوىالتحكم في الوصولمكدس AWSSQLبايثونPySparkمعالجة موزعة
شارك هذه الوظيفة
تنبيهات ذكية
اختر متى نخبرك. · 1 مفعّل
كل وظائف ميراي
جميع الوظائف الجديدة
وظائف في الرياض
وظائف جديدة في هذه المدينة
وظائف البيانات والتحليلات
وظائف في نفس المجال
