מבוא למעקב אחר Hadoop Job



זה נותן תובנה לשימוש במעקב אחר משרות

מיזוג נתונים בתמונה 10

Hadoop Job Tacker

מעקב אחר משרות הוא הדמון הראשי הן לניהול משאבי עבודה והן לתזמון / מעקב אחר משרות. זה משמש כקשר בין Hadoop לבין היישום שלך.





התהליך

המשתמש מעתיק תחילה קבצים אל מערכת הקבצים המבוזרים (DFS), לפני שהוא מגיש עבודה ללקוח. לאחר מכן הלקוח מקבל קבצי קלט אלה. המשתמש יקבל את הפיצולים או הבלוקים על בסיס קבצי הקלט.הלקוח יכולליצור את הפיצולים או הבלוקים בגברנר זה עדיףשכן ישנם שיקולים מסוימים שמאחוריו. אם נעשה ניתוח על הנתונים המלאים, תחלק את הנתונים לפיצולים. קבצים אינם מועתקים דרך לקוח, אלא מועתקים באמצעות פלומה או Sqoop או כל לקוח חיצוני.

לאחר שהקבצים מועתקים ל- DFS והלקוח מקיים אינטראקציה עם ה- DFS,הפיצולים יפעילו MapReduce job. התפקיד מוגש באמצעות מעקב אחר משרות. מעקב העבודה הוא הדמון הראשי שפועל באותו צומת זהרץעבודות מרובות אלה בצמתי נתונים. נתונים אלה יהיו מונחים על צמתים שונים של נתונים, אך באחריותו של גשש העבודה לדאוג לכך.



לאחר שלקוח מגיש הלאהאת מעקב העבודה, המאתחל את התפקיד בתור המשרה ומעקב העבודה יוצר מפות ומצמצם. בהתבסס על התוכנית הכלולה בפונקציית המפה ופונקציית הצמצום, היא תיצור את משימת המפה ותצמצם את המשימה. שני אלה יפעלו על פיצולי הקלט. הערה: כאשר נוצר על ידי הלקוחות, פיצול קלט זה מכיל את כל הנתונים.

בכל פיצול קלט פועלת עבודת מפה והפלט של משימת המפה נכנס למשימת הצמצום. מעקב אחר משרות מפעיל את המסלול על נתונים מסוימים. יכולות להיות מספר שכפולות של זה כך שהוא בוחר את הנתונים המקומיים ומפעיל את המשימה באותו מעקב אחר משימות. מעקב המשימות הוא זה שמריץ את המשימה בפועל בצומת הנתונים. מעקב אחר משרות יעבור אתמֵידָעלמעקב אחר המשימות ומעקב המשימות יפעיל את העבודה על צומת הנתונים.

לאחר שהמשימה הוקצתה למעקב אחר המשימות, קיים פעימות לב לכל מעקב אחר משימה ומעקב אחר משימה. זה שולח אותות כדי לברר אם צמתי הנתונים עדיין בחיים. לעתים קרובות השניים מסונכרנים מכיוון שיש אפשרות לצמתים לדהות.



יש לך שאלה עבורנו? הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים: