הדרכת YARN של Hadoop - למד את יסודות ארכיטקטורת YARN



בלוג זה מתמקד ב- Apache Hadoop YARN שהוצג ב- Hadoop גרסה 2.0 לניהול משאבים ותזמון עבודה. זה מסביר את ארכיטקטורת YARN על מרכיביה והחובות שמבצע כל אחד מהם. הוא מתאר את הגשת היישום ואת זרימת העבודה ב- Apache Hadoop YARN.

Hadoop YARN סורג את יחידת האחסון של Hadoop כלומר HDFS (Hadoop Distributed File System) בעזרת כלי העיבוד השונים. לאלו מכם שחדשים לחלוטין את הנושא הזה, YARN מייצג ' י ו ל לא אחר ר esource נ אגואיטור '. אני גם מציע לך לעבור על שלנו ו לפני שתמשיך ללמוד אפאצ'י Hadoop YARN. אסביר את הנושאים הבאים כאן כדי לוודא שבסוף הבלוג הזה הבנתך את Hadoop YARN ברורה.

מדוע חוט?

בגרסת Hadoop 1.0 המכונה גם MRV1 (MapReduce גרסה 1), MapReduce ביצעה הן פונקציות עיבוד והן ניהול משאבים. זה כלל גשש משרות שהיה המאסטר היחיד. מעקב אחר משרות הקצה את המשאבים, ביצע תזמון ופיקח על עבודות העיבוד. זה הקצה מפה והפחתת משימות במספר תהליכים כפופים הנקראים מעקב אחר המשימות. עוקבי המשימות דיווחו מעת לעת למעקב אחר משרות.





MapReduce גרסה 1.0 - Hadoop YARN - Edureka

תכנון זה הביא לצוואר בקבוק המדרגיות עקב מעקב אחר משרות יחיד.יבמ הזכירה במאמר שלה כי על פי יאהו!, הגבולות הפרקטיים של תכנון כזה מגיעים לאשכול של 5000 צמתים ו 40,000 משימות הפועלות במקביל.מלבד מגבלה זו, ניצול משאבי החישוב אינו יעיל ב- MRV1. כמו כן, מסגרת Hadoop הפכה מוגבלת רק לפרדיגמת העיבוד של MapReduce.



כדי להתגבר על כל הבעיות הללו, הוצגה YARN בגירסת Hadoop 2.0 בשנת 2012 על ידי Yahoo ו- Hortonworks. הרעיון הבסיסי שעומד מאחורי YARN הוא להקל על MapReduce על ידי לקיחת האחריות על ניהול משאבים ותזמון עבודה. YARN החל לתת ל- Hadoop את היכולת להפעיל עבודות שאינן MapReduce במסגרת Hadoop.

אתה יכול גם לצפות בסרטון הבא שבו שלנו מומחה דן במושגי YARN והארכיטקטורה שלו בפירוט.

הדרכת חוטים של Hadoop | אדריכלות חוטים של Hadoop | אדוריקה

עם כניסתו של YARN, ה- היה מהפכני לחלוטין. זה נעשה הרבה יותר גמיש, יעיל וניתן להרחבה. כאשר יאהו עלתה לאוויר עם YARN ברבעון הראשון של 2013, זה סייע לחברה לכווץ את גודל אשכול Hadoop שלה מ- 40,000 צמתים ל- 32,000 צמתים. אך מספר המשרות הוכפל ל -26 מיליון לחודש.



מבוא ל- Hadoop YARN

עכשיו, לאחר שהארתי אותך עם הצורך ב- YARN, הרשה לי להציג בפניך את מרכיב הליבה של Hadoop v2.0, חוּט . YARN מאפשר שיטות עיבוד נתונים שונות כמו עיבוד גרפים, עיבוד אינטראקטיבי, עיבוד זרמים וכן עיבוד אצווה להפעלת ועיבוד נתונים המאוחסנים ב- HDFS. לכן YARN פותח את Hadoop לסוגים אחרים של יישומים מבוזרים מעבר ל- MapReduce.

מהי מסגרת האביב

YARN אפשר למשתמשים לבצע פעולות לפי הדרישה באמצעות מגוון כלים כמו לעיבוד בזמן אמת, כוורת עבור SQL, HBase עבור NoSQL ואחרים.

מלבד ניהול משאבים, YARN מבצע גם תזמון עבודה. YARN מבצע את כל פעילויות העיבוד שלך על ידי הקצאת משאבים ותזמון משימות. אדריכלות YARN של אפאצ'י Hadoop מורכבת מהמרכיבים העיקריים הבאים:

  1. מנהל משאבים : פועל על שד ראשי ומנהל את הקצאת המשאבים באשכול.
  2. מנהל הצומת: הם פועלים על הדמונים של העבדים ואחראים על ביצוע משימה בכל צומת נתונים אחד.
  3. מנהל הבקשה: מנהל את מחזור חיי העבודה ואת צרכי המשאבים של יישומים בודדים. זה עובד יחד עם מנהל הצומת ומפקח על ביצוע המשימות.
  4. מְכוֹלָה: חבילה של משאבים כולל זיכרון RAM, מעבד, רשת, HDD וכו 'בצומת יחיד.

רכיבי YARN

אתה יכול לשקול את YARN כמוח של המערכת האקולוגית שלך ב- Hadoop. התמונה למטה מייצגת את אדריכלות YARN.

ה רכיב ראשון של YARN אדריכלות הוא,

מנהל משאבים

  • זו הסמכות האולטימטיבית בהקצאת משאבים .
  • בקבלת בקשות העיבוד, הוא מעביר חלקי בקשות למנהלי הצומת המתאימים בהתאם, במקום בו העיבוד בפועל מתרחש.
  • הוא הבורר של משאבי האשכול ומחליט על הקצאת המשאבים הזמינים ליישומים מתחרים.
  • מייעל את ניצול האשכול כמו לשמור על כל המשאבים בשימוש כל הזמן כנגד מגבלות שונות כגון ערבות יכולת, הוגנות ו- SLA.
  • יש לו שני מרכיבים עיקריים:א) מתזמןב)מנהל יישומים

א) מתזמן

  • המתזמן אחראי על הקצאת משאבים ליישומים הפועלים השונים בכפוף למגבלות יכולות, תורים וכו '.
  • זה נקרא מתזמן טהור ב- ResourceManager, מה שאומר שהוא לא מבצע שום ניטור או מעקב אחר סטטוס עבור היישומים.
  • אם יש כשל ביישום או כשל חומרה, המתזמן אינו מתחייב להפעיל מחדש את המשימות שנכשלו.
  • מבצע תזמון על פי דרישות המשאבים של היישומים.
  • יש לו תוסף מדיניות תקע, שאחראי על חלוקת משאבי האשכול בין היישומים השונים. ישנם שני תוספים כאלה: מתזמן קיבולת ו מתזמן הוגן , המשמשים כיום כמתזמנים ב- ResourceManager.

ב) מנהל יישומים

  • היא אחראית לקבל הגשות עבודה.
  • מנהל משא ומתן על המכולה הראשונה ממנהל המשאבים לצורך ביצוע מנהל היישומים הספציפי ליישום.
  • מנהל הפעלת מאסטרי היישומים באשכול ומספק שירות להפעלה מחדש של מיכל היישום מאסטר כשל.

מגיע ל מרכיב שני שהוא:

מנהל הצומת

  • הוא מטפל בצמתים בודדים באשכול Hadoop ומנהל עבודות משתמש וזרימת עבודה בצומת הנתון.
  • הוא נרשם במנהל המשאבים ושולח פעימות לב עם מצב הבריאות של הצומת.
  • מטרתו העיקרית היא לנהל מכלי יישומים שהוקצו לו על ידי מנהל המשאבים.
  • זה מעודכן עם מנהל המשאבים.
  • מנהל היישומים מבקש את המכולה שהוקצה ממנהל הצומת על ידי שליחתו Context Launch Launch (CLC) הכולל את כל מה שהיישום זקוק לו על מנת להריץ. מנהל הצומת יוצר את תהליך המיכל המבוקש ומתחיל אותו.
  • עוקב אחר השימוש במשאבים (זיכרון, מעבד) של מכולות בודדות.
  • מבצע ניהול יומן.
  • זה גם הורג את המכולה בהתאם להוראות מנהל המשאבים.

ה רכיב שלישי של אפאצ'י Hadoop YARN הוא,

מאסטר יישומים
  • בקשה היא משרה אחת המוגשת למסגרת. לכל יישום כזה קשור מאסטר יישומים ייחודי שהוא ישות ספציפית למסגרת.
  • התהליך הוא זה שמתאם את ביצוע היישום באשכול ומנהל גם תקלות.
  • המשימה שלה היא לנהל משא ומתן על משאבים ממנהל המשאבים ולעבוד עם מנהל הצומת כדי לבצע ולפקח על משימות הרכיב.
  • היא אחראית לנהל משא ומתן על מכלי משאבים מתאימים מ- ResourceManager, לעקוב אחר מעמדם ולעקוב אחר ההתקדמות.
  • לאחר ההתחלה, הוא מעביר מעת לעת פעימות לב למנהל המשאבים כדי לאשר את תקינותו ולעדכן את הרשומה של דרישות המשאבים שלו.

ה מרכיב רביעי הוא:

מְכוֹלָה
  • זהו אוסף של משאבים פיזיים כגון RAM, ליבות מעבד ודיסקים בצומת יחיד.
  • מכולות YARN מנוהלות על ידי הקשר להפעלת מכולה שהוא מחזור החיים של המכולה (CLC). רשומה זו מכילה מפה של משתני סביבה, תלות המאוחסנת באחסון נגיש מרחוק, אסימוני אבטחה, מטען עבור שירותי Node Manager והפקודה הדרושה ליצירת התהליך.
  • הוא מעניק זכויות ליישום להשתמש בכמות מסוימת של משאבים (זיכרון, מעבד וכו ') על מארח ספציפי.

הגשת בקשה ב- YARN

עיין בתמונה והסתכל בשלבים הכרוכים בהגשת היישום של Hadoop YARN:

1) הגיש את התפקיד

2)קבל מזהה יישום

def __init __ (עצמי)

3) הקשר להגשת בקשה

ההבדל בין העמסת יתר לשיטה

4 א) התחל מיכללְהַשִׁיק

ב) הפעל את מאסטר היישומים

5) הקצאת משאבים

6 א) מיכל

ב) הפעלה

7) ביצוע

זרימת עבודה של יישומים ב- Hadoop YARN

עיין בתמונה הנתונה וראה את השלבים הבאים המעורבים בתהליך העבודה של היישום של Apache Hadoop YARN:

  1. הלקוח מגיש בקשה
  2. מנהל המשאבים מקצה מיכל להפעלת מנהל האפליקציות
  3. מנהל היישומים נרשם במנהל המשאבים
  4. מנהל היישומים שואל מכולות ממנהל המשאבים
  5. מנהל היישומים מודיע ל- Node Manager כי הוא משיק מכולות
  6. קוד היישום מבוצע במכולה
  7. לקוח יוצר קשר עם מנהל משאבים / מנהל יישומים כדי לפקח על מצב היישום
  8. מנהל היישומים מבטל רישום עם מנהל המשאבים

עכשיו שאתה מכיר את אפאצ'י Hadoop YARN, בדוק את מאת אדוריקה, חברת למידה מקוונת מהימנה עם רשת של יותר מ -250,000 לומדים מרוצים הפזורים ברחבי העולם. קורס הכשרת ההסמכה של אדוריקה ביג דאטה Hadoop עוזר ללומדים להיות מומחים בתחום HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume ו- Sqoop תוך שימוש במקרי שימוש בזמן אמת בתחום הקמעונאות, מדיה חברתית, תעופה, תיירות, פיננסים.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.