כיצד ליצור אשכול Hadoop עם EMR של אמזון?



במאמר זה נחקור את שירות AWS EMR ובתוך כך נלמד כיצד ליצור אשכול Hadoop עם EMR של אמזון?

במאמר זה בנושא כיצד ליצור אשכול עם אמזון EMR נראה כיצד להפעיל ולגדול בקלות יישומי Hadoop ו- Big Data. המצביעים הבאים יוסקרו במאמר זה,

ממשיכים הלאה עם איך ליצור אשכול Hadoop עם EMR של אמזון?





כיצד ליצור אשכול Hadoop עם EMR של אמזון?

כאשר אנו מחפשים משהו בגוגל או ביאהו, אנו מקבלים את התגובה בשבריר שנייה. איך יתכן שגוגל, יאהו ומנועי חיפוש אחרים יחזירו את התוצאות כל כך מהר מהרשת ההולכת וגדלה? מנועי החיפוש זוחלים באינטרנט, מורידים את דפי האינטרנט ויוצרים אינדקס כמוצג להלן. בכל שאילתה מאתנו, הם משתמשים באינדקס כדי להבין מהם כל דפי האינטרנט המכילים את הטקסט שחיפשנו. על ידי התבוננות באינדקס שלמטה בצד ימין, אנו יכולים לדעת בבירור כי Hadoop נמצא שם דף 1, 2 ו -3.

תמונה - כיצד ליצור אשכול Hadoop עם EMR של אמזון - Edurekaאז ה אלגוריתם דירוג דף משמש אשר מבוסס על האופן שבו הדפים מחוברים כדי להבין איזה עמוד להציג בחלק העליון ואיזה בתחתית. בתרחיש שלהלן W1 הוא ה'פופולרי ביותר 'מכיוון שכולם מקשרים אליו ו- W4 הוא ה'פחות פופולרי' מכיוון שאיש אינו מקשר אליו. אז, W1 מוצג למעלה ו- W4 בתחתית בתוצאות החיפוש.



עם התפוצצות דפי האינטרנט מנועי החיפוש הללו מצאו אתגרים ליצור אינדקס ולעשות חישובי PageRanking. זה המקום בו הולדתו של Hadoop התרחשה ביאהו ומאוחר יותר הפכה ל- FOSS (תוכנה חופשית וקוד פתוח) תחת ה- ASF (Apache Software Foundation). פעם אחת במסגרת ה- ASF, הרבה חברות התחילו להתעניין ב- Hadoop והחלו לתרום לשיפור זה. Hadoop היה זה שהחל את מהפכת ה- Big Data, אך הרבה תוכנות אחרות כמו Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume החלו להתפתח כדי להתמודד עם המגבלות והפערים ב- Hadoop.

מנועי חיפוש באינטרנט היו הראשונים שהשתמשו ב- Hadoop, אך מאוחר יותר הרבה מקרי שימוש החלו להתפתח ככל שנוצרו יותר ויותר נתונים. בואו ניקח דוגמא ליישום מסחר אלקטרוני המשמש להמלצה על ספרים למשתמש. בהתאם לתרשים שלהלן, המשתמש 1 קנה את הספר 1, את הספר 2 ואת הספר 3, המשתמש 2 קנה כמה ספרים וכן הלאה. במבט מקרוב נוכל לראות כי user1 ו- user2 הם בעלי טעם דומה לזה שקנו את book1 ו- book2. לכן, ניתן להמליץ ​​על book3 למשתמש 2 וניתן להמליץ ​​על book4 למשתמש 1. זה נקרא סינון שיתופי, סוג של אלגוריתם Machine Learning. אנו יכולים להפוך את התרשים שלהלן ולקבל ספרים דומים.

במקרה שלעיל יצרנו אינדקס, PageRanked והומלץ למשתמש, גודל הנתונים היה קטן ולכן הצלחנו לדמיין את הנתונים ולהסיק מהם כמה תוצאות. ככל שגודל הנתונים הולך וגדל מיום ליום ומחוץ לשליטה, כאן נכנסים לתמונה כלי הביג דאטה כמו Hadoop.



Hadoop פותר הרבה בעיות, אך התקנת Hadoop ותוכנות Big Data אחרות מעולם לא הייתה משימה קלה. ישנם הרבה פרמטרים לתצורה שניתן לשנות, כמו בעיות אינטגרציה, התקנה ותצורה שניתן לעבוד איתם. כאן חברות כמו קלודרה, ומסדי נתונים עוזרים. הם מקלים על התקנת תוכנת הביג דאטה ומספקים תמיכה מסחרית, למשל נניח שמשהו קורה בהפקה. אמזון EMR (Elastic MapReduce) מקלה בהרבה על השימוש ב- Hadoop וכו '. השם Elastic MapReduce הוא מעט שגוי שכן EMR תומך גם במודלים ממוחשבים מבוזרים אחרים כמו מערכי נתונים מבוזרים Resilient ולא רק MapReduce.

במדריך זה נחקור כיצד להתקין אשכול EMR ​​בענן AWS ובמדריך הקרוב נחקור כיצד להריץ תוכניות ספארק, כוורת ותוכנות נוספות עליו.

ממשיכים הלאה עם איך ליצור אשכול Hadoop עם EMR של אמזון?

הדגמה: יצירת אשכול EMR ​​ב- AWS

שלב 1: עבור אל מסוף הניהול של EMR ​​ולחץ על 'צור אשכול'. במסוף, המטא נתונים עבור ה- האשכול הסתיים נשמר גם חודשיים בחינם. זה מאפשר לשבט את האשכול שהופסק וליצור אותו שוב.

שלב 2 : ממסך האפשרויות המהיר, לחץ על 'עבור לאפשרויות מתקדמות' כדי לציין הרבה יותר פרטים על האשכול.

שלב 3: בכרטיסייה אפשרויות מתקדמות נוכל לבחור תוכנות שונות להתקנה באשכול EMR. עבור ממשק SQL ניתן לבחור את כוורת. עבור ממשק שפת זרימת נתונים, ניתן לבחור חזיר. לתיאום יישומים מבוזרים ניתן לבחור את ZooKeeper וכן הלאה. כרטיסייה זו מאפשרת לנו גם להוסיף שלבים, שהיא משימה אופציונלית. השלבים הם עבודות עיבוד Big Data באמצעות MapReduce, Pig, Hive וכו '. ניתן להוסיף אותם בכרטיסייה זו או מאוחר יותר לאחר יצירת האשכול. לחץ על 'הבא' כדי לבחור את החומרה הנדרשת לאשכול EMR.

שלב 4: Hadoop עוקב אחר ארכיטקטורת האב-עובד שבו המאסטר מבצע את כל התיאומים כמו תזמון והקצאת העבודה ובדיקת התקדמותם, בעוד העובדים מבצעים את העבודה בפועל של עיבוד ואחסון הנתונים. מאסטר יחיד הוא נקודת כשל יחידה (SPOF). אמזון EMR תומך ברב-מאסטר לזמינות גבוהה (HA). השלב הקודם מאפשר להתקין אשכול רב-מאסטר ב- EMR.

EMR מאפשר שני סוגים של צמתים, Core ו- Task. צומת הליבה משמש הן לעיבוד והן לאחסון הנתונים, צומת המשימות משמש לעיבוד הנתונים בלבד. לצורך הדרכה זו, אנו יכולים לבחור ליבה אחת בלבד וללא צמתים למשימה מכיוון שהיא כרוכה בעלויות נמוכות יותר עבורנו. כמו כן, בחר מקרים נקודתיים על לפי דרישה מכיוון שהמקרים ספוט זולים יותר. המלכוד עם מקרים ספוטים הוא שניתן לסיים אותם באמצעות AWS באופן אוטומטי עם התראה של שתי דקות . זה בסדר לצורך התרגול ובכמה תרחישים ממשיים. מופעים ספוטים מסתיימים אוטומטית מכיוון שיש להם עדיפות נמוכה על פני סוגי מופעים אחרים. לחץ על 'הבא'.

כיצד למצוא סוג נתונים בפייתון

שלב 5: ציין את שם האשכול. ולחץ על 'הבא'. שימו לב ש'הגנה על סיום 'מופעלת כברירת מחדל, הדבר מוודא כי אשכול ה- EMR לא יימחק בטעות על ידי הצגת מספר שלבים תוך כדי סיום האשכול.

שלב 6: בלשונית מוגדרות אפשרויות האבטחה השונות עבור אשכול EMR. יש לבחור את KeyPair לצורך כניסה למופע EC2. EMR ייצור באופן אוטומטי את התפקידים ואת קבוצות האבטחה המתאימות ויצרף אותם לציר ה- EC2 והעובד. לחץ על 'צור אשכול'.

יצירת האשכול אורכת מספר דקות מכיוון שיש לרכוש את מקרי ה- EC2 ולהתקין ולהגדיר את תוכנות ה- Big Data השונות. בתחילה מצב האשכול יהיה במצב 'התחלה' ויעבור למצב 'ממתין'. במצב 'מחכה' אשכול ה- EMR פשוט מחכה שנגיש עבודות עיבוד ביג דאטה שונות כמו MR, Spark, Hive וכו '.

כמו כן, הודעה ממסוף הניהול EC2 ושימו לב כי מופעי המאסטר ועובדי EC2 צריכים להיות במצב פועל. אלה המקרים הנקודתיים שנוצרו כחלק מיצירת אשכול EMR. ניתן לראות את אותו EC2 מכרטיסיית החומרה במסוף הניהול EMR. שים לב שבכרטיסייה חומרה המחיר עבור מופעי Spot EC2 מוזכר כ- 0.032 $ לשעה. מחיר המקרים של Spot ממשיך להשתנות עם הזמן והוא נמוך בהרבה ממחיר EC2 לפי דרישה.

שלב 7: כעת לאחר שהאשכול EMR ​​נוסף בהצלחה, ניתן להוסיף עבודות Steps או Big Data. עבור לכרטיסייה שלבים ולחץ על 'הוסף שלב' ובחר את סוג השלב (MR, Hive, Spark וכו '). אנו נחקור אותו במדריך הקרוב. לעת עתה לחץ על ביטול.

הפשטת נתונים c ++

שלב 8: עכשיו כשראינו כיצד להפעיל את ה- EMR, בואו נראה כיצד לעצור את אותו הדבר.

שלב 8.1: לחץ על סיים.

שלב 8.2: כאמור בשלבים הקודמים, 'הגנת סיום' מופעלת עבור אשכול ה- EMR ולחצן לסיים הושבת. לחץ על שנה.

שלב 8.3: בחר בלחצן הבחירה 'כבוי' ולחץ על סימן הסימון. כעת יש להפעיל את כפתור הסיום. זהו השלב הנוסף שהוצגה EMR, רק כדי לוודא שלא נמחק את אשכול ה- EMR בטעות.

שימו לב כי אשכול ה- EMR יהיה במצב סיום וה- EC2 יושבת. לבסוף, אשכול ה- EMR יועבר למצב הסתיים, מכאן החיוב שלנו עם AWS מפסיק. הקפד לסיים את האשכול, כדי לא להעלות עלויות AWS נוספות.

סיכום

במדריך זה ראינו כיצד להפעיל את אשכול ה- EMR תוך מספר דקות מקונסולת האינטרנט (דפדפן), ניתן לבצע אוטומציה של אותו באמצעות , AWS SDK או באמצעות AWS CloudFormation . כפי שניתן להבחין בהקמת אשכול EMR ​​זה עניין של מספר דקות וניתן להתחיל את עיבוד ה- Big Data באופן מיידי, לאחר סיום העיבוד ניתן לאחסן את הפלט ב S3 או DynamoDB וכך כיבוי האשכול כדי לעצור את החיוב. בגלל מודל תמחור זה וקלות השימוש, EMR הוא להיט גדול אצל מי שעושה עיבוד ביג דאטה. אין צורך לקנות שרת בכמויות אדירות, לקבל רישיונות לתוכנת הביג דאטה ולתחזק אותם. '

אז זהו זה חבר'ה, זה מביא אותנו לסוף מאמר זה בנושא כיצד ליצור אשכול Hadoop עם EMR של אמזון?אם ברצונך לצבור מומחיות בנושא זה, אדוריקה הגישה תוכנית לימודים שתכסה במדויק, מה תצטרך לפצח את בחינת אדריכל הפתרונות! אתה יכול להעיף מבט על פרטי הקורס עבור הַדְרָכָה.

בכל שאלה הקשורה לבלוג זה, אנא אל תהסס להעלות שאלה בסעיף ההערות למטה ונשמח להשיב לך בהקדם.