Cloudera Hadoop: תחילת העבודה עם CDH Distribution



הבלוג הזה של אדוריקה במדריך Cloudera Hadoop ייתן לך תובנה מלאה של רכיבי Cloudera שונים כמו מנהל Cloudera, חבילות, גוון וכו '.

עם הביקוש הגובר לביג דאטה, ואפצ'י חדופ הואבְּ-בלב המהפכה, היא שינתה את הדרך בה אנו מארגנים ומחושבים את הנתונים. הצורך בארגונים להתאים את Hadoop לצרכיהם העסקיים דלק את הופעתן של ההפצות המסחריות. הפצות מסחריות של Hadoop ארוזות בדרך כלל עם תכונות, שנועדו לייעל את הפריסה של Hadoop. הפצת Cloudera Hadoop מספקת פלטפורמה משולבת, גמישה ומשולבת, שמאפשרת לנהל בקלות הגדלת כמויות גדולות וזני נתונים בארגון שלך.

בבלוג זה על הפצת Cloudera Hadoop, נעסוק בנושאים הבאים:





Cloudera Hadoop: מבוא ל- Hadoop

Hadoop היא מסגרת קוד פתוח של אפאצ'י המאחסנת ומעבדת Big Data בסביבה מבוזרתמעבר לאשכול באמצעות דגמי תכנות פשוטים. Hadoop מספק חישוב מקביל על גבי אחסון מבוזר.למידע נוסף על Hadoop בפירוט מאת אתה יכול להתייחס לזה

לאחר ההקדמה הקצרה הזו ל- Hadoop, הרשו לי להסביר כעת את הסוגים השונים של הפצת Hadoop.



Cloudera Hadoop: הפצות Hadoop

מכיוון שאפאצ'י Hadoop הוא קוד פתוח, חברות רבות פיתחו הפצות החורגות מקוד הקוד הפתוח המקורי. זה דומה מאוד להפצות לינוקס כמו RedHat, Fedora ו- Ubuntu. כל אחת מההפצות של לינוקס תומכת בפונקציות ותכונות משלה כמו GUI ידידותי למשתמש באובונטו. בדומה לכך, כובע אדום פופולרי בארגונים מכיוון שהוא מציע תמיכה ומספק גם אידיאולוגיה לבצע שינויים בכל חלק במערכת כרצונו. Red Hat מקל על בעיות תואמות תוכנה. זה בדרך כלל נושא גדול עבור המשתמשיםשעוברים מ- Windows.

כמו כן, ישנם 3 סוגים עיקריים של הפצות Hadoop שיש להם סט פונקציות ותכונות משלה, והם בנויים תחת HDFS הבסיסי.

Cloudera לעומת MapR לעומת Hortonworks

איור: MapR לעומת Hortonworks לעומת Cloudera

איור: MapR לעומת Hortonworks לעומת Cloudera



הפצת Cloudera Hadoop

Cloudera היא מגמת השוק בחלל Hadoop והיא הראשונה שמשחררת הפצה מסחרית של Hadoop. הוא מציע שירותי ייעוץ כדי לגשר על הפער בין 'מה אפאצ'י הדופ מספק' לבין 'מה ארגונים צריכים'.

תפוצה Cloudera היא:

  • מהיר לעסקים : מניתוח ועד מדע נתונים וכל מה שביניהם, Cloudera מספק את הביצועים הדרושים לך כדי לפתוח את הפוטנציאל של נתונים בלתי מוגבלים.
  • עושה את Hadoop קל לניהול : עם Cloudera Manager, אשפים אוטומטיים מאפשרים לך לפרוס במהירות את האשכול שלך, ללא קשר לסולם או לסביבת הפריסה.
  • מאובטח ללא פשרות: עונה על צרכי אבטחת נתונים ותאימות מחמירים מבלי לוותר על הזריזות העסקית. Cloudera מספק גישה משולבת לאבטחת נתונים וממשל.

הורטון-וורקס הפצה

פלטפורמת הנתונים של Horton-Works (HDP) היא כולה פלטפורמת קוד פתוח המיועדת לתמרון נתונים ממקורות ופורמטים רבים. הפלטפורמה כוללת כלים שונים של Hadoop כגון מערכת הקבצים המבוזרים של Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive ורכיבים נוספים.

הוא תומך גם בתכונות כמו:

  • HDP עושה Hive מהר יותר באמצעות פרויקט סטינגר החדש שלו.
  • HDP נמנע מנעילת ספק על ידי התחייבות לגרסת מזלג של Hadoop.
  • HDP מתמקדת בשיפור ה- שְׁמִישׁוּת של פלטפורמת Hadoop.

הפצת MapR

MapR היא ספקית פתרונות Hadoop ממוקדת, ממש כמו HortonWorks ו- Cloudera. MapR משלבת מערכת מסדי נתונים משלה, המכונה MapR-DB תוך שהיא מציעה שירותי הפצה של Hadoop. טוענים כי MapR-DB מהיר פי ארבעה עד שבע יותר ממסד הנתונים של Hadoop, כלומר HBase, שמבוצע בהפצות אחרות.

יש לו תכונות מסקרנות כמו:

  • זו ההפצה היחידה של Hadoop הכוללת Pig, Hive ו- Sqoop ללא תלות Java - מכיוון שהיא נשענת על MapR-File System.
  • MapR היא הפצת Hadoop המוכנה ביותר עם שיפורים רבים שהופכים אותה לידידותית יותר, מהירה ואמינה יותר.

עכשיו בואו נדון בהפצת Cloudera Hadoop לעומק.

הירשם לערוץ YouTube שלנו כדי לקבל עדכונים חדשים ...

Cloudera Hadoop: הפצת Cloudera

Cloudera הוא השחקן המוכר ביותר בחלל Hadoop שהוציא את ההפצה המסחרית הראשונה של Hadoop.

איור: הפצת Cloudera Hadoop

Cloudera Hadoop Distribution תומך במערך התכונות הבא:

  1. ה- CDH של Cloudera כולל את כל רכיבי הקוד הפתוח, מכוון לפריסות ברמה ארגונית, והוא אחד ההפצות המסחריות הפופולריות ביותר של Hadoop.
  2. Cloudera, שהיה ידוע בחידושים שלו, היה הראשון שהציע SQL-for-Hadoop עם שלה אימפלה מנוע שאילתה.
  3. קונסולת הניהול - מנהל קלודדרה , קל לשימוש ולהטמעה כאשר ממשק המשתמש העשיר מציג את כל פרטי האשכול בצורה מסודרת ונקייה.
  4. ב- CDH תוכלו להוסיף שירותים לאשכול ההפעלה ללא כל הפרעה.
  5. תוספות אחרות של Cloudera כוללות אבטחה, ממשק משתמש וממשקים לשילוב עם יישומי צד שלישי.
  6. CDH מספק תבניות צומת כלומר זה מאפשר ליצור קבוצת צמתים באשכול Hadoop עם תצורה משתנה. זה מחסל את השימוש באותה תצורה בכל אשכול Hadoop.
  7. הוא תומך גם ב:
    • מהימנות
      ספקי Hadoop פועלים מייד בתגובה בכל פעם שמתגלה באג. מתוך כוונה להפוך את הפתרונות המסחריים ליציבים יותר, תיקונים ותיקונים נפרסים באופן מיידי.
    • תמיכה
      ספקי Cloudera Hadoop מספקים הדרכה טכנית וסיוע שמאפשרים ללקוחות לאמץ את Hadoop למשימות ברמה ארגונית ויישומים קריטיים למשימה.

    • שְׁלֵמוּת
      ספקי Hadoop משלבים את ההפצות שלהם עם כלים נוספים על תוספות המסייעים ללקוחות להתאים אישית את יישום Hadoop כדי להתמודד עם המשימות הספציפיות שלהם.

הפצות Cloudera מגיעות עם שני סוגים שונים של מהדורות.

  1. מהדורת Cloudera Express
  2. מהדורת Enterprise Cloudera

עכשיו בואו נסתכל על ההבדלים ביניהם.

תכונות קלודרה אקספרס Cloudera-Enterprise
ניהול אשכולות
1. ניהול רב-אשכולותכןכן
2. ניהול משאביםכןכן
פְּרִיסָה
1. תמיכה ב- CDH 4 ו- 5כןכן
2. שדרוג מתגלגל של CDHלאכן
ניהול שירות ותצורה
1. נהל שירותי HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark ו- Accumuloכןכן
2. הפעלה מחדש של שירותיםלאכן
בִּטָחוֹן
1. אימות LDAPלאכן
2. אימות SAMLלאכן
ניטור ואבחון
1. היסטוריית בריאותכןכן
ניהול התראות
1. התראה באמצעות דואר אלקטרוניכןכן
2. התראה באמצעות SNMPלאכן
תכונות ניהול מתקדמות
1. גיבוי ושחזור אוטומטייםלאכן
2. גלישה וחיפוש קבציםלאכן
3. דוחות שימוש בחוטים באמצעות MapReduce, Impala, HBaseלאכן

Cloudera Hadoop: מנהל Cloudera

על פי Cloudera, מנהל Cloudera הוא הדרך הטובה ביותר להתקין , להגדיר , לנהל , ו לפקח ערימת Hadoop.

זה מספק:

  1. פריסה ותצורה אוטומטית
  2. ניטור ודיווח הניתנים להתאמה אישית
  3. פתרון בעיות חסון ללא מאמץ
  4. אפס - תחזוקת זמן השבתה

קבל ידע מעמיק על Cloudera Hadoop ועל הכלים השונים שלה

הפגנה של מנהל קלודרה

בואו לחקור את מנהל Cloudera.

1. איור להלן מציג את מספר השירותים הפועלים כעת במנהל Cloudera. ניתן גם להציג את התרשימים אודות שימוש במעבד אשכול, שימוש בדיסק IO וכו '.

איור: דף הבית של מנהל קלודרה

2. התמונה למטה מדגימה את אשכול HBase. זה נותן לך תרשימים וגרפים לגבי מצבי הבריאות של שרת HBase REST הפועל כעת.

איור: מצבי בריאות של שרת HBase

3. כעת, בואו נסתכל על הכרטיסייה מופעים של אשכול HBase שם תוכלו לבדוק את הסטטוס ואת תצורת ה- IP.

איור: סטטוס וכתובת IP של שרת המארח של אשכול HBase

4. לאחר מכן, יש לך את הכרטיסייה תצורה. כאן תוכלו לראות את כל פרמטרי התצורה ולשנות את ערכיהם.

איור: תצורה של אשכול HBase

עכשיו, בואו נבין מה הם חבילות בקלודרה.

Cloudera Hadoop: חבילות

חבילה היא פורמט הפצה בינארי המכיל את קבצי התוכנית, יחד עם מטא נתונים נוספים המשמשים את מנהל קלודרה.

חבילות הן עצמאיות ומותקנות בספריה עם גרסאות, מה שאומר שניתן להתקין מספר גרסאות של שירות נתון זו לצד זו.

להלן היתרונות של שימוש בחבילה:

  • הוא מספק הפצה של CDH כאובייקט יחיד, כלומר במקום שיש חבילה נפרדת לכל חלק ב- CDH, לחבילות יש רק אובייקט יחיד להתקנה.

  • הוא מציע עקביות פנימית (מכיוון שה- CDH המלא מופץ כחבילה אחת, כל רכיבי ה- CDH מותאמים ולא יהיה סיכון לחלקים שונים שיגיעו מגרסאות שונות של CDH).

  • באפשרותך להתקין, לשדרג, לשדרג לאחור, להפיץ ולהפעיל את החבילות ב- CDH באמצעות לחיצות מעטות.

עכשיו, בואו נראה כיצד להתקין ולהפעיל את שירות קפקא ב- CDH באמצעות חבילות.

  1. עבור לדף הבית של מנהל Cloudera >> מארחים >> חבילות כמוצג להלן

    איור: בחירת חבילות מהמארחים

2. אם אינך רואה את קפקא ברשימת החבילות, תוכל להוסיף את החבילה לרשימה.

  1. מצא את החבילה של גרסת הקפקא בה ברצונך להשתמש. אם אינך רואה זאת, תוכל להוסיף את מאגר החבילות לרשימה.
  2. מצא את החבילה עבור גרסת ה- Kafka שברצונך להתקין - הפצת Cloudera של גרסאות אפאצ'י קפקא .
    האיור למטה מדגים את אותו הדבר.

איור: נתיב מאגר לחבילה.

3. העתק את הקישור כפי שמוצג באיור לעיל והוסף אותו למאגר החבילות המרוחק כמוצג להלן.

איור: הוספת שביל קפקא מהמאגר

ארבע.לאחר הוספת הנתיב, קפקא יהיה מוכן להורדה. אתה פשוט יכול ללחוץ על כפתור ההורדה ולהוריד את הקפקא.

איור: הורדת הקפקא

5. לאחר הורדת קפקא, כל שעליך לעשות הוא להפיץ ולהפעיל אותו.

איור: הפעלת הקפקא

לאחר הפעלתו, תוכל להמשיך ולהציג את קפקא בכרטיסיית השירותים במנהל Cloudera.

איור: שירות קפקא

Cloudera Hadoop: יצירת זרימת עבודה של Oozie

יצירת זרימת עבודה על ידי כתיבה ידנית של קוד ה- XML ​​ואז ביצועו, היא מסובכת. אתה יכול להפנות זאת תזמון העבודה Oozie בלוג, לדעת על הגישה המסורתית.

אתה יכול לראות את התמונה למטה, שם כתבנו קובץ XML כדי ליצור זרימת עבודה פשוטה של ​​Oozie. איור: יצירת זרימת עבודה של Oozie באמצעות גישה מסורתית

כפי שאתה יכול לראות אפילו כדי ליצור מתזמן פשוט של Oozie היינו צריכים לכתוב קוד XML ענק שדורש זמן רב, וניקוי באגים בכל שורה הופך להיות מסורבל. על מנת להתגבר על כך, מנהל קלודרה הציג תכונה חדשה בשם צֶבַע המספק ממשק משתמש ופונקציות גרירה ושחרור פשוטות ליצירת וביצוע תהליכי עבודה של Oozie.

עכשיו בואו נראה איך גוון מבצע את אותה משימה בצורה פשוטה.

לפני יצירת זרימת עבודה, בואו ניצור תחילה קבצי קלט, כלומר clickstream.txt ו- user.txt.
בקובץ user.txt יש לנו מזהה משתמש, שם, גיל, מדינה, מין, כפי שמוצג להלן. אנו זקוקים לקובץ משתמש זה כדי לדעת שהמשתמש סופר ולוחץ על כתובת ה- URL (המוזכרת בקובץ clickstream) בהתבסס על מזהה המשתמש.

איור: יצירת קובץ טקסט

על מנת לדעת את מספר הקליקים על ידי המשתמש בכל כתובת אתר, יש לנו זרם קליקים המכיל את מזהה המשתמש ואת כתובת האתר.

איור: קובץ Clickstream

בואו לכתוב את השאילתות בקובץ הסקריפט.

איור: קובץ סקריפט

לאחר יצירת קובץ המשתמש, הקובץ streamstream וקובץ הסקריפט הבא, נוכל ליצור את זרימת העבודה של Oozie.

1. תוכלו פשוט לגרור ולשחרר את זרימת העבודה של Oozie כפי שמוצג בתמונה.

איור: תכונת גרור ושחרר של יצירת זרימת העבודה של Oozie

c ++ למיין מערך

2. זמן קצר לאחר השמטת הפעולה עליכם לציין את הנתיבים לקובץ הסקריפט ולהוסיף את הפרמטרים המוזכרים בקובץ הסקריפט. כאן עליך להוסיף פרמטרים OUTPUT, CLICKSTREAM ו- USER ולציין את הנתיב לכל אחד מהפרמטרים.

איור: הוספת קובץ סקריפט והפרמטרים הנדרשים לביצוע הפעולה

3. לאחר שציינתם את הנתיבים והוספתם את הפרמטרים, כעת פשוט שמרו והגישו את זרימת העבודה כפי שמוצג בתמונה למטה.

איור: שמירה והגשת פעולת Oozie

4. לאחר הגשת המשימה, עבודתך הושלמה. הביצוע ושאר הצעדים מטופלים על ידי גוון.

איור: סטטוס ביצוע של תפקיד Oozie

5.עכשיו, לאחר שביצענו את העבודה של Oozie, בואו נסתכל בכרטיסיית הפעולה. הוא מכיל את מזהה המשתמש ואת הסטטוס של זרימת העבודה. זה גם מציג קודי שגיאה אם ​​הם קיימים, זמן ההתחלה והסיום של פריט הפעולה.

איור: אלמנטים הנמצאים בלשונית הפעולה של זרימת העבודה Oozie

6. לצד כרטיסיית הפעולה נמצאת לשונית הפרטים. בכך אנו יכולים לראות את שעת ההתחלה ואת השעה האחרונה שהשתנתה של העבודה.

איור: פרטים על זרימת העבודה Oozie.

7. לצד הכרטיסייה פרטים, יש לנו את הכרטיסייה תצורה של זרימת העבודה.

איור: הגדרות תצורה של זרימת העבודה Oozie

7. בעת ביצוע פעולת הפעולה, אם ישנן שגיאות, היא תופיע בכרטיסיית יומן. אתה יכול להתייחס להצהרות השגיאה ולפתור את הבעיה בהתאם.

איור: קובץ יומן המכיל קודי שגיאה והצהרות שגיאה

8. הנה קוד ה- XML ​​של זרימת העבודה שנוצר אוטומטית על ידי Hue.

איור: קוד XML של זרימת העבודה Oozie

9.1. כפי שכבר ציינת את הנתיב עבור ספריית הפלט בשלב 2, הנה לך את ספריית הפלט בדפדפן HDFS כמוצג להלן.

איור: ספריית פלט של דפדפן HDFS

9.2 לאחר שתלחץ על ספריית הפלט, תמצא קובץ טקסט בשם output.txt וקובץ הטקסט הזה מכיל את הפלט בפועל כפי שמוצג באיור שלמטה.

איור: טקסט פלט סופי

כך Hue הופך את העבודה שלנו לפשוטה על ידי מתן אפשרויות גרירה ושחרור ליצירת זרימת עבודה של Oozie.

אני מקווה שבלוג זה היה שימושי להבנת הפצת Cloudera ורכיבי Cloudera השונים.

רוצים לקחת חלק במהפכת הביג דאטה?

עכשיו לאחר שהבנת את התפוצה של Cloudera Hadoop, בדוק את מאת אדוריקה, חברת למידה מקוונת מהימנה עם רשת של יותר מ -250,000 לומדים מרוצים הפזורים ברחבי העולם. קורס הכשרת ההסמכה של אדוריקה ביג דאטה Hadoop עוזר ללומדים להיות מומחים בתחום HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume ו- Sqoop תוך שימוש במקרי שימוש בזמן אמת בתחום הקמעונאות, מדיה חברתית, תעופה, תיירות, פיננסים.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.