הדרכת HDFS: מבוא ל- HDFS ותכונותיו



בלוג הדרכה זה של HDFS יעזור לך להבין את מערכת הקבצים המבוזרים של HDFS או Hadoop ותכונותיה. תוכלו גם לחקור את רכיבי הליבה שלה בקצרה.

הדרכת HDFS

לפני שתמשיך הלאה בבלוג הדרכה זה של HDFS, הרשה לי להעביר אותך לחלק מהסטטיסטיקה המטורפת הקשורה ל- HDFS:

  • ב -2010, פייסבוק טען שיש לו אחד מאחסון אשכולות HDFS הגדולים ביותר 21 פטה-בייט של מידע.
  • ב 2012, פייסבוק הצהירו כי יש להם את אשכול HDFS הגדול ביותר עם יותר מ- 100 PB של מידע .
  • וגם יאהו ! יש יותר מ 100,000 מעבד מעל 40,000 שרתים מפעיל את Hadoop, עם אשכול Hadoop הגדול ביותר שלו 4,500 צמתים . בסך הכל, יאהו! חנויות 455 פטה-בייט של נתונים ב- HDFS.
  • למעשה, עד שנת 2013, רוב השמות הגדולים ב- Fortune 50 החלו להשתמש ב- Hadoop.

קשה מדי לעיכול? ימין. כפי שנדון ב , לחדופ יש שתי יחידות בסיסיות - ס לזעום ו מעבד . כשאני אומר חלק מאחסון של Hadoop, אני מתייחס אליו HDFS שמייצג מערכת קבצים מבוזרת של Hadoop . אז בבלוג זה אציג בפניכם HDFS .





הנה, אני אדבר על:

מדוע אנו זקוקים לסידור ב- Java
  • מה זה HDFS?
  • היתרונות של HDFS
  • תכונות של HDFS

לפני שדיברנו על HDFS, תן לי לספר לך, מהי מערכת קבצים מבוזרת?



DFS או מערכת קבצים מבוזרת:

מערכת קבצים מבוזרת מדברת על ניהול נתונים , כלומר קבצים או תיקיות במספר מחשבים או שרתים. במילים אחרות, DFS היא מערכת קבצים המאפשרת לנו לאחסן נתונים על פני מספר צמתים או מכונות באשכול ומאפשרת למספר משתמשים לגשת לנתונים. אז בעצם, היא משרתת את אותה מטרה כמו מערכת הקבצים הזמינה במחשב שלך, כמו עבור Windows יש לך NTFS (New File File System) או עבור Mac יש לך HFS (מערכת קבצים היררכית). ההבדל היחיד הוא שבמקרה של מערכת קבצים מבוזרת, אתה שומר נתונים במספר מכונות ולא במכונה אחת. למרות שהקבצים מאוחסנים ברחבי הרשת, DFS מארגן ומציג נתונים באופן כזה שמשתמש שיושב על מכונה ירגיש כאילו כל הנתונים מאוחסנים באותה מכונה ממש.

מה זה HDFS?

מערכת קבצים מבוזרת של Hadoop או HDFS היא מערכת קבצים מבוזרת מבוססת Java המאפשרת לאחסן נתונים גדולים על פני מספר צמתים באשכול Hadoop. לכן, אם אתה מתקין את Hadoop, תקבל HDFS כמערכת אחסון בסיסית לאחסון הנתונים בסביבה המבוזרת.

בואו ניקח דוגמא כדי להבין את זה. דמיין שיש לך עשר מכונות או עשרה מחשבים עם כונן קשיח של 1 TB בכל מכונה. כעת, HDFS אומר שאם תתקין את Hadoop כפלטפורמה על גבי עשר המכונות הללו, תקבל HDFS כשירות אחסון. מערכת הקבצים המבוזרת של Hadoop מופצת באופן שכל מכונה תורמת את האחסון האישי שלהם לאחסון כל סוג של נתונים.



הדרכת HDFS: יתרונות HDFS

1. אחסון מבוזר:

אחסון מבוזר - הדרכת HDFS - אדוריקה

כשאתה ניגש למערכת הקבצים המופצת של Hadoop מכל אחת מעשר המכשירים באשכול Hadoop, אתה תרגיש כאילו נכנסת למחשב גדול יחיד עם נפח אחסון של 10 TB (אחסון כולל מעל עשר מכונות). מה זה אומר? המשמעות היא שתוכל לאחסן קובץ גדול יחיד של 10 TB אשר יופץ על פני עשר המכונות (1 TB כל אחת).ככה זה לא מוגבל לגבולות הפיזיים של כל מכונה בודדת.

2. חישוב מבוזר ומקביל:

מכיוון שהנתונים מחולקים על פני המכונות, זה מאפשר לנו לנצל חישוב מבוזר ומקביל . בואו נבין מושג זה על ידי הדוגמה לעיל. נניח שלוקח 43 דקות לעבד קובץ 1 TB במחשב יחיד. אז, עכשיו תגיד לי, כמה זמן ייקח לעבד את אותו קובץ 1 TB כשיש לך 10 מכונות באשכול Hadoop עם תצורה דומה - 43 דקות או 4.3 דקות? 4.3 דקות, נכון! מה קרה פה? כל אחד מהצמתים עובד במקביל עם חלק מקובץ 1 TB. לכן העבודה שנמשכה 43 דקות לפני כן הסתיימה תוך 4.3 דקות בלבד מכיוון שהעבודה התחלקה לעשר מכונות.

3. מדרגיות אופקית:

מה ההבדל בין מעמד מופשט וממשק

אחרון חביב, הרשו לנו לדבר על ה קנה מידה אופקי אוֹ מתרחבים בהדופ. ישנם שני סוגים של קנה מידה: אֲנָכִי ו אופקי . בקנה מידה אנכי (קנה המידה) אתם מגדילים את קיבולת החומרה של המערכת שלכם. במילים אחרות, אתה רוכש יותר זיכרון RAM או מעבד ומוסיף אותו למערכת הקיימת שלך כדי להפוך אותו לחזק וחזק יותר. אך ישנם אתגרים הקשורים לקנה המידה האנכי או להגדלה:

  • תמיד יש מגבלה בה תוכל להגדיל את יכולת החומרה שלך. לכן, אינך יכול להמשיך ולהגדיל את זיכרון RAM או מעבד של המכונה.
  • בקנה מידה אנכי, תחילה עוצרים את המכונה. ואז אתה מגדיל את זיכרון RAM או מעבד כדי להפוך אותו לערמת חומרה חזקה יותר. לאחר שהגדלת את יכולת החומרה שלך, הפעל מחדש את המכונה. זמן ההפסקה הזה שבו אתה עוצר את המערכת הופך לאתגר.

במקרה קנה המידה האופקי (קנה המידה) , אתה מוסיף צמתים נוספים לאשכול הקיים במקום להגדיל את קיבולת החומרה של מכונות בודדות. והכי חשוב, אתה יכול הוסף מכונות נוספות בדרכים כלומר בלי לעצור את המערכת . לכן, תוך כדי קנה המידה אין לנו שום זמן למטה או אזור ירוק, שום דבר כזה. בסופו של יום יהיו לכם יותר מכונות שעובדות במקביל בכדי לעמוד בדרישותיכם.

סרטון הדרכה של HDFS:

אתה יכול לבדוק את הסרטון המופיע להלן, בו נדונו בפירוט כל המושגים הקשורים ל- HDFS:

מדריך HDFS: תכונות של HDFS

נבין תכונות אלה בפירוט כאשר נחקור את ארכיטקטורת HDFS בבלוג ההדרכה הבא שלנו ב- HDFS. אבל לעת עתה, בואו נקבל סקירה על התכונות של HDFS:

תפקידים ואחריות של מנהל לינוקס
  • עֲלוּת: HDFS, באופן כללי, נפרס על חומרת סחורה כמו שולחן העבודה / המחשב הנייד שבו אתה משתמש מדי יום. אז זה מאוד חסכוני מבחינת עלות הבעלות על הפרויקט. מכיוון שאנו משתמשים בחומרה של סחורות בעלות נמוכה, אינך צריך להוציא סכום כסף עצום עבור הגדלת אשכול Hadoop שלך. במילים אחרות, הוספת צמתים נוספים ל- HDFS שלך היא חסכונית.
  • מגוון ונפח הנתונים: כשאנחנו מדברים על HDFS אז אנחנו מדברים על אחסון נתונים ענקיים כלומר טרה-בתים ופטא-בייטים של נתונים וסוגים שונים של נתונים. אז אתה יכול לאחסן כל סוג של נתונים ב- HDFS, בין אם זה מובנה, לא מובנה או חצי מובנה.
  • אמינות וסובלנות תקלות: כאשר אתה שומר נתונים ב- HDFS, הוא מחלק את הנתונים הנתונים באופן פנימי לגושי נתונים ושומר אותם בצורה מבוזרת על פני אשכול Hadoop שלך. המידע לגבי איזה בלוק נתונים ממוקם על איזה מקשרי הנתונים נרשם במטא-נתונים. NameNode מנהל את נתוני המטא ואת DataNodes אחראים לאחסון הנתונים.
    צומת שם גם משכפל את הנתונים כלומר שומר על עותקים מרובים של הנתונים. שכפול זה של הנתונים הופך את HDFS לאמין מאוד וסובלני לתקלות. לכן, גם אם אחד מהצמתים נכשל, אנו יכולים לאחזר את הנתונים מהעתקים השוכנים בצמתים אחרים של הנתונים. כברירת מחדל, גורם השכפול הוא 3. לכן, אם תאחסנו 1 ג'יגה בייט בקובץ HDFS, הוא יתפוס סוף סוף 3 ג'יגה-בייט שטח. צומת השם מעדכן מעת לעת את המטא נתונים ושומר על גורם שכפול עקבי.
  • שלמות נתונים: שלמות הנתונים מדברת על האם הנתונים המאוחסנים ב- HDFS שלי נכונים או לא. HDFS בודקת ללא הרף את תקינות הנתונים המאוחסנים מול סכום הבדיקה שלה. אם הוא מוצא תקלה כלשהי, הוא מדווח לצומת השם אודותיו. לאחר מכן, צומת השם יוצר העתקים חדשים נוספים ולכן מוחק את העותקים הפגומים.
  • תפוקה גבוהה: התפוקה היא כמות העבודה שנעשתה ביחידת זמן. זה מדבר על כמה מהר אתה יכול לגשת לנתונים ממערכת הקבצים. בעיקרון, זה נותן לך תובנה לגבי ביצועי המערכת. כפי שראית בדוגמה שלעיל, בה השתמשנו בעשר מכונות יחד כדי לשפר את החישוב. שם הצלחנו להפחית את זמן העיבוד מ- 43 דקות לסתם 4.3 דקות כיוון שכל המכונות עבדו במקביל. לכן, על ידי עיבוד נתונים במקביל, הפחתנו את זמן העיבוד בצורה אדירה וכך השגנו תפוקה גבוהה.
  • אזור נתונים: יישוב הנתונים מדבר על העברת יחידת עיבוד לנתונים ולא על נתונים ליחידת עיבוד. במערכת המסורתית שלנו, היינו מביאים את הנתונים לשכבת היישום ואז מעבדים אותם. אבל עכשיו, בגלל הארכיטקטורה והנפח העצום של הנתונים, הבאת הנתונים לשכבת היישום תהיהלהפחית את ביצועי הרשת במידה ניכרת.לכן, ב- HDFS, אנו מביאים את חלק החישוב לצמתים שבהם הנתונים נמצאים. לפיכך, אינך מעביר את הנתונים, אתה מביא את התוכנית או התהליךחלק מהנתונים.

אז עכשיו, יש לכם מושג קצר על HDFS ותכונותיו. אבל תאמין לי חבר'ה, זה רק קצה הקרחון. הבא שלי אני אמקור עמוק לתוך ארכיטקטורת HDFS ואחשוף את הסודות שמאחורי ההצלחה של HDFS. יחד נענה על כל השאלות ההרהרות בראשך כגון:

  • מה קורה מאחורי הקלעים כשאתה קורא או כותב נתונים במערכת הקבצים המבוזרת של Hadoop?
  • מה הם האלגוריתמים כמו מודעות מתלה שהופכת את HDFS לסובלני כל כך?
  • כיצד מערכת קבצים מבוזרת של Hadoop מנהלת ויוצרת העתק?
  • מהן פעולות חסימה?

עכשיו שהבנת את HDFS ואת התכונות שלו, בדוק את מאת אדוריקה, חברת למידה מקוונת מהימנה עם רשת של יותר מ -250,000 לומדים מרוצים הפזורים ברחבי העולם. קורס הכשרת ההסמכה של אדוריקה ביג דאטה Hadoop עוזר ללומדים להיות מומחים בתחום HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume ו- Sqoop תוך שימוש במקרי שימוש בזמן אמת בתחום הקמעונאות, מדיה חברתית, תעופה, תיירות, פיננסים.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.