Hadoop 2.0 - שאלות נפוצות



העניין ב- Hadoop גדל פי כמה בשנתיים האחרונות. פוסט זה עונה על השאלות שלך ומנקה ספקות רבים לגבי השימוש ב- Hadoop 2.0 והשימוש בו.

זהו פוסט המשך עם תשובה לשאלה נפוצה במהלך הסמינר המקוון הציבורי של edureka! עַל .

שאלות נפוצות על Hadoop

דיפאק:





מה זה Hadoop?
אפאצ'י Hadoop היא מסגרת תוכנת קוד פתוח לאחסון ועיבוד בקנה מידה גדול של מערכי נתונים על מקבצי חומרת סחורות. זוהי מסגרת תוכנת ניהול קוד פתוח עם אחסון מוגדל ועיבוד מבוזר. הוא נבנה ומשתמש על ידי קהילה עולמית של תורמים ומשתמשים.

קרא עוד בפוסט בבלוג של Hadoop ו .



לחפש:

מהם מקרי השימוש בביג דאטה בענפי נסיעות, תחבורה וחברות תעופה?

שִׁמשִׁי:



האם תוכל להצביע על מדגם מיידי של יישום Hadoop שנוכל ללמוד?
אנחנו חייםשֶׁלבעידן של עומס גובר בזמן השיא. מפעילי התחבורה מבקשים כל העת למצוא דרכים חסכוניות לספק את שירותיהם תוך שמירה על צי התחבורה שלהם בתנאים טובים. שימוש ב- Big Data Analytics בתחום זה יכול לעזור לארגון ב:

  • אופטימיזציה של המסלול
  • ניתוח גיאו-מרחבי
  • דפוסי תנועה וגודש
  • תחזוקת נכסים
  • ניהול הכנסות (כלומר חברת תעופה)
  • ניהול מלאי
  • שימור דלק
  • שיווק ממוקד
  • נאמנות לקוחות
  • חיזוי קיבולת
  • ביצועי רשת ואופטימיזציה

מעטות מקרה השימוש האמיתי:
ל) קביעת עלויות טיסה
ב) מידול חיזוי לוגיסטיקת מלאי
ג) אורביץ ברחבי העולם - דפוסי קניית לקוחות
ד) שישה פריסות Hadoop בקנה מידה סופר
is) Hadoop - יותר מוסיף
ו) Hadoop ב- Enterprise

תוכל ללמוד עוד על יישומי Hadoop בעולם האמיתי בכתובת:

הירדש:

האם Hadoop נוגע לטיפול ועיבוד נתונים? איך נלך לדיווח וניתוח חזותי. האם ניתן להשתמש ב- Qlikview, Tableau על גבי Hadoop?
רכיבי הליבה של Hadoop HDFS ו- MapReduce עוסקים באחסון ועיבוד נתונים. HDFS לאחסון ו- MapReduce לעיבוד. אך רכיבי הליבה של Hadoop כגון Pig ו- Hive משמשים לניתוח. עבור לוח דוחות חזותיים, ניתן לחבר את QlikView ל- Hadoop לצורך דיווח חזותי.

עמית:

Hadoop Vs. mongoDB
MongoDB משמש כחנות נתונים 'תפעולית' בזמן אמת ואילו Hadoop משמש לעיבוד וניתוח נתוני אצווה לא מקוון.
mongoDB הוא מאגר נתונים מונחה מסמכים, חסר סכמה, שבו אתה יכול להשתמש ביישום אינטרנט כ- backend במקום RDBMS כמו MySQL ואילו Hadoop משמש בעיקר כגודל אחסון ועיבוד מבוזר עבור כמות גדולה של נתונים.

קרא עוד באתר שלנו פוסט בבלוג mongoDB ו- Hadoop .

כאן:

האם אפאצ'י ספארק הוא חלק מהדופ ?
Apache Spark הוא מנוע מהיר וכללי לעיבוד נתונים בקנה מידה גדול. הניצוץ מהיר יותר ותומך בעיבוד בזיכרון. מנוע ביצוע ניצוצות מרחיב את סוג עומסי העבודה המחשוביים ש- Hadoop יכול לטפל בהם ויכול לרוץ באשכול YARN של Hadoop 2.0. זוהי מערכת מסגרת לעיבוד המאפשרת אחסון של אובייקטים בזיכרון (RDD) יחד עם יכולת לעבד אובייקטים אלה באמצעות סגירת Scala. הוא תומך בגרף, מחסן נתונים, למידת מכונה ועיבוד זרמים.

אם יש לך אשכול Hadoop 2, תוכל להפעיל את Spark ללא צורך בהתקנה כלשהי. אחרת, קל להפעיל ספארק עצמאי או ב- EC2 או Mesos. זה יכול לקרוא מ- HDFS, HBase, Cassandra, ומכל מקור נתונים של Hadoop.

קרא עוד על ניצוץ כאן .

פראסאד:

מה זה אפאצ'י פלומה?
Apache Flume היא מערכת מבוזרת, אמינה וזמינה לאיסוף, צבירה והעברה של כמויות גדולות של נתוני יומן ממקורות רבים ושונים למקור נתונים מרכזי.

עמית:

SQL לעומת מסדי נתונים NO-SQL
מאגרי מידע NoSQL הם מאגרי הדור הבא והם עוסקים בעיקר בחלק מהנקודות

  • לא יחסתי
  • מופץ
  • קוד פתוח
  • ניתן להרחבה אופקית

לעתים קרובות חלים על מאפיינים נוספים כגון תמיכה בשכפול, תמיכה בשכפול קל, ממשק API פשוט, בסופו של דבר עקבי / BASE (לא ACID), כמות עצומה של נתונים ועוד. לדוגמה, מעטים מהמבדלים הם:

  • מסדי נתונים של NoSQL מתרחבים בצורה אופקית ומוסיפים עוד שרתים להתמודד עם עומסים גדולים יותר. מאגרי SQL, לעומת זאת, בדרך כלל מתרחבים בצורה אנכית ומוסיפים יותר ויותר משאבים לשרת יחיד ככל שהתנועה גוברת.
  • מסדי נתונים של SQL דרשו ממך להגדיר את הסכימות שלך לפני הוספת מידע ונתונים, אך מאגרי מידע NoSQL אינם נטולי סכימה אינם דורשים הגדרת סכמה מראש.
  • מסדי נתונים של SQL הם טבלאות המבוססות על שורות ועמודות לפי עקרונות RDBMS ואילו מסדי נתונים של NoSQL הם מסמכים, צמדי ערכי מפתח, גרף או חנויות עמודות רחבות.
  • מסדי נתונים של SQL משתמשים ב- SQL (שפת שאילתות מובנית) לצורך הגדרה וניהול של הנתונים. במסד נתונים NoSQL, השאילתות משתנות ממסד נתונים אחד למשנהו.

מאגרי מידע פופולריים של SQL: MySQL, Oracle, Postgres ו- MS-SQL
פופולרי מאגרי מידע NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j ו- CouchDB

סקור את הבלוגים שלנו ב Hadoop ו- NoSQL מאגרי מידע ויתרונות של מאגר אחד כזה:

קוטסווארארו:

האם ל- Hadoop יש טכנולוגיית אשכול מובנית?
אשכול Hadoop משתמש בארכיטקטורת Master-Slave. הוא מורכב ממאסטר יחיד (NameNode) ומקבץ עבדים (DataNodes) לאחסון ועיבוד נתונים. Hadoop מיועדת לפעול במספר גדול של מכונות שאינן חולקות זיכרון או דיסקים כלשהם. DataNodes אלה מוגדרים כ- Cluster באמצעות . Hadoop משתמש במושג שכפול כדי להבטיח כי לפחות עותק נתונים אחד יהיה זמין באשכול כל הזמן. מכיוון שיש עותקים מרובים של נתונים, נתונים המאוחסנים בשרת המופעלים במצב לא מקוון או מתים ניתן לשכפל אוטומטית מעותק ידוע.

דינש:

מה זה עבודה בהדופ? מה ניתן להשיג באמצעות עבודה?
ב- Hadoop, Job הוא תוכנית MapReduce לעיבוד / ניתוח הנתונים. המונח MapReduce מתייחס למעשה לשתי משימות נפרדות ומובחנות שמבצעות תוכניות Hadoop. הראשונה היא משימת המפה, שלוקחת מערך נתונים וממירה אותם לקבוצת נתונים ביניים אחרת, שבה אלמנטים בודדים מפורקים לצמדי ערך מפתח. החלק השני של עבודת MapReduce, המשימה Reduce, לוקח את הפלט ממפה כקלט ומשלב את צמדי ערכי המפתח לקבוצה קטנה יותר של צמד ערכי מפתח מצטברים. כפי שמשתמע מרצף השם MapReduce, המשימה Reduce מתבצעת תמיד לאחר השלמת משימות Map. קרא עוד על MapReduce Job .

סוקרוט:

מה מיוחד ב- NameNode ?
ה- NameNode הוא הלב של מערכת קבצים HDFS. הוא שומר על המטא-נתונים כגון עץ הספריות של כל הקבצים במערכת הקבצים ולעקוב אחר המקום בו נשמרים נתוני הקבצים על פני האשכול. הנתונים בפועל נשמרים ב- DataNodes כחסימות HDFS.
יישומי לקוח מדברים עם ה- NameNode בכל פעם שהם רוצים לאתר קובץ, או בכל פעם שהם רוצים להוסיף / להעתיק / להזיז / למחוק קובץ. ה- NameNode עונה לבקשות המוצלחות על ידי החזרת רשימה של שרתי DataNodes רלוונטיים שבהם הנתונים חיים. קרא עוד על אדריכלות HDFS .

דינש:

מה ההבדל בין xml ל- html

מתי הוכנס לשוק Hadoop 2.0?
קרן תוכנת אפאצ'י (ASF), קבוצת הקוד הפתוח המנהלת את פיתוח Hadoop הודיעה בבלוג שלה ב- 15 באוקטובר 2013 כי Hadoop 2.0 זמין כעת באופן כללי (GA). הכרזה זו פירושה שאחרי המתנה ארוכה, אפאצ'י Hadoop 2.0 ו- YARN מוכנים כעת לפריסת הייצור. עוד בלוג.

דינש:

מהן הדוגמאות המעטות ליישום Big Data שאינו MapReduce?
MapReduce נהדר עבור יישומים רבים כדי לפתור בעיות ביג דאטה, אך לא לכל מה שדגמי תכנות אחרים משרתים טוב יותר דרישות כגון עיבוד גרפים (למשל, Google Pregel / Apache Giraph) ודוגמנות איטרטיבית עם ממשק העברת הודעות (MPI).

מריש:

איך הנתונים מסודרים ואינדקסים ב- HDFS?
הנתונים מחולקים לבלוקים של 64 מגהבייט (ניתנים להגדרה על ידי פרמטר) ומאוחסנים ב- HDFS. NameNode מאחסן מידע אחסון של חסימות אלה כ- Block ID ב- RAM שלו (NameNode Metadata). עבודות MapReduce יכולות לגשת לחסימות אלה באמצעות המטא נתונים המאוחסנים ב- NameNode RAM.

שאשוואט:

האם נוכל להשתמש גם ב- MapReduce (MRv1) וגם ב- MRv2 (עם YARN) באותו אשכול?
Hadoop 2.0 הציגה מסגרת YARN חדשה לכתיבה ולביצוע של יישומים שונים ב- Hadoop. לכן, YARN ו- MapReduce הם שני מושגים שונים ב- Hadoop 2.0 ואין לערבב אותם ולהשתמש בהם בערבוביה. השאלה הנכונה היא 'האם ניתן להריץ הן את MRv1 והן את ה- MRv2 באשכול Hadoop 2.0 המופעל על ידי YARN?' התשובה לשאלה זו היא א 'לא' כמו שלפיו ניתן להגדיר אשכול Hadoop שיפעיל גם את MRv1 וגם את MRv2 אך יוכל להריץ רק קבוצה אחת של שדים בכל נקודת זמן. שתי המסגרות הללו משתמשות בסופו של דבר באותם קבצי תצורה ( yarn-site.xml ו mapred-site.xml ) להפעלת הדמונים, לפיכך, ניתן לאפשר רק אחת משתי התצורות באשכול Hadoop.

בּוּבָּה:

מה ההבדל בין MapReduce מהדור הבא (MRv2) ל- YARN?
YARN ו- Next Generation MapReduce (MRv2) הם שני מושגים וטכנולוגיות שונים ב- Hadoop 2.0. YARN היא מסגרת תוכנה שבה ניתן להפעיל לא רק MRv2 אלא גם יישומים אחרים. MRv2 היא מסגרת יישומים שנכתבה באמצעות YARN API והיא פועלת בתוך YARN.

בהרט:

האם Hadoop 2.0 מספק תאימות לאחור ליישומי Hadoop 1.x?
נהה:

האם העברת Hadoop 1.0 עד 2.0 דורשת קוד יישום כבד הֲגִירָה?
לא, רוב היישומים שפותחו באמצעות ממשקי API של 'org.apache.hadoop.mapred', יכולים לפעול ב- YARN ללא כל הידור מחדש. YARN תואם בינארי ליישומי MRv1 וניתן להשתמש ב' bin / hadoop 'כדי להגיש בקשות אלה ב- YARN. קרא עוד על כך כאן .

שרין:

מה קורה אם צומת מנהל המשאבים נכשל ב- Hadoop 2.0?
החל מגרסת Hadoop 2.4.0, תמיכה זמינה גבוהה עבור מנהל משאבים זמינה גם כן. ResourceManager משתמש באפצ'י ZooKeeper לצורך כישלון. כאשר צומת מנהל המשאבים נכשל, צומת משני יכול להתאושש במהירות באמצעות מצב אשכול שנשמר ב- ZooKeeper. ResourceManager, לאחר כישלון, מפעיל מחדש את כל היישומים בתור והריצה.

סביראלי:

האם מסגרת Hadoop של אפאצ'י עובדת על Cloudera Hadoop?
אפאצ'י Hadoop הוצג בשנת 2005 עם מנוע העיבוד הליבה של MapReduce כדי לתמוך בעיבוד מבוזר של עומסי עבודה בקנה מידה גדול המאוחסנים ב- HDFS. זהו פרויקט קוד פתוח ויש לו הפצות מרובות (בדומה לינוקס). Cloudera Hadoop (CDH) היא תפוצה כזו של Cloudera. הפצות דומות אחרות הן HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights וכו '.

ארולוודיבל:

איזו דרך קלה להתקין את Hadoop במחשב הנייד שלי ולנסות להעביר את מסד הנתונים של Oracle ל- Hadoop?
אתה יכול הַתחָלָה עם ארגז חול של HortonWorks או Cloudera Quick VM במחשב הנייד שלך (עם לפחות 4 ג'יגה בייט RAM ומעבד i3 ומעלה). השתמש ב- SQOOP כדי להעביר נתונים מאורקל ל- Hadoop כמוסבר כאן .

בהבאני:

מהם הספרים הטובים ביותר שיש ללמוד Hadoop?
להתחיל עם Hadoop: המדריך הסופי מאת טום ווייט ו מבצעי Hadoop מאת אריק סאמר.

מהנדרה:

האם יש קריאה זמינה עבור Hadoop 2.0 בדיוק כמו Hadoop המדריך הסופי?
סקור את ההגעה האחרונה על מדפי ספרים שנכתבו על ידי מעט מיוצרי Hadoop 2.0.

הישאר מעודכן לשאלות נוספות בסדרה זו.