Apache Spark with Hadoop - למה זה משנה?



היישום של Apache Spark עם Hadoop בקנה מידה גדול על ידי חברות מובילות מעיד על הצלחה ועל הפוטנציאל שלה בכל הקשור לעיבוד בזמן אמת.

Hadoop, מסגרת עיבוד הנתונים שהפכה לפלטפורמה בפני עצמה, הופכת טובה עוד יותר כשמחברים אליה רכיבים טובים. לכמה חסרונות של Hadoop, כמו רכיב MapReduce של Hadoop, יש מוניטין של איטיות לניתוח נתונים בזמן אמת.





הזן את Apache Spark, מנוע עיבוד נתונים מבוסס Hadoop המיועד לעומסי עבודה באצווה וגם לזרם, כעת בגרסת 1.0 שלו ומצויד בתכונות המדגימות אילו סוגים של עבודה Hadoop נדחף לכלול. ניצוץ פועל על גבי אשכולות Hadoop קיימים כדי לספק פונקציונליות משופרת ונוספת.

בואו נסתכל על התכונות העיקריות של ניצוץ ואיך זה עובד יחד עם Hadoop ו- .



היתרונות העיקריים של Apache Spark:

img2-R

התכונות המדהימות של Spark:

  • אינטגרציה של Hadoop - Spark יכול לעבוד עם קבצים המאוחסנים ב- HDFS.
  • המעטפת האינטראקטיבית של Spark - ניצוץ כתוב בסקאלה, ויש לו גרסה משלו למתורגמן סקאלה.
  • הסוויטה האנליטית של Spark - Spark מגיע עם כלים לניתוח שאילתות אינטראקטיבי, עיבוד גרפי רחב היקף וניתוח בזמן אמת.
  • מערכי נתונים מבוזרים גמישים (RDD) - RDD הם אובייקטים מבוזרים הניתנים לשמירה בזיכרון, על פני מקבץ של צמתים מחושבים. הם אובייקטי הנתונים העיקריים המשמשים ב- Spark.
  • מפעילים מבוזרים מלבד MapReduce, ישנם מפעילים רבים אחרים שאפשר להשתמש בהם ב- RDD.

יתרונות השימוש ב- Apache Spark עם Hadoop:

מדריכי שרת SQL למתחילים
  • Apache Spark משתלב בקהילת הקוד הפתוח של Hadoop, בנייה על גבי מערכת הקבצים המבוזרת של Hadoop (HDFS). עם זאת, Spark אינו קשור לפרדיגמת MapReduce הדו-שלבית, ומבטיח ביצועים במהירות גבוהה פי 100 מ- Hadoop MapReduce עבור יישומים מסוימים.



  • מתאים היטב לאלגוריתמים של למידת מכונה - Spark מספק פרימיטיבים למחשוב אשכול בזיכרון המאפשר לתוכניות משתמשים לטעון נתונים בזיכרון האשכול ולשאול עליו שוב ושוב.

  • רוץ פי 100 מהר יותר - תוכנת ניתוח ניצוץ יכולה גם להאיץ עבודות הפועלות בפלטפורמת עיבוד הנתונים של Hadoop. המכונה 'סכין הצבא השוויצרי של Hadoop', אפאצ'י ספארק מספק את היכולת ליצור עבודות לניתוח נתונים שיכולות לרוץ פי 100 מהר יותר מאלה שרצים על אפאצ'י Hadoop MapReduce הסטנדרטי. ביקורת נרחבת על MapReduce היא צוואר בקבוק באשכולות Hadoop משום שהיא מבצעת עבודות במצב אצווה, מה שאומר שניתוח נתונים בזמן אמת אינו אפשרי.

  • אלטרנטיבה ל- MapReduce - Spark מספק חלופה ל- MapReduce. היא מבצעת עבודות בהתפרצויות קצרות של מיקרו-אצוות בהפרש של חמש שניות או פחות. הוא גם מספק יציבות רבה יותר ממסגרות Hadoop בזמן אמת ומכוונות לזרם כגון Twitter Storm. ניתן להשתמש בתוכנה למגוון עבודות, כמו ניתוח שוטף של נתונים חיים ובזכות ספריית תוכנה, עבודות מעמיקות יותר באופן חישובי הכרוכות בלמידת מכונה ועיבוד גרפים.

  • תמיכה בשפות מרובות - באמצעות Spark, מפתחים יכולים לכתוב עבודות ניתוח נתונים ב- Java, Scala או Python, באמצעות קבוצה של יותר מ -80 מפעילים ברמה גבוהה.

    נבדל בין hashap ל- hashable
  • תמיכה בספריה - הספריות של Spark נועדו להשלים את סוגי עבודות העיבוד הנחקרות בצורה אגרסיבית יותר עם הפריסות האחרונות שנתמכו מסחרית של Hadoop. MLlib מיישמת שורה של אלגוריתמים נפוצים של למידת מכונה, כגון סיווג בייזיאני נאיבי או אשכולות הזרמת ניצוצות מאפשרים עיבוד מהיר של נתונים שנבלעים ממספר מקורות ו- GraphX ​​מאפשר חישובים על נתוני גרפים.

  • ממשק API יציב - עם גרסת 1.0, Apache Spark מציע ממשק API יציב (ממשק תכנות יישומים), שבו מפתחים יכולים להשתמש כדי לקיים אינטראקציה עם Spark למרות היישומים שלהם. זה עוזר בשימוש ביתר קלות בפריסה מבוססת Hadoop.

  • רכיב SQL SPARK - רכיב ניצוץ SQL לגישה לנתונים מובנים, מאפשר לחקור את הנתונים לצד נתונים לא מובנים בעבודת ניתוח. Spark SQL, שנמצא כרגע רק באלפא, מאפשר להריץ שאילתות דמויי SQL כנגד נתונים המאוחסנים ב- Apache Hive. חילוץ נתונים מ- Hadoop באמצעות שאילתות SQL הוא עוד גרסה לפונקציונליות השאילתות בזמן אמת שצומחת סביב Hadoop.

  • תאימות Apache Spark עם Hadoop [HDFS, HBASE ו- YARN] - Apache Spark תואם לחלוטין עם מערכת הקבצים המבוזרת של Hadoop (HDFS), כמו גם עם רכיבי Hadoop אחרים כגון YARN (Yet Another Resource Negotiator) ובסיס הנתונים המבוזר של HBase.

מאמצים בתעשייה:

חברות IT כמו Cloudera, Pivotal, IBM, Intel ו- MapR קיפלו את Spark לערימות Hadoop שלהן. חברת Databricks, שהוקמה על ידי כמה ממפתחי Spark, מציעה תמיכה מסחרית בתוכנה. גם יאהו וגם נאס'א, משתמשות בתוכנה לצורך פעולות נתונים יומיות.

סיכום:

מה שיש לספארק להציע עשוי להוות משיכה גדולה הן למשתמשים והן לספקים מסחריים של Hadoop. משתמשים המחפשים ליישם את Hadoop וכבר בנו הרבה ממערכות הניתוח שלהם סביב Hadoop נמשכים לרעיון להיות מסוגלים להשתמש ב- Hadoop כמערכת עיבוד בזמן אמת.

Spark 1.0 מספק להם מגוון פונקציות נוסף לתמיכה או לבניית פריטים קנייניים מסביב. למעשה, אחת משלושת הספקיות הגדולות של Hadoop, Cloudera, כבר מספקת תמיכה מסחרית לספארק באמצעות היצע Cloudera Enterprise שלה. Hortonworks גם מציעה את Spark כמרכיב בהפצת Hadoop שלה. יישום Spark בקנה מידה גדול על ידי חברות מובילות מעיד על הצלחתה ועל הפוטנציאל שלה בכל הנוגע לעיבוד בזמן אמת.

יש לך שאלה עבורנו? הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

מה זה פלומה בהאדופ