שלטת בהאופ? הגיע הזמן להתחיל עם Apache Spark



פוסט בבלוג זה מסביר מדוע עליכם להתחיל לעבוד עם אפאצ'י ספארק אחרי Hadoop ומדוע לימוד Spark לאחר שליטה ב- Hadoop יכול לעשות פלאים לקריירה שלכם!

Hadoop, כידוע, הוא נער הפוסטר של הביג דאטה. כמסגרת תוכנה המסוגלת לעבד פרופורציות נתונים פיליות, Hadoop עשתה את דרכה לראש רשימת מילות המפתח של CIO.





עם זאת, העלייה חסרת התקדים של מחסנית הזיכרון הציגה את המערכת האקולוגית של נתונים גדולים לחלופה חדשה לניתוח. דרך הניתוח של MapReduce מוחלפת בגישה חדשה המאפשרת ניתוח הן במסגרת Hadoop והן מחוצה לה. Apache Spark הם הפנים החדשים והטריים של ניתוח נתונים גדולים.

חובבי ביג דאטה הסמיכו את אפאצ'י ספארק כמנוע חישוב הנתונים החם ביותר לביג דאטה בעולם. זה מוציא במהירות את MapReduce ו- Java מעמדותיהם, ומגמות התפקיד משקפות את השינוי הזה. על פי סקר שנערך על ידי TypeSafe, 71% ממפתחי Java העולמיים מעריכים או חוקרים כיום סביב Spark, ו -35% מהם כבר החלו להשתמש בו. מומחי ניצוצות כרגע מבוקשים, ובשבועות שלאחר מכן מספר ההזדמנויות לעבודה הקשורות ל- Spark צפוי לעבור רק דרך הגג.



אז מה יש ב- Apache Spark שגורם לו להופיע בראש כל רשימת המטלות של CIO?

להלן כמה מהתכונות המעניינות של Apache Spark:

  • אינטגרציה של Hadoop - Spark יכול לעבוד עם קבצים המאוחסנים ב- HDFS.
  • המעטפת האינטראקטיבית של Spark - ניצוץ כתוב בסקאלה, ויש לו גרסה משלו למתורגמן סקאלה.
  • הסוויטה האנליטית של Spark - Spark מגיע עם כלים לניתוח שאילתות אינטראקטיביות, עיבוד גרפי בקנה מידה גדול וניתוח בזמן אמת.
  • מערכי נתונים מבוזרים גמישים (RDDs) - RDD הם אובייקטים מבוזרים הניתנים לשמירה בזיכרון, על פני אשכול צמתים מחושבים. הם אובייקטי הנתונים העיקריים המשמשים ב- Spark.
  • מפעילים מבוזרים מלבד MapReduce, ישנם מפעילים רבים אחרים שאפשר להשתמש בהם ב- RDD.

ארגונים כמו נאס'א, יאהו ואדובי התחייבו לספארק. זה מה שאומר ג'ון טריפייר, Alliances and Ecosystem Lead at Databricks, 'האימוץ של Apache Spark על ידי עסקים גדולים וקטנים גדל בקצב מדהים במגוון רחב של תעשיות, והביקוש למפתחים עם מומחיות מוסמכת הוא במהירות בעקבותיו ”. מעולם לא היה זמן טוב יותר ללמוד ספארק אם יש לך רקע ב- Hadoop.



מה זה .פורמט בפייתון

אדוריקה אוצרת במיוחד קורס בנושא Apache Spark & ​​Scala, שנוצר במשותף על ידי מתרגלים בתעשייה האמיתית. לחוויה מובחנת של למידה אלקטרונית חיה יחד עם פרויקטים רלוונטיים לתעשייה, עיין בקורס שלנו. קבוצות חדשות מתחילות בקרוב, אז עיין בקורס כאן: .

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

Apache Spark לעומת Hadoop MapReduce