עיבוד נתונים גדולים עם Apache Spark & ​​Scala



Apache Spark עלה כהתפתחות נהדרת בעיבוד נתונים גדולים.

מיזוג pseudocode מיון c ++

IST: 07:00 - 08:00, 17 באוקטובר 14





PDT: 18:30 - 19:30, 16 באוקטובר 14

מקומות מוגבלים !! מלא את הטופס מימין והזמין את המשבצת שלך עוד היום.



שלום לכולם, אנו עורכים סמינר מקוון חינם על Apache Spark ו- Scala ב -18 באוקטובר 14. הכותרת של הסמינר המקוון היא 'עיבוד נתונים גדולים עם Apache Spark ו- Scala' . בסמינר מקוון זה יידונו הנושאים המהותיים הנוגעים לאפאצ'י ספארק ולסקאלה. ניתן להבהיר כל שאילתות או ספקות במהלך הפגישה.

הנושאים שיש לכסות:

  • מה זה ביג דאטה?
  • מה זה ניצוץ?
  • מדוע ניצוץ?
  • מערכת אקולוגית ניצוצות
  • הערה על סקאלה
  • למה סקאלה?
  • שלום ספארק - ידיים

מדוע ניצוץ?

Apache Spark הוא מסגרת מחשוב אשכולות קוד פתוח לאשכולות קהילתיים של Hadoop. זה מתאים לאחד ממנועי ניתוח ועיבוד הנתונים הטובים ביותר עבור נתונים בקנה מידה גדול עם המהירות הבלתי מתאימה, קלות השימוש והניתוח המתוחכם שלה. להלן היתרונות והתכונות ההופכים את אפאצ'י ספארק ללהיט מוצלב עבור ניתוחים תפעוליים כמו גם חקירתיים:

  • התוכניות שפותחו באמצעות Spark פועלות פי 100 מהר יותר מהתוכניות שפותחו ב- Hadoop MapReduce.
  • Spark מרכיב 80 מפעילים ברמה גבוהה.
  • הזרמת ניצוצות מאפשרת עיבוד נתונים בזמן אמת.
  • GraphX ​​היא ספרייה לחישובים גרפיים.
  • MLib היא ספריית הלמידה המכונה של Spark.
  • נכתב בעיקר ב- Scala, ניתן להטמיע את הניצוץ בכל מערכת תפעולית מבוססת JVM, ובאותה עת ניתן להשתמש גם באופן REPL (קריאה, הערכה, עיבוד וטעינה)
  • יש לו יכולות אחסון במטמון ועוצמת דיסק.
  • Spark SQL מאפשר לו לטפל במיומנות בשאילתות SQL
  • ניתן לפרוס את Apache Spark דרך Apache Mesos, Yarn ב- HDFS, HBase, Cassandra, או Spuster Cluster Manager (מנהל האשכולות של Spark עצמו).
  • Spark מדמה את הסגנון הפונקציונאלי של Scala ו- API של אוספים, וזה יתרון גדול למפתחי Scala ו- Java.

צריך אפאצ'י ניצוץ:

ניצוץ מעניק תועלת עצומה לתעשייה מבחינת מהירות, מגוון משימות שהיא יכולה לבצע, גמישות, ניתוח נתונים איכותי, עלות-תועלת וכו ', שהם צרכי היום. הוא מספק פתרונות ניתוח נתונים גדולים של נתונים גדולים בזמן אמת לתעשיית ה- IT, העונים על דרישת הלקוח הגואה. ניתוח בזמן אמת ממנף את היכולות העסקיות לערימות. תאימותו ל- Hadoop מקלה מאוד על החברות לאמץ אותו במהירות. ישנו צורך תלול במומחים ומפתחים מלומדי Spark, מכיוון שמדובר בטכנולוגיה חדשה יחסית, המאומצת יותר ויותר.