ביג דאטה ב- AWS - פיתרון חכם לביג דאטה



מאמר זה עוזר לך להבין כיצד AWS מתמודדת בצורה חכמה עם Big Data. זה גם מראה כיצד AWS יכול לפתור אתגרי Big Data בקלות.

הרעיון של ביג דאטה הוא פשוט לא חדש, הוא נמצא בכל מקום. ההשפעה של ביג דאטה נמצאת בכל מקום, מעסקי ועד מדע, מהממשלה ועד לאמנויות וכן הלאה. אין בן זוג טוב יותר מ לעבד ולנתח ביג דאטה. במאמר זה אראה כיצד AWS מתמודדת עם האתגרים של הביג דאטה והמצביעים שאעמוד עליהם הם כדלקמן:

מה זה ביג דאטה?

מאפייני נתונים גדולים





אתה יכול להתייחס לביג דאטה כאל נכסי מידע בעלי נפח גבוה, מהיר ו / או מגוון רב הדורשים צורות חסכוניות וחדשניות של עיבוד מידע המאפשרות תובנה משופרת, קבלת החלטות ואוטומציה של תהליכים.

ביג דאטה מורכב מ -5 וי V חשובים המגדירים את המאפיינים של ביג דאטה. הבה נדון באלה לפני שנעבור ל- AWS.



ההבדל בין עומס יתר לביטול ב- Java

מה זה AWS?

מורכב ממוצרים ושירותים רבים של מחשוב ענן. חטיבת אמזון הרווחית ביותר מספקת שרתים, אחסון, רשת, מחשוב מרחוק, דוא'ל, פיתוח סלולרי יחד עם אבטחה. יתר על כן. AWS מורכב משני מוצרים עיקריים: EC2, שירות המכונות הווירטואליות של אמזון ו- S3, מערכת אחסון של אמזון. זה כל כך גדול ונוכח בעולם המחשוב שהוא עכשיו לפחות פי 10 מגודלו של המתחרה הקרוב ביותר ומארח אתרים פופולריים כמו נטפליקס ואינסטגרם.

.

AWS מחולק ל -12 אזורים גלובליים ברחבי העולם, שלכל אחד מהם אזורי זמינות מרובים בהם נמצאים השרתים שלה.אזורים שירותיים אלה מפוצלים על מנת לאפשר למשתמשים לקבוע מגבלות גיאוגרפיות לשירותיהם, אך גם לספק אבטחה על ידי גיוון המיקומים הפיזיים בהם מוחזק הנתונים.



מדוע ביג דאטה ב- AWS?

מדענים, מפתחים וחובבי טכנולוגיה אחרים מתחומים רבים ושונים מנצלים את AWS לביצוע ניתוח נתונים גדולים ועומדים באתגרים הקריטיים של הגדלת ה- Vs של מידע דיגיטלי. AWS מציע לכם תיק שירותי מחשוב ענן שיעזור בניהול נתונים גדולים על ידי צמצום משמעותי של עלויות, קנה מידה כדי לענות על הביקוש והגדלת מהירות החדשנות.

שירותי האינטרנט של אמזון מספקים תיק משולב לחלוטין של שירותי מחשוב ענן. יתר על כן, זה עוזר לך לבנות, לאבטח ולפרוס את יישומי הנתונים הגדולים שלך. כמו כן, עם AWS אינך זקוק לחומרה לרכישה ותשתית לתחזוקה ולגודל. בשל כך, תוכל למקד את המשאבים שלך בחשיפת תובנות חדשות.מכיוון שתכונות חדשות מתווספות ללא הרף, תמיד תוכל למנף את הטכנולוגיות העדכניות ביותר מבלי שתצטרך להתחייב על השקעות לטווח הארוך.

כיצד AWS יכול לפתור אתגרי Big Data?

פתרונות AWS לביג דאטה

ל- AWS פתרונות רבים לכל מטרת הפיתוח והפריסה. כמו כן, בתחום מדעי הנתונים והביג דאטה, AWS העלתה התפתחויות אחרונות בהיבטים שונים של הטיפול בביג דאטה. לפני שאנחנו קופצים לכלים, הבה נבין היבטים שונים של ביג דאטה שעבורם AWS יכולה לספק פתרונות.

  1. בליעת נתונים
    איסוף הנתונים הגולמיים - עסקאות, יומנים, מכשירים ניידים ועוד - הוא האתגר הראשון שעומדים בפני ארגונים רבים כאשר הם מתמודדים עם נתונים גדולים. פלטפורמת ביג-דאטה טובה מקלה על הצעד הזה, ומאפשרת למפתחים לבלוע מגוון רחב של נתונים - ממובנים ללא מובנים - בכל מהירות שהיא - החל בזמן אמת לאצווה.

  2. אחסון נתונים
    כל פלטפורמת נתונים גדולה זקוקה למאגר מאובטח, מדרגי ועמיד לאחסון נתונים לפני משימות עיבוד ואף אחריהן. בהתאם לדרישות הספציפיות שלך, ייתכן שתזדקק לחנויות זמניות לצורך נתונים במעבר.

  3. עיבוד נתונים
    זהו השלב בו טרנספורמציית נתונים מתרחשת ממצבה הגולמי לפורמט מתכלה - בדרך כלל באמצעות מיון, צבירה, הצטרפות ואף ביצוע פונקציות ואלגוריתמים מתקדמים יותר. מערכי הנתונים המתקבלים עוברים אחסון להמשך עיבוד או זמינים לצריכה באמצעות כלי בינה עסקית והדמיית נתונים.

  4. רְאִיָה

    נתונים גדולים עוסקים בקבלת תובנות בעלות ערך רב וניתן לפעולה מנכסי הנתונים שלך. באופן אידיאלי, נתונים זמינים לבעלי העניין באמצעות מודיעין עסקי בשירות עצמי וכלים להדמיית נתונים זריזים המאפשרים חקירה מהירה וקלה של מערכי נתונים.

כלי AWS לביג דאטה

בחלקים הקודמים בחנו את השדות ב- Big Data שבהם AWS יכולה לספק פתרונות. בנוסף, ל- AWS יש מספר רב של כלים ושירותים בארסנל שלה כדי לאפשר ללקוחות את היכולות של Big Data.

הבה נבחן את הפתרונות השונים שמספק AWS לטיפול בשלבים שונים המעורבים בביג דאטה

הַכנָסַת מָזוֹן

  1. קינזיס

    אמזון Kinesis Firehose הוא שירות מנוהל באופן מלא למסירת נתוני סטרימינג בזמן אמת ישירות ל- Amazon S3. Kinesis Firehose מתכוונן באופן אוטומטי כדי להתאים לנפח ולתפוקת הנתונים הזורמים ואינו דורש ניהול שוטף. אתה יכול להגדיר את Kinesis Firehose כדי להפוך נתוני סטרימינג לפני שתאחסן אותם ב- Amazon S3.

  2. כַּדוּר שֶׁלֶג
    אתה יכול להשתמש כדור השלג של AWS להעביר באופן מאובטח ויעיל נתונים בתפזורת מפלטפורמות אחסון מקומיות ואשכולות Hadoop לדלי S3. לאחר שתיצור משרה במסוף הניהול של AWS, תקבל באופן אוטומטי מכשיר כדור שלג. לאחר שהגיע כדור שלג, חבר אותו לרשת המקומית שלך, התקן את לקוח השלג על מקור הנתונים המקומי שלך ולאחר מכן השתמש בלקוח השלג כדי לבחור ולהעביר את ספריות הקבצים למכשיר כדור השלג.

אִחסוּן

  1. אמזון S3

אמזון S3 הוא אחסון אובייקטים מאובטח, בעל מדרגיות גבוהה ועמיד עם חביון של אלפיות השנייה לגישה לנתונים. S3 יכול לאחסן כל סוג של נתונים מכל מקום - אתרים ויישומים ניידים, יישומים ארגוניים ונתונים מחיישני IoT או מהתקנים. זה יכול גם לאחסן ולאחזר כל כמות נתונים, עם זמינות ללא תחרות, ונבנה מהיסוד כדי לספק עמידות של 99.999999999% (11 תשע).

2. דבק AWS

דבק הוא שירות מנוהל באופן מלא המספק קטלוג נתונים כדי להפוך את הנתונים באגם הנתונים לנגלים. בנוסף, יש לו את היכולת לבצע חילוץ, שינוי וטעינה (ETL) כדי להכין נתונים לניתוח. כמו כן, קטלוג הנתונים המובנה הוא כמו חנות מטה-נתונים מתמשכת עבור כל נכסי הנתונים, מה שהופך את כל הנתונים לחיפוש ושואלים אותם בתצוגה יחידה.

מעבד

  1. EMR
    לעיבוד נתונים גדולים באמצעות Spark ו- Hadoop, EMR של אמזון מספק שירות מנוהל שמקל, מהיר ומשתלם לעבד כמויות עצומות של נתונים. יתר על כן, EMR תומך ב 19 פרויקטים שונים של קוד פתוח כולל Hadoop , לְעוֹרֵר , ו כמו כן, הוא מגיע עם מחשבי EMR מנוהלים להנדסת נתונים, פיתוח מדעי נתונים ושיתוף פעולה.

  2. הסעה אדומה
    לאחסון נתונים, אֲמָזוֹנָה Redshift מספק את היכולת להריץ שאילתות מורכבות וניתוחיות נגד פטה-בתים של נתונים מובנים. כמו כן, הוא כולל ספקטרום אדום שיפט שמריץ שאילתות SQL ישירות מול Exabytes של נתונים מובנים או לא מובנים ב- S3 ללא צורך בתנועת נתונים מיותרת.

ויזואליזציות

  1. אמזון QuickSight

    עבור לוחות מחוונים והדמיות, אמזון קוויקסייט מספקת לכם שירות ניתוח מהיר ומונע ענן. זה מקל על בניית ויזואליזציות מדהימות ולוחות מחוונים עשירים. בנוסף, אתה יכול לגשת אליהם מכל דפדפן או מכשיר נייד.

הדגמה - ניתוח נתונים של מיני צמחים ובעלי חיים בסכנת הכחדה באוסטרליה.

בהדגמה זו נשתמש בנתוני מדגם של מיני צמחים ובעלי חיים בסכנת הכחדה מהמדינות והשטחים של אוסטרליה. כאן ניצור אשכול EMR ​​ונתגדיר אותו להפעלת עבודות Apache Hive רב-שלביות. באשכול ה- EMR יותקן בו Apache Hive. אשכול זה ישתמש ב- EMRFS כמערכת הקבצים, כך שמיקומי הקלט והפלט שלו ממופים לדלי S3. האשכול ישתמש גם באותה דלי S3 לאחסון קבצי יומן.

כעת ניצור מספר שלבי EMR באשכול לעיבוד קבוצת נתונים לדוגמא. כאן כל אחד מהשלבים הללו יריץ סקריפט Hive, והפלט הסופי יישמר בדלי S3. שלבים אלה ייצרו יומני MapReduce, וזאת מכיוון שפקודות Hive מתורגמות לעבודות MapReduce בזמן הריצה. קבצי היומן עבור כל שלב נצברים מהמכולות שהוא מלקט.

נתונים לדוגמא

ערכת נתוני המדגם למקרה שימוש זה זמינה לציבור מה- אתר הנתונים הפתוחים של ממשלת אוסטרליה . מערך נתונים זה עוסק במיני בעלי חיים וצמחים מאוימים ממדינות וטריטוריות שונות באוסטרליה. ניתן לראות ולהוריד תיאור של שדות מערך הנתונים הזה וקובץ ה- CSV כאן .

שלבי עיבוד

שלב עבודת ה- EMR הראשון כרוך ביצירת טבלת Hive כסכמה לקובץ המקור הבסיסי ב- S3. בשלב העבודה השני, כעת נריץ שאילתה מוצלחת כנגד הנתונים. באופן דומה, נפעיל שאילתה שלישית ורביעית.

נחזור על ארבעת השלבים הללו כמה פעמים תוך שעה, ונדמה ריצות רצופות של עבודת אצווה רב-שלבית. עם זאת, בתרחיש אמיתי, הפרש הזמן בין כל ריצת אצווה בדרך כלל יכול להיות הרבה יותר גבוה. הפער הזעיר בין ריצות עוקבות נועד להאיץ את הבדיקות שלנו.

S3 דלי ותיקיות

לפני שיצרנו את אשכול ה- EMR שלנו, כאן היינו צריכים ליצור דלי S3 כדי לארח את הקבצים שלו. בדוגמה שלנו אנו מכנים דלי זה 'arvind1-bucket' התיקיות שמתחת לדלי זה מוצגות למטה במסוף AWS עבור S3:

  • תיקיית הקלט מחזיקה את נתוני הדוגמה

  • תיקיית הסקריפטים מכילה את קבצי הסקריפט של Hive לשלבי עבודת EMR

  • ברור שתיקיית הפלט תחזיק את פלט תוכנית הכוורת

  • אשכול ה- EMR משתמש בתיקיית היומנים לשמירת קבצי היומן שלו.

סקריפטים של כוורות לצעדים של EMR

1. שלב עבודה זה מריץ סקריפט של כוורתכדי ליצור שולחן כוורת חיצוני. טבלה זו מתארת ​​את סכמת הטבלאות של קובץ נתוני ה- CSV הבסיסי. התסריט לכך הוא כדלקמן:

צור טבלה חיצונית 'מאוימת_מינים '(מחרוזת' שם מדעי ', מחרוזת' שם משותף ', מחרוזת' שם מדעי נוכחי ', מחרוזת' סטטוס מאוים ', מחרוזת' מעשה ', מחרוזת' nsw ', מחרוזת' nt ',' qld ' מחרוזת, מחרוזת 'sa', מחרוזת 'tas', מחרוזת 'vic', מחרוזת 'wa', מחרוזת 'aci', מחרוזת 'cki', מחרוזת 'ci', מחרוזת 'csi', מחרוזת 'jbt', 'nfi' מחרוזת, מחרוזת hmi מחרוזת, מחרוזת 'שם nsl', מחרוזת 'משפחה', מחרוזת 'סוג', מחרוזת 'מינים', מחרוזת 'דירוג אינפרטי ספציפי', מחרוזת 'אינפרספקט', מחרוזת 'מחבר מינים', מחרוזת 'מחבר אינפרספקט') שורה של פורמט שורה מוגדר על ידי ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /

2. שלב עבודה זה מריץ שאילתה לחישוב חמשת המינים המצויים בסכנת הכחדה במדינת ניו סאות 'ויילס (NSW). שם קובץ שאילתת Hive הוא מינים בסכנה NSW.q והוא מופיע למטה:

בחר מינים, COUNT (nsw) AS number_of_endangered_species FROM bedreed_species WHERE (nsw = 'Yes' OR nsw = 'Endangered') AND 'status threated' = 'בסכנת הכחדה' קבוצה לפי מינים שיש ספירה (nsw)> 1 סדר לפי מספר_ of_endangered_species DESC LIMIT 5

3.שלב עבודה זה מריץ שאילתה לחישוב המספר הכולל של מיני צמחים בסכנת הכחדה עבור כל משפחת צמחים באוסטרליה. שם קובץ שאילתת Hive הואendangeredPlantSpecies.qומוצג להלן

בחר משפחה, COUNT (מינים) מספר_אף_סכנה_ממוצא מאיום_מינים2 WHERE ממלכה = 'פלנטה' ו'סטטוס מאוים '=' סכנה 'קבוצה לפי משפחה

4. שלב זה מפרט את השמות המדעיים של מיני בעלי חיים שנכחדו במדינת קווינסלנד באוסטרליה. קובץ התסריט נקרא extinctAnimalsQLD.q ומוצג להלן:

בחר 'שם נפוץ', 'שם מדעי' מאיים_מינים WHERE kingdom = 'Animalia' AND (qld = 'Yes' OR qld = 'נכחד') AND 'status threat' = 'נכחד'

צבר יומן

כאן העלנו גם קובץ JSON בשם logAggregation.json בתיקיית הסקריפטים של ה- S3. אנו משתמשים בקובץ זה לצורך צבירת קובצי יומן YARN. צבירת יומנים מוגדרת בקובץ התצורה yarn-site.xml כאשר האשכול מתחיל. התוכן של קובץ logAggregation.json הוא כדלקמן:

[{'סיווג': 'אתר חוט', 'מאפיינים': {'yarn.log-aggregation-enable': 'true', 'yarn.log-aggregation.retain-seconds': '-1', 'yarn .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

לאחר שתיצור את דלי S3 ותעתיק את קבצי הנתונים והתסריט לתיקיות שלהם, הגיע הזמן להגדיר אשכול EMR. התמונות הבאות מתארות את התהליך בזמן שאנחנו יוצרים את האשכול עם הגדרות ברירת מחדל בעיקר.

התקנת אשכול EMR

בתמונה הראשונה, כדי להגדיר את האשכול במסוף AWS, שמרנו על כל היישומים המומלצים על ידי EMR, כולל Hive. אנחנו לא צריכים להשתמש בדבק AWS לאחסון מטא נתונים של כוורת, ואנחנו לא מוסיפים שום שלב עבודה כרגע. עם זאת, עלינו להוסיף הגדרת תוכנה ל- Hive. כאן עליכם לבחון היטב כיצד אנו מציינים את הנתיב לקובץ JSON של צבירת היומנים בשדה זה.

בשלב הבא שמרנו על כל הגדרות ברירת המחדל. לצורך הבדיקה שלנו, לאשכול יהיו צומת ראשי אחד ושני צמתים מרכזיים. כל צומת כאן הוא מופע m3.xlarge ויש לו נפח שורש בנפח 10 GB. אנו שמים את האשכול ל- arvind1-cluster בשלב הבא, ומציינים את מיקום s3 המותאם אישית עבור קבצי היומן שלו.

לבסוף, ציינו צמד מפתחות EC2 לצורך גישה לצומת הראשי של האשכול. אין שינוי בתפקידי IAM המוגדרים כברירת מחדל עבור EMR, פרופיל מופע EC2 ואפשרויות בקנה מידה אוטומטי. כמו כן, הצמתים הראשיים והליבה משתמשים כברירת מחדל בקבוצות אבטחה זמינות. בדרך כלל זוהי הגדרת ברירת מחדל עבור אשכול EMR. לאחר שהכל מוכן, האשכול נמצא במצב 'מחכה' כמוצג להלן:

הגש את שלבי עבודת הכוורת

לאחר מכן, עלינו לאפשר גישה ל- SSH.

  1. פתח את קונסולת EMR של אמזון בכתובת https://console.aws.amazon.com/elasticmapreduce/ .
  2. בחר אשכולות .
  3. בחר את שֵׁם של האשכול.
  4. תַחַת אבטחה וגישה בחר את קבוצות אבטחה עבור מאסטר קישור.
  5. בחר ElasticMapReduce-master מהרשימה.
  6. בחר נכנס , לַעֲרוֹך .
  7. מצא את הכלל באמצעות ההגדרות הבאות ובחר את איקס סמל למחיקתו:
    • סוּג SSH
    • נמל 22
    • מָקוֹר מותאם אישית 0.0.0.0/0
  8. גלול לתחתית רשימת הכללים ובחר הוסף כלל .
  9. ל סוּג , בחר SSH זה נכנס אוטומטית TCP ל נוהל ו 22 ל נמל טווח .
  10. עבור מקור, בחר איי פי שלי זה מוסיף באופן אוטומטי את כתובת ה- IP של מחשב הלקוח שלך ככתובת המקור. לחלופין, תוכל להוסיף מגוון של המותאם אישית כתובות IP של לקוח מהימן ובחר הוסף את הכלל ליצור כללים נוספים עבור לקוחות אחרים. בסביבות רשת רבות, אתה מקצה כתובות IP באופן דינמי, כך שתצטרך לערוך מעת לעת כללי קבוצות אבטחה כדי לעדכן את כתובת ה- IP של לקוחות מהימנים.
  11. בחר להציל .
  12. אופציונלי, בחר ElasticMapReduce-slave מהרשימה וחזור על השלבים שלמעלה כדי לאפשר ללקוח SSH גישה לצמחי ליבה ומשימה מלקוחות מהימנים.

מכיוון שאשכול ה- EMR פועל, הוספנו ארבעה שלבי עבודה. אלה השלבים ש- EMR יפעל בזה אחר זה. התמונה הבאה מציגה את השלבים מקונסולת AWS EMR:

לאחר שנוסיף את ארבעת השלבים, נוכל לבדוק את סטטוס השלבים הללו כמתבצע. גם אם יש בעיה כלשהי בביצוע שלבים אלה, הרי שבמקרים כאלה ניתן לפתור אותה באמצעות קבצי היומן של השלבים הללו.

אז זה מהצד שלי במאמר זה על Big Data ב- AWS. אני מקווה שהבנת את כל מה שהסברתי כאן.

אם גילית ש- Big Data ב- AWS רלוונטי, תוכל לבדוק את הקורס החי והמדריך של אדוריקה , נוצר במשותף על ידי מתרגלים בתעשייה.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות של כיצד לפרוס את יישום האינטרנט של Java ב- AWS ונחזור אליך.