מדריך Big Data: כל מה שאתה צריך לדעת על Big Data!



בלוג זה במדריך Big Data נותן לך סקירה מלאה של Big Data, מאפייניו, יישומיו כמו גם אתגרים ביג דאטה.

מדריך Big Data

ביג דאטה, לא שמעתם את המונח הזה בעבר? אני בטוח שיש לך. בארבע עד 5 השנים האחרונות כולם מדברים על ביג דאטה. אבל האם אתה באמת יודע מה זה ביג דאטה בדיוק, איך זה משפיע על חיינו ומדוע ארגונים צדים אחר אנשי מקצוע עם ? במדריך Big Data זה, אתן לך תובנה מלאה לגבי Big Data.

להלן הנושאים שאעסוק במדריך זה לביג נתונים:





  • סיפור הביג דאטה
  • גורמי ביג דאטה
  • מה זה Big Data?
  • מאפייני ביג דאטה
  • סוגי ביג דאטה
  • דוגמאות לביג דאטה
  • יישומים של Big Data
  • אתגרים עם ביג דאטה

מדריך ביג דאטה - אדוריקה

תן לי להתחיל את ההדרכה הגדולה הזו עם סיפור קצר.



סיפור הביג דאטה

בימי קדם אנשים נהגו לנסוע מכפר אחד לכפר אחר על גבי עגלה מונעת סוסים, אך ככל שחלף הזמן הכפרים הפכו לעיירות ואנשים התפשטו. גם המרחק לנסוע מעיירה אחת לעיירה השנייה גדל. אז זה הפך להיות בעיה לנסוע בין עיירות, יחד עם המזוודות. מהכחול, הציע אחד החכמים, עלינו לחתן ולהאכיל סוס יותר, כדי לפתור בעיה זו. כשאני מסתכל על פיתרון זה, זה לא כל כך רע, אבל האם אתה חושב שסוס יכול להפוך לפיל? אני לא חושב שכן. בחור חכם אחר אמר, במקום שסוס אחד ימשוך את העגלה, שיהיה לנו 4 סוסים כדי למשוך את אותה העגלה. מה אתם חושבים על הפיתרון הזה? אני חושב שזה פיתרון נהדר. כעת, אנשים יכולים לנסוע למרחקים גדולים בפחות זמן ואף לשאת יותר מזוודות.

אותו מושג חל על ביג דאטה. ביג דאטה אומר שעד היום היינו בסדר עם שמירת הנתונים בשרתים שלנו מכיוון שנפח הנתונים היה די מוגבל, וגם פרק הזמן לעבד נתונים אלה היה בסדר. אבל עכשיו בעולם הטכנולוגי הנוכחי, הנתונים צומחים מהר מדי ואנשים מסתמכים על הנתונים הרבה פעמים. גם המהירות בה גדלים הנתונים, הופך להיות בלתי אפשרי לאחסן את הנתונים בשום שרת.

דרך הבלוג הזה במדריך Big Data, הבה נבחן את מקורות ה- Big Data, שהמערכות המסורתיות לא מצליחות לאחסן ולעבד.



גורמי ביג דאטה

כמות הנתונים על כדור הארץ גדלה באופן אקספוננציאלי מסיבות רבות. מקורות שונים והפעילויות השוטפות שלנו מייצרים הרבה נתונים. עם המצאת האינטרנט, העולם כולו נכנס לרשת, כל דבר שאנחנו עושים משאיר עקבות דיגיטליות. כאשר האובייקטים החכמים נכנסים לרשת, קצב צמיחת הנתונים גדל במהירות. המקורות העיקריים של ביג דאטה הם אתרי מדיה חברתית, רשתות חיישנים, תמונות / סרטונים דיגיטליים, טלפונים סלולריים, רשומות עסקאות רכישה, יומני רשת, רשומות רפואיות, ארכיונים, מעקב צבאי, מסחר אלקטרוני, מחקר מדעי מורכב וכן הלאה. כל המידע הזה מסתכם בכמה בתים של קווינטיליון. עד שנת 2020, נפחי הנתונים יהיו בסביבות 40 זט-בתים, שווה ערך להוספת כל גרגר חול אחד על פני כדור הארץ כפול שבעים וחמישה.

.trim () java

מה זה Big Data?

ביג דאטה הוא מונח המשמש לאוסף מערכי נתונים גדולים ומורכבים, שקשה לאחסן ולעבד אותם באמצעות כלי ניהול בסיסי נתונים זמינים או יישומים מסורתיים לעיבוד נתונים. האתגר כולל לכידת, אוצר, אחסון, חיפוש, שיתוף, העברה, ניתוח והדמיה של נתונים אלה.

מאפייני ביג דאטה

חמשת המאפיינים המגדירים ביג דאטה הם: נפח, מהירות, מגוון, אמיתות וערך.

  1. כרך

    נפח מתייחס ל'כמות הנתונים ', שגדלה מיום ליום בקצב מהיר מאוד. גודל הנתונים שנוצרו על ידי בני אדם, מכונות והאינטראקציה שלהם ברשתות החברתיות עצמן הוא עצום. חוקרים חזו כי 40 זטאבייט (40,000 אבו-בייט) יופקו עד שנת 2020, כלומר גידול של פי 300 לעומת 2005.

  2. מְהִירוּת

    מהירות מוגדרת כקצב שבו מקורות שונים מייצרים את הנתונים מדי יום. זרימת נתונים זו מסיבית ורציפה. יש בניידים 1.03 מיליארד משתמשים פעילים יומיים (פייסבוק DAU) נכון לעכשיו, המהווה גידול של 22% לעומת השנה שעברה. זה מראה כמה מהר מספר המשתמשים גדל ברשתות החברתיות וכמה מהר הנתונים נוצרים מדי יום. אם אתה מסוגל להתמודד עם המהירות, תוכל לייצר תובנות ולקבל החלטות על סמך נתונים בזמן אמת.

  3. מגוון

    מכיוון שיש מקורות רבים התורמים לביג דאטה, סוג הנתונים שהם מייצרים שונה. זה יכול להיות מובנה, חצי מובנה או לא מובנה. לפיכך, ישנם מגוון נתונים שנוצרים מדי יום. מוקדם יותר היינו מקבלים את הנתונים מאקסל וממאגרי מידע, כעת הנתונים מגיעים בצורה של תמונות, אודיו, קטעי וידאו, נתוני חיישנים וכו 'כפי שמוצג בתמונה למטה. מכאן, שמגוון זה של נתונים לא מובנים יוצר בעיות בלכידה, אחסון, כרייה וניתוח הנתונים.

  4. אֲמִתוּת

    אמיתות מתייחסת לנתונים בספק או בחוסר הוודאות של הנתונים הזמינים עקב חוסר עקביות וחוסר השלמות בנתונים. בתמונה למטה תוכלו לראות כי חסרים ערכים מעטים בטבלה. כמו כן, קשה לקבל כמה ערכים, למשל - ערך מינימלי של 15000 בשורה השלישית, זה לא אפשרי. חוסר עקביות וחוסר השלמות הזה הוא אמיתות.
    נתונים זמינים יכולים לפעמים להיות מבולגנים ואולי קשה לסמוך עליהם. עם צורות רבות של נתונים גדולים, קשה לשלוט על איכות ודיוק כמו הודעות בטוויטר עם hashtags, קיצורים, שגיאות הקלדה ודיבור דיבור. הנפח הוא לעתים קרובות הסיבה העומדת מאחורי חוסר האיכות והדיוק בנתונים.

    • בגלל חוסר וודאות בנתונים, 1 מכל 3 מנהיגים עסקיים לא סומכים על המידע שהם משתמשים בו כדי לקבל החלטות.
    • בסקר נמצא כי 27% מהנשאלים לא היו בטוחים כמה הנתונים שלהם אינם מדויקים.
    • איכות נתונים ירודה עולה לכלכלת ארה'ב בסביבות 3.1 טריליון דולר בשנה.
  5. ערך

    לאחר שדינו על נפח, מהירות, מגוון ואמינות, יש וי נוסף שיש לקחת בחשבון כאשר מסתכלים על ביג דאטה כלומר ערך. הכל טוב ויפה שיש גישה לגדוליםנתוניםאבלאלא אם כן נוכל להפוך אותו לערך הוא חסר תועלת. על ידי הפיכתו לערך אני מתכוון, האם זה מוסיף ליתרונות הארגונים שמנתחים נתונים גדולים? האם הארגון עובד על ביג דאטה משיג ROI גבוה (Return On Investment)? אלא אם כן זה מוסיף לרווחים שלהם על ידי עבודה על ביג דאטה, זה חסר תועלת.

עבור לסרטון הביג דאטה שלנו למטה כדי ללמוד עוד על ביג דאטה:

מדריך Big Data למתחילים | מה זה Big Data | אדוריקה

כפי שנדון ב- Variety, ישנם סוגים שונים של נתונים שנוצרים מדי יום. אז בואו נבין כעת את סוגי הנתונים:

סוגי ביג דאטה

נתונים גדולים יכולים להיות משלושה סוגים:

  • מובנה
  • חצי-מובנה
  • לא מובנה

  1. מובנה

    הנתונים שניתן לאחסן ולעבד בפורמט קבוע נקראים כנתונים מובנים. נתונים המאוחסנים במערכת ניהול מסדי נתונים יחסיים (RDBMS) הם דוגמה אחת לנתונים 'מובנים'. קל לעבד נתונים מובנים מכיוון שיש להם סכמה קבועה. שפת שאילתות מובנית (SQL) משמשת לעיתים קרובות לניהול נתונים מסוג זה.

  2. חצי-מובנה

    נתונים חצי מובנים הם סוג של נתונים שאין להם מבנה פורמלי של מודל נתונים, כלומר הגדרת טבלה ב- DBMS התייחסותי, אך עם זאת יש לו כמה מאפיינים ארגוניים כמו תגים וסמנים אחרים כדי להפריד בין אלמנטים סמנטיים שמקלים על כך. לנתח. קבצי XML או מסמכי JSON הם דוגמאות לנתונים מובנים למחצה.

  3. לא מובנה

    הנתונים שיש להם צורה לא ידועה ולא ניתן לאחסן ב- RDBMS ולא ניתן לנתח אותם אלא אם כן הם הופכים לפורמט מובנה נקראים כנתונים לא מובנים. קבצי טקסט ותכני מולטימדיה כמו תמונות, אודיו, קטעי וידאו הם דוגמה לנתונים לא מובנים. הנתונים הלא מובנים צומחים מהר יותר מאחרים, מומחים אומרים כי 80 אחוז מהנתונים בארגון אינם מובנים.

עד עכשיו סקרתי את הצגת ה- Big Data. יתר על כן, מדריך Big Data זה מדבר על דוגמאות, יישומים ואתגרים ב- Big Data.

דוגמאות לביג דאטה

מדי יום אנו מעלים מיליוני בתים של נתונים. 90% מנתוני העולם נוצרו בשנתיים האחרונות.

מיון c ++ stl
  • וולמארט מטפל ביותר מ מיליון עסקאות לקוחות כל שעה.
  • פייסבוק חנויות, גישות וניתוחים 30+ פטה בייטים של נתונים שנוצרו על ידי משתמשים.
  • 230+ מיליון של ציוצים נוצרים כל יום.
  • יותר מ 5 מיליארד אנשים מתקשרים, שולחים הודעות SMS, מצפצפים וגולשים בטלפונים ניידים ברחבי העולם.
  • משתמשי YouTube מעלים 48 שעות של סרטון חדש בכל דקה ביום.
  • ידיות אמזון 15 מיליון לחץ על נתוני המשתמשים בזרם קליקים של לקוחות על מנת להמליץ ​​על מוצרים.
  • 294 מיליארד מיילים נשלחים כל יום. השירותים מנתחים נתונים אלה כדי למצוא את הספאם.
  • למכוניות מודרניות יש קרוב ל 100 חיישנים אשר עוקב אחר מפלס הדלק, לחץ הצמיגים וכו ', כל רכב מייצר נתונים רבים של חיישנים.

יישומים של Big Data

אנחנו לא יכולים לדבר על נתונים בלי לדבר על אנשים, אנשים שמקבלים תועלת מיישומי Big Data. כמעט כל הענפים כיום ממנפים יישומי ביג דאטה בצורה כזו או אחרת.

  • שירותי בריאות חכמים יותר : תוך שימוש בפטאבים של נתוני המטופל, הארגון יכול לחלץ מידע משמעותי ואז לבנות יישומים שיכולים לחזות מראש את מצבו המידרדר של המטופל.
  • טלקום : מגזרי הטלקום אוספים מידע, מנתחים אותו ומספקים פתרונות לבעיות שונות. באמצעות יישומי ביג דאטה, חברות טלקום הצליחו להפחית באופן משמעותי את אובדן חבילות הנתונים, המתרחש כאשר עומס יתר ברשתות, ובכך לספק חיבור חלק ללקוחותיהן.
  • קמעונאות : הקמעונאות כוללת כמה מהשוליים המהודקים ביותר, והיא אחת הנהנות הגדולות מביג דאטה. היופי בשימוש בביג דאטה בקמעונאות הוא להבין את התנהגות הצרכנים. מנוע ההמלצות של אמזון מספק הצעות על סמך היסטוריית הגלישה של הצרכן.
  • בקרת תנועה : עומסי תנועה הם אתגר גדול עבור ערים רבות ברחבי העולם. שימוש יעיל בנתונים ובחיישנים יהיה המפתח לניהול טוב יותר של התנועה ככל שהערים צפופות יותר ויותר.
  • ייצור : ניתוח נתונים גדולים בתעשייה הייצור יכול להפחית פגמים ברכיבים, לשפר את איכות המוצר, להגביר את היעילות ולחסוך זמן וכסף.
  • איכות חיפוש : בכל פעם שאנחנו מחלצים מידע מ- google, אנחנו מייצרים בו זמנית נתונים עבורו. גוגל שומרת נתונים אלה ומשתמשת בהם לשיפור איכות החיפוש שלהם.

מישהו אמר בצדק: 'לא הכל בגן ורוד!' . עד עכשיו במדריך זה של ביג דאטה, רק הראיתי לך את התמונה הוורודה של ביג דאטה. אבל אם היה כל כך קל למנף ביג דאטה, אתה לא חושב שכל הארגונים ישקיעו בזה? תן לי לומר לך מראש, זה לא המקרה. ישנם מספר אתגרים שמופיעים כשאתה עובד עם Big Data.

כעת, כאשר אתה מכיר את הביג דאטה ותכונותיה השונות, החלק הבא בבלוג זה במדריך ביג דאטה ישפוך מעט אור על כמה מהאתגרים הגדולים הניצבים בפני ביג דאטה.

אתגרים עם ביג דאטה

תן לי לספר לך כמה אתגרים שמגיעים יחד עם ביג דאטה:

  1. איכות מידע הבעיה כאן היא 4הV כלומר אמת. הנתונים כאן מאוד מבולגנים, לא עקביים ולא שלמים. נתונים מלוכלכים עולים לחברות 600 מיליארד דולר מדי שנה בארצות הברית.
  1. תַגלִית - מציאת תובנות על ביג דאטה זה כמו למצוא מחט בערמת שחת. ניתוח petabytes של נתונים באמצעות אלגוריתמים חזקים במיוחד למציאת דפוסים ותובנות קשה מאוד.
  1. אִחסוּן - ככל שיש לארגון יותר נתונים, כך בעיות הניהול שלו יכולות להיות מורכבות יותר. השאלה שעולה כאן היא 'איפה לאחסן את זה?'. אנו זקוקים למערכת אחסון אשר יכולה להתמקד או לרדת על פי דרישה בקלות.
  1. ניתוח - במקרה של ביג דאטה, לרוב אנו לא מודעים לסוג הנתונים שאנו עוסקים בהם, ולכן ניתוח הנתונים קשה עוד יותר.
  1. בִּטָחוֹן - מכיוון שהנתונים עצומים בגודלם, שמירה על אבטחתם היא אתגר נוסף. זה כולל אימות משתמשים, הגבלת גישה על בסיס משתמש, הקלטת היסטוריות גישה לנתונים, שימוש נכון בהצפנת נתונים וכו '.
  1. חוסר כישרון - ישנם הרבה פרויקטים של ביג דאטה בארגונים גדולים, אך צוות מתוחכם של מפתחים, מדעני נתונים ואנליסטים שיש להם גם כמות מספקת של ידע בתחום הוא עדיין אתגר.

Hadoop להצלה

יש לנו מושיע להתמודד עם אתגרי הביג דאטה - זה Hadoop . Hadoop היא מסגרת תכנות מבוססת קוד פתוח, התומכת באחסון ועיבוד של מערכי נתונים גדולים במיוחד בסביבת מחשוב מבוזרת. זה חלק מפרויקט Apache בחסות קרן Apache Software.

Hadoop עם העיבוד המופץ שלה, מטפלת בנפחים גדולים של נתונים מובנים ולא מובנים ביעילות רבה יותר מאשר מחסן הנתונים הארגוני המסורתי. Hadoop מאפשר להריץ יישומים במערכות עם אלפי צמתי חומרה של סחורות ולטפל באלפי טרה-בייט של נתונים. ארגונים מאמצים את Hadoop מכיוון שזו תוכנת קוד פתוח ויכולה לפעול על חומרת סחורה (המחשב האישי שלך).החיסכון הראשוני בעלויות הוא דרמטי מכיוון שחומרת הסחורה זולה מאוד. ככל שהנתונים הארגוניים עולים, עליכם להוסיף עוד ועוד חומרת סחורה לטעון בכדי לאחסן אותם, ומכאן שהאדופ מתגלה כחסכונית.בנוסף, ל- Hadoop עומדת מאחוריה קהילת אפאצ'י חזקה שממשיכה לתרום לקידומה.

כפי שהובטח קודם, דרך הבלוג הזה ב- Big Data Tutorial, נתתי לך את התובנות המקסימליות בביג דאטה. זה הסוף של מדריך Big Data. כעת, הצעד הבא קדימה הוא לדעת וללמוד את Hadoop. יש לנו סדרת הדרכה של Hadoop בלוגים שיעניקו בפירוט ידע על המערכת האקולוגית המלאה של Hadoop.

כל הכבוד, Hadooping שמח!

עכשיו אחרי שהבנתם מה זה Big Data, בדקו את מאת אדוריקה, חברת למידה מקוונת מהימנה עם רשת של יותר מ -250,000 לומדים מרוצים הפרוסים ברחבי העולם. קורס הכשרת ההסמכה של אדורקה ביג דאטה Hadoop עוזר ללומדים להיות מומחים בתחום HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume ו- Sqoop תוך שימוש במקרי שימוש בזמן אמת בתחום הקמעונאות, מדיה חברתית, תעופה, תיירות, פיננסים.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

מהן חבילות בג'אווה