הדרכה של אפאצ'י פלומה: הזרמת נתונים בטוויטר



בלוג זה של Apache Flume מסביר את היסודות של Apache Flume ותכונותיו. זה גם יציג הזרמת טוויטר באמצעות Apache Flume.

בבלוג הדרכה זה של Apache Flume, נבין כיצד Flume מסייע בהזרמת נתונים ממקורות שונים. אבל לפני כן הבה נבין את החשיבות של בליעת נתונים. בליעת נתונים היא השלב הראשוני והחשוב במטרה לעבד ולנתח נתונים, ואז להפיק מהם ערכים עסקיים. ישנם מקורות מרובים מהם נאספים נתונים בארגון.

בואו לדבר על סיבה חשובה נוספת מדוע פלום הפך כל כך פופולרי. אני מקווה שאולי אתה מכיר , המשמש מאוד בתעשייה מכיוון שהוא יכול לאחסן כל מיני נתונים. Flume יכול להשתלב בקלות עם Hadoop ולזרוק נתונים לא מובנים כמו גם מבנים למחצה על HDFS, ולהחמיא לעוצמת Hadoop. זו הסיבה ש- Apache Flume הוא חלק חשוב במערכת האקולוגית של Hadoop.





בבלוג הדרכה זה של אפאצ'י פלום, נדבר על:



נתחיל בהדרכת Flume זו על ידי דיון בנושא מה זה Apache Flume. ואז נתקדם, נבין את היתרונות של השימוש ב- Flume.

מדריך Apache Flume: מבוא ל- Apache Flume

לוגו של אפאצApache Flume הוא כלי לבליעת נתונים ב- HDFS. הוא אוסף, אוסף ומעביר כמות גדולה של נתוני סטרימינג כגון קבצי יומן, אירועים ממקורות שונים כמו תעבורת רשת, מדיה חברתית, הודעות דוא'ל וכו 'אל HDFS.פלומה היא אמינה ומופצת ביותר.

הרעיון העיקרי שעומד מאחורי העיצוב של Flume הוא לכידת נתונים סטרימינג משרתי אינטרנט שונים ל- HDFS. יש לו ארכיטקטורה פשוטה וגמישה המבוססת על זרימת נתונים זורמת. זה סובלני לתקלות ומספק מנגנון אמינות לסובלנות תקלה והתאוששות תקלות.



אחרי שהבנו מה זה Flume, עכשיו בואו נתקדם בבלוג זה של Flume Tutorial ונבין את היתרונות של Apache Flume. לאחר מכן, נתבונן בארכיטקטורה של פלום וננסה להבין כיצד היא פועלת באופן בסיסי.

מהו ממשק סמן בג'אווה

הדרכה של אפאצ'י פלומה: יתרונות פלומת אפאצ'י

ישנם מספר יתרונות של Apache Flume מה שהופך אותו לבחירה טובה יותר על פני אחרים. היתרונות הם:

  • Flume ניתן להרחבה, אמין, סובלני לתקלות וניתן להתאמה אישית עבור מקורות וכיורים שונים.
  • Apache Flume יכול לאחסן נתונים בחנויות מרכזיות (כלומר הנתונים מסופקים מחנות אחת) כמו HBase & HDFS.
  • פלומה ניתנת להרחבה אופקית.
  • אם קצב הקריאה עולה על קצב הכתיבה, Flume מספק זרימה קבועה של נתונים בין פעולות הקריאה והכתיבה.
  • Flume מספק מסירת הודעות אמינה. העסקאות ב- Flume מבוססות על ערוץ כאשר שתי עסקאות (שולח אחד ומקלט אחד) נשמרות עבור כל הודעה.
  • באמצעות Flume אנו יכולים לבלוע נתונים ממספר שרתים ל- Hadoop.
  • זה נותן לנו פתרון אמין ומופץ ועוזר לנו באיסוף, צבירה והעברה של כמות גדולה של מערכי נתונים כמו פייסבוק, טוויטר ואתרי מסחר אלקטרוני.
  • זה עוזר לנו לבלוע נתוני סטרימינג מקוונים ממקורות שונים כמו תעבורת רשת, מדיה חברתית, הודעות דוא'ל, קבצי יומן וכו 'ב- HDFS.
  • הוא תומך במערך גדול של מקורות וסוגי יעדים.

הארכיטקטורה היא אחת המאפשרת לאפצ'י פלומה את היתרונות הללו. כעת, כידוע היתרונות של אפאצ'י פלומה, נוכל להתקדם ולהבין את אדריכלות אפאצ'י פלומה.

מדריך פלפלים של אפאצ'י: אדריכלות פלומה

כעת, הבה נבין את הארכיטקטורה של פלומה מהדיאגרמה שלהלן:

יש סוכן Flume אשר בולע את נתוני הזרמה ממקורות נתונים שונים ל- HDFS. מהתרשים תוכלו להבין בקלות ששרת האינטרנט מציין את מקור הנתונים. טוויטר הוא אחד המקורות המפורסמים להזרמת נתונים.

לסוכן הצריפה 3 מרכיבים: מקור, כיור וערוץ.

    1. מָקוֹר : הוא מקבל את הנתונים מהייעול הנכנס ושומר את הנתונים בערוץ.
    2. עָרוּץ : באופן כללי, מהירות הקריאה מהירה יותר ממהירות הכתיבה. לפיכך, אנו זקוקים למאגר כלשהו כדי להתאים להפרש מהירות הקריאה והכתיבה. ביסודו של דבר, המאגר פועל כאחסון מתווך המאחסן את הנתונים המועברים באופן זמני ולכן מונע אובדן נתונים. באופן דומה, הערוץ משמש כאחסון המקומי או כאיחסון זמני בין מקור הנתונים לנתונים מתמשכים ב- HDFS.
    3. כִּיוֹר : ואז, הרכיב האחרון שלנו כלומר Sink, אוסף את הנתונים מהערוץ ומחייב או כותב את הנתונים ב- HDFS לצמיתות.

עכשיו, כשאנחנו יודעים כיצד פועל אפאצ'י פלום, בואו נסתכל על פרקטיקה שבה נשקע את נתוני הטוויטר ונאחסן אותם ב- HDFS.

הדרכה של אפאצ'י פלומה: הזרמת נתוני טוויטר

בפועל זה, נזרום נתונים מ- Twitter באמצעות Flume ואז נאחסן את הנתונים ב- HDFS כפי שמוצג בתמונה למטה.

השלב הראשון הוא יצירת אפליקציית טוויטר. לשם כך, תחילה עליך לעבור לכתובת האתר הזו: https://apps.twitter.com/ והיכנס לחשבון הטוויטר שלך. עבור ליצירת כרטיסיית יישומים כפי שמוצג בתמונה למטה.

לאחר מכן, צור יישום כפי שמוצג בתמונה למטה.

לאחר יצירת יישום זה, תמצא אסימון מפתח וגישה. העתק את המפתח ואת אסימון הגישה. אנו נעביר את האסימונים הללו בקובץ התצורה של Flume כדי להתחבר ליישום זה.

כעת צור קובץ flume.conf בספריית השורש של flume כפי שמוצג בתמונה למטה. כפי שדנו, בארכיטקטורה של Flume, נגדיר את המקור, הכיור והערוץ שלנו. המקור שלנו הוא טוויטר, ממנו אנו מזרימים את הנתונים והכיור שלנו הוא HDFS, שם אנו כותבים את הנתונים.

בתצורת המקור אנו מעבירים את סוג המקור של טוויטר כ- org.apache.flume.source.twitter.TwitterSource. לאחר מכן אנו מעבירים את כל ארבעת האסימונים שקיבלנו מטוויטר. סוף סוף בתצורת המקור אנו מעבירים את מילות המפתח עליהן אנו הולכים להביא את הציוצים.

בתצורת כיור אנו הולכים להגדיר מאפייני HDFS. נגדיר נתיב HDFS, לכתוב פורמט, סוג קובץ, גודל אצווה וכו '. לבסוף אנו מגדירים ערוץ זיכרון כפי שמוצג בתמונה למטה.

עכשיו כולנו ערוכים לביצוע. בואו נמשיך ונבצע את הפקודה הזו:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

לאחר ביצוע פקודה זו לזמן מה, ואז תוכלו לצאת מהטרמינל באמצעות CTRL + C. אז אתה יכול להמשיך בספריית Hadoop שלך ולבדוק את הנתיב שהוזכר, בין אם הקובץ נוצר ובין אם לאו.

כיצד להרכיב קוד Java

הורד את הקובץ ופתח אותו. תקבל משהו כפי שמוצג בתמונה למטה.

אני מקווה שהבלוג הזה אינפורמטיבי וערך מוסף עבורך. אם אתה מעוניין ללמוד עוד, תוכל לעבור על כך המספר על Big Data וכיצד Hadoop פותר אתגרים הקשורים ל- Big Data.

כעת, לאחר שהבנתם את אפאצ'י פלום, בדקו את מאת אדוריקה, חברת למידה מקוונת מהימנה עם רשת של יותר מ -250,000 לומדים מרוצים הפזורים ברחבי העולם. קורס הכשרת ההסמכה של אדוריקה ביג דאטה Hadoop עוזר ללומדים להיות מומחים בתחום HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume ו- Sqoop תוך שימוש במקרי שימוש בזמן אמת בתחום הקמעונאות, מדיה חברתית, תעופה, תיירות, פיננסים.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.