אפאצ'י פלינק: מסגרת ניתוח הנתונים הגדולים הבאה של הדור לעיבוד נתוני זרם ואצווה



למד הכל אודות Apache Flink והקמת אשכול Flink בבלוג זה. Flink תומך בעיבוד בזמן אמת ובאצווה והוא טכנולוגיית ביג דאטה חובה עבור ניתוח נתונים גדולים.

אפאצ'י פלינק היא פלטפורמת קוד פתוח לעיבוד נתוני זרם ומנות מבוזרות. זה יכול לפעול ב- Windows, Mac OS ו- Linux OS. בפוסט בבלוג זה, בואו נדון כיצד להגדיר את אשכול Flink באופן מקומי. זה דומה ל- Spark במובנים רבים - יש לו ממשקי API לעיבוד גרפ ומכונת למידה כמו Apache Spark - אבל Apache Flink ו- Apache Spark אינם זהים לחלוטין.





כדי להגדיר את אשכול Flink, עליך להתקין במערכת java 7.x ומעלה. מכיוון שהתקנתי בסוף את Hadoop-2.2.0 ב- CentOS (Linux), הורדתי את חבילת Flink התואמת ל- Hadoop 2.x. הפעל מתחת לפקודה כדי להוריד את חבילת Flink.

פקודה: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

בטל את הכפתור של הקובץ כדי לקבל את ספריית ה- flink

פקודה: tar -xvf הורדות / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



פקודה: ls

הוסף משתני סביבת Flink בקובץ .bashrc.

פקודה: sudo gedit .bashrc

מה ההבדל בין css ל- css3

עליך להפעיל את הפקודה שלמטה כך שהשינויים בקובץ .bashrc יופעלו

פקודה: מקור .bashrc

כעת עבור לספריית הצמודה והפעל את האשכול באופן מקומי.

פקודה: cd hefty-1.0.0

פקודה: bin / start-local.sh

לאחר שהפעלת את האשכול, תוכל לראות שדמון חדש JobManager פועל.

פקודה: jps

כיצד להשתמש בתנועת ג'אווה - -

פתח את הדפדפן ועבור אל http: // localhost: 8081 כדי לראות את ממשק המשתמש של Apache Flink.

הבה ננהל דוגמה פשוטה לספירת מילים באמצעות אפאצ'י פלינק.

לפני הפעלת הדוגמה התקן את netcat במערכת שלך (sudo yum install nc).

כעת במסוף חדש הפעל את הפקודה שלהלן.

פקודה: nc -lk 9000

הפעל את הפקודה הנתונה למטה במסוף הצמודה. פקודה זו מריצה תוכנית שלוקחת את הנתונים הזורמים כקלט ומבצעת פעולת ספירת מילים על אותם נתונים מוזרמים.

פקודה: bin / flink run דוגמאות / streaming / SocketTextStreamWordCount.jar – host host localhost – port 9000

בממשק המשתמש באינטרנט תוכלו לראות עבודה במצב פועל.

הפעל מתחת לפקודה במסוף חדש, פעולה זו תדפיס את הנתונים המוזרמים ומעובדים.

פקודה: זנב - יומן / מצמץ - * - מנהל עבודה - *. החוצה

עכשיו עבור למסוף שבו התחלת את netcat והקלד משהו.

ברגע שתלחץ על כפתור Enter על מילת המפתח שלך לאחר שהקלדת נתונים במסוף netcat, תיושם פעולת ספירת מילים על אותם נתונים והפלט יודפס כאן (יומן מנהל העבודה של flink) תוך אלפיות השנייה!

בתוך פרק זמן מאוד קצר, הנתונים יועברו, יעובדו ויודפסו.

יש עוד הרבה מה ללמוד על אפאצ'י פלינק. ניגע בנושאים אחרים של פלינק בבלוג הקרוב שלנו.

ההבדל בין ג'אווה למעמד

יש לך שאלה עבורנו? הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

אפאצ'י פלקון: פלטפורמת ניהול נתונים חדשה למערכת האקולוגית של Hadoop