כלים חיוניים של Hadoop לצורך ריסוק ביג נתונים



Hadoop היא מילת הבאזז בעולם ה- IT של ימינו, ופרסום זה מתאר את הכלים החיוניים של Hadoop שמרסקים את ה- Big Data.

כיום, המונח הפופולרי ביותר בעולם ה- IT הוא 'Hadoop'. תוך פרק זמן קצר, Hadoop צמח באופן מאסיבי והוכיח את עצמו כשימושי לאוסף גדול של פרויקטים מגוונים. קהילת Hadoop מתפתחת במהירות ויש לה תפקיד בולט במערכת האקולוגית שלה.





הנה מבט על הכלים החיוניים של Hadoop המשמשים לטיפול ב- Big Data.

מה זה .פורמט בפייתון

ambari



אמברי הוא פרויקט אפאצ'י הנתמך על ידי Hortonworks. הוא מציע GUI מבוסס אינטרנט (ממשק משתמש גרפי) עם סקריפטים של אשף להגדרת אשכולות עם מרבית הרכיבים הסטנדרטיים. אמברי מספק, מנהל ומפקח על כל האשכולות של עבודות Hadoop.

hdfs-logo

ה HDFS , המופץ ברישיון אפאצ'י מציע מסגרת בסיסית לפיצול אוספי נתונים בין מספר צמתים. ב- HDFS, הקבצים הגדולים מפורקים לבלוקים, כאשר מספר צמתים מחזיקים את כל הבלוקים מקובץ. מערכת הקבצים מתוכננת באופן לערבב סובלנות תקלות עם תפוקה גבוהה. גושי ה- HDFS נטענים כדי לשמור על סטרימינג יציב. בדרך כלל הם לא נשמרים במטמון כדי למזער את החביון.



hbaselogo

HBase היא מערכת לניהול מסדי נתונים מכוונת עמודות הפועלת על גבי HDFS. יישומי HBase כתובים ב- Java, ממש כמו יישום MapReduce. הוא כולל מערך טבלאות, כאשר כל טבלה מכילה שורות ועמודות כמו מסד נתונים מסורתי. כאשר הנתונים נופלים לטבלה הגדולה, HBase ישמור את הנתונים, יחפש אותם וישתף את הטבלה באופן אוטומטי על פני מספר צמתים כדי שעבודות MapReduce יוכלו להריץ אותן באופן מקומי. HBase מציע ערבות מוגבלת לכמה שינויים מקומיים. השינויים המתרחשים בשורה אחת יכולים להצליח או להיכשל בו זמנית.

hive

אם אתה כבר שולט ב- SQL, אתה יכול למנף את Hadoop באמצעות כוורת . Hive פותחה על ידי כמה אנשים בפייסבוק. Apache Hive מווסת את תהליך חילוץ הסיביות מכל הקבצים ב- HBase. הוא תומך בניתוח מערכי נתונים גדולים המאוחסנים ב- HDFS של Hadoop ובמערכות קבצים תואמות. הוא גם מספק שפה כמו SQL בשם HSQL (HiveSQL) שנכנסת לקבצים ומוציאה את הקטעים הנדרשים עבור הקוד.

sqoop

אפאצ'י סקופ תוכנן במיוחד כדי להעביר נתונים בכמויות גדולות ביעילות ממאגרי המידע המסורתיים אל כוורת או HBase. ניתן להשתמש בו גם כדי לחלץ נתונים מ- Hadoop ולייצא אותם לחנויות נתונים מובנות חיצוניות כמו מאגרי מידע יחסיים ומחסני נתונים ארגוניים. Sqoop הוא כלי שורת פקודה, הממפה בין הטבלאות לשכבת אחסון הנתונים, מתרגם את הטבלאות לשילוב הניתן להגדרה של HDFS, HBase או Hive.

Pig1

כאשר הנתונים המאוחסנים גלויים ל- Hadoop, אפאצ'י חזיר צולל לנתונים ומריץ את הקוד הכתוב בשפה שלו, הנקרא חזיר לטיני. לטיני חזירים מלאים בהפשטות לטיפול בנתונים. חזיר מגיע עם פונקציות סטנדרטיות למשימות נפוצות כמו ממוצע נתונים, עבודה עם תאריכים או כדי למצוא הבדלים בין מחרוזות. חזיר גם מאפשר למשתמש לכתוב שפות בכוחות עצמו, הנקראות UDF (User Defined Function), כאשר הפונקציות הסטנדרטיות נופלות.

zookeper

שומר החיות הוא שירות מרכזי השומר, מגדיר מידע, נותן שם ומספק סנכרון מבוזר על פני אשכול. זה מטיל היררכיה דמוית מערכת קבצים על האשכול ומאחסן את כל המטא נתונים עבור המכונות, כך שנוכל לסנכרן את העבודה של המכונות השונות.

NoSQL

חלק מאשכולות Hadoop משתלבים עם NoSQL מאגרי נתונים שמגיעים עם מנגנונים משלהם לאחסון נתונים על פני אשכול צמתים. זה מאפשר להם לאחסן ולאחזר נתונים עם כל התכונות של מסד הנתונים NoSQL, ולאחר מכן ניתן להשתמש ב- Hadoop לתזמון עבודות ניתוח נתונים באותו אשכול.

mahoutlogo

מהוט נועד ליישם מספר רב של אלגוריתמים, סיווגים וסינון של ניתוח נתונים לאשכול Hadoop. רבים מהאלגוריתמים הסטנדרטיים כמו K-means, Dirichelet, דפוס מקביל וסיווגים Bayesian מוכנים לפעול על הנתונים עם מפה בסגנון Hadoop ולהפחית.

לוסין, כתוב בג'אווה ומשולב בקלות עם Hadoop, הוא בן לוויה טבעי עבור Hadoop. זהו כלי המיועד לאינדקס גושים גדולים של טקסט לא מובנה. לוסן מטפלת באינדקס, ואילו Hadoop מטפל בשאילתות המבוזרות ברחבי האשכול. התכונות של Lucene-Hadoop מתפתחות במהירות ככל שמפתחים פרויקטים חדשים.

Avro

יוֹרוֹ היא מערכת סידור המאגדת את הנתונים יחד עם סכמה להבנתם. כל מנה מגיעה עם מבנה נתונים של JSON. JSON מסביר כיצד ניתן לנתח את הנתונים. הכותרת של JSON מציינת את מבנה הנתונים, שם ניתן להימנע מהצורך לכתוב תגים נוספים בנתונים כדי לסמן את השדות. הפלט הרבה יותר קומפקטי מהפורמטים המסורתיים כמו XML.

ניתן לפשט עבודה על ידי שבירתה לשלבים. עם פריצת הפרויקט למספר עבודות Hadoop, אוזי מתחיל לעבד אותם ברצף הנכון. היא מנהלת את זרימת העבודה כמפורט על ידי DAG (Directed Acyclic Graph) ואין צורך במעקב בזמן.

כלים GIS

עבודה עם מפות גיאוגרפיות היא עבודה גדולה עבור אשכולות המפעילים את Hadoop. ה- GIS ( מערכת מידע גיאוגרפית ) כלים לפרויקטים של Hadoop התאימו את הכלים הטובים ביותר מבוססי Java להבנת מידע גיאוגרפי להפעלה עם Hadoop. מאגרי המידע יכולים כעת להתמודד עם שאילתות גיאוגרפיות באמצעות קואורדינטות והקודים יכולים לפרוס את כלי ה- GIS.

איסוף כל הנתונים שווה לאחסון וניתוחם. פלג אפאצ'י משגר 'סוכנים מיוחדים' לאיסוף מידע שיישמר ב- HDFS. המידע שנאסף יכול להיות קבצי יומן, ממשק API של Twitter, או שאריות אתרים. ניתן לשרשר נתונים אלה ולנתח אותם לניתוחים.

Spark

לְעוֹרֵר הוא הדור הבא שדי עובד כמו Hadoop שמעבד נתונים שנשמרים במטמון בזיכרון. מטרתו היא לבצע ניתוח נתונים מהיר להפעלה וכתיבה בעזרת מודל ביצוע כללי. זה יכול לייעל גרפים של אופרטורים שרירותיים ולתמוך במחשוב בזיכרון, מה שמאפשר לו לשאול נתונים מהר יותר ממנועים מבוססי דיסק כמו Hadoop.

SQL ב- Hadoop

כאשר נדרש לבצע שאילתת אד-הוק מהירה של כל הנתונים באשכול, ניתן לכתוב עבודת Hadoop חדשה, אך זה לוקח קצת זמן. כאשר מתכנתים התחילו לעשות זאת בתדירות גבוהה יותר, הם הגיעו לכלים שנכתבו בשפה הפשוטה של ​​SQL. כלים אלה מציעים גישה מהירה לתוצאות.

מקדחת אפאצ'י

Apache Drill מספק שאילתות אד-הוק בהשהיה נמוכה למקורות נתונים רבים ומגוונים, כולל נתונים מקוננים. Drill, בהשראת Dremel של גוגל, נועד להגדיל ל -10,000 שרתים ולשאול פטא-בייטים של נתונים בשניות.

אלה הם הכלים החיוניים של Hadoop למיצוק הביג דאטה!

יש לך שאלה עבורנו? אנא הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

סיבות מעשיות ללמוד Hadoop 2.0