מבוא לכוורת אפאצ'י



Apache Hive היא חבילת אחסון נתונים שנבנתה על גבי Hadoop ומשמשת לניתוח נתונים. כוורת מכוונת כלפי משתמשים הנוחים להם עם SQL.

Apache Hive היא חבילת אחסון נתונים שנבנתה על גבי Hadoop ומשמשת לניתוח נתונים. כוורת מכוונת כלפי משתמשים הנוחים להם עם SQL. זה דומה ל- SQL ונקרא HiveQL, המשמש לניהול ושאילתת נתונים מובנים. Apache Hive משמש לכדי מופשטות של מורכבות Hadoop. שפה זו מאפשרת גם למתכנתים של מפה / צמצום מסורתיים לחבר את המפות והמצמצמים המותאמים אישית שלהם. התכונה הפופולרית של כוורת היא שאין צורך ללמוד ג'אווה.





Hive, מסגרת אחסון תאריכים בקוד פתוח בקנה מידה פטי-בתים, המבוססת על Hadoop, פותחה על ידי צוות תשתיות הנתונים בפייסבוק. כוורת היא גם אחת הטכנולוגיות המשמשות כדי לענות על הדרישות בפייסבוק. Hive פופולרית מאוד בקרב כל המשתמשים הפנימיים בפייסבוק ומשמשת להפעלת אלפי משרות באשכול עם מאות משתמשים, למגוון רחב של יישומים. אשכול Hive-Hadoop בפייסבוק מאחסן יותר מ -2 PB של נתונים גולמיים וטוען באופן קבוע 15 TB של נתונים על בסיס יומי.

בואו נסתכל על כמה מהתכונות שהופכות אותו לפופולרי וידידותי למשתמש:



  • מאפשר למתכנתים לחבר Mappers ו- Reducers מותאמים אישית.
  • בעל תשתית מחסן נתונים.
  • מספק כלים לאפשר ETL ​​קל לנתונים.
  • מגדיר שפת שאילתות דמוית SQL הנקראת QL.

מקרה שימוש בכוורת של אפאצ'י - פייסבוק:

מקרה שימוש בכוורת - פייסבוק

לפני יישום Hive, פייסבוק עמדה בפני אתגרים רבים ככל שגודל הנתונים שנוצר גדל או יותר נכון התפוצץ, מה שמקשה מאוד על הטיפול בהם. RDBMS המסורתי לא הצליח להתמודד עם הלחץ וכתוצאה מכך פייסבוק חיפשה אפשרויות טובות יותר. כדי לפתור את הבעיה הממשמשת ובאה, פייסבוק ניסתה בתחילה להשתמש ב- Hadoop MapReduce, אך עם קושי בתכנות וידע חובה ב- SQL, הפכה אותה לפיתרון לא מעשי. כוורת אפשרה להם להתגבר על האתגרים שניצבו בפניהם.

עם כוורת, הם יכולים כעת לבצע את הפעולות הבאות:



  • ניתן לחלק ולשלוח שולחנות
  • גמישות סכימה ואבולוציה
  • מנהלי התקנים של JDBC / ODBC זמינים
  • ניתן להגדיר טבלאות כוורת ישירות ב- HDFS
  • ניתן להרחבה - סוגים, פורמטים, פונקציות ותסריטים

מקרה שימוש בכוורת בבריאות:

מה זה המפעיל הזה בג'אווה

היכן להשתמש בכוורת?

ניתן להשתמש בכוורת של אפאצ'י במקומות הבאים:

  • כריית מידע
  • עיבוד יומן
  • אינדקס מסמכים
  • מודיעין עסקי מול לקוחות
  • דוגמנות ניבוי
  • בדיקת השערה

אדריכלות כוורת:

כוורת מורכבת מהרכיבים העיקריים הבאים:

  • Metastore - לאחסון המטא נתונים.
  • JDBC / ODBC - מהדר שאילתות ומנוע ביצוע להמרת שאילתות SQL לרצף של MapReduce.
  • SerDe ו- ObjectInspectors - לפורמטים וסוגי נתונים.
  • UDF / UDAF - לפונקציות המוגדרות על ידי המשתמש.
  • לקוחות - בדומה לשורת הפקודה MySQL ולמשק משתמש אינטרנטי.

רכיבי כוורת:

Metastore:

Metastore מאחסן את המידע על הטבלאות, המחיצות, העמודות בתוך הטבלאות. ישנן שלוש דרכי אחסון במטאסטור: Metastore Embedded, Metastore Local ו- Metastore Remote. בעיקר, Metastore Remote ישמש במצב ייצור.

מגבלות של כוורת:

לכוורת יש המגבלות הבאות ולא ניתן להשתמש בהן בנסיבות כאלה:

  • לא מיועד לעיבוד עסקאות מקוון.
  • מספק חביון מקובל לגלישת נתונים אינטראקטיבית.
  • אינו מציע שאילתות בזמן אמת ועדכונים ברמת השורה.
  • חביון לשאילתות כוורת בדרך כלל גבוה מאוד.

יש לך שאלה עבורנו? הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

מערך אובייקטים בתוכנית דוגמה של Java

כוורות פקודות