פקודות כוורת מובילות עם דוגמאות ב- HQL



בלוג זה דן בפקודות כוורת עם דוגמאות ב- HQL. ליצור, לזרוק, לחתוך, לשנות, להראות, לתאר, להשתמש, לטעון, להוסיף, להצטרף ועוד הרבה פקודות כוורת

בפוסט בבלוג זה, בואו נדון בפקודות ה- Hive המובילות עם דוגמאות. לפקודות הכוורת האלה חשוב מאוד להקים את הבסיס .

מדריך הקריירה הטכנולוגית של אדוריקה 2019 יצא! תפקידי העבודה החמים ביותר, מסלולי למידה מדויקים, השקפות תעשייה ועוד במדריך. הורד עַכשָׁיו.

מה זה כוורת?

Apache Hive היא מערכת מחסן נתונים אשר בנויה לעבוד על Hadoop. הוא משמש לשאילתות וניהול מערכי נתונים גדולים השוכנים באחסון מבוזר. לפני שהפכה לפרויקט קוד פתוח של Apache Hadoop, מקורו של Hive בפייסבוק. הוא מספק מנגנון להקרין מבנה על הנתונים ב- Hadoop ולשאול נתונים באמצעות שפה דמויית SQL הנקראת HiveQL (HQL).





נעשה שימוש ב- Hive מכיוון שהטבלאות ב- Hive דומות לטבלאות במסד נתונים יחסי. אם אתה מכיר את SQL, זה מסלול הליכה. משתמשים רבים יכולים לשאול נתונים בו זמנית באמצעות Hive-QL.

מה זה HQL?

Hive מגדירה שפת שאילתות פשוטה כמו SQL לשאילתות וניהול מערכי נתונים גדולים הנקראים Hive-QL (HQL). קל לשימוש אם אתה מכיר את שפת SQL. Hive מאפשרת למתכנתים שמכירים את השפה לכתוב את מסגרת MapReduce המותאמת אישית לבצע ניתוח מתוחכם יותר.



שימושים של כוורת:

1. אחסון מבוזר של Apache Hive.

2. כוורת מספקת כלים המאפשרים חילוץ / טרנספורמציה / טעינה של נתונים (ETL).

כיצד להוסיף ג'אווה לנתיב -

3. הוא מספק את המבנה במגוון פורמטים של נתונים.



4. באמצעות Hive אנו יכולים לגשת לקבצים המאוחסנים במערכת הקבצים המבוזרת של Hadoop (HDFS משמש לשאילתות וניהול מערכי נתונים גדולים השוכנים) או במערכות אחסון נתונים אחרות כגון Apache HBase.

מגבלות של כוורת:

& bull Hive אינה מיועדת לעיבוד עסקאות מקוון (OLTP), היא משמשת רק לעיבוד אנליטי מקוון.

& bull Hive תומכת בכתיבת נתונים או תפיסתם, אך לא בעדכונים ומחיקות.

& bull ב- Hive, שאילתות משנה אינן נתמכות.

מדוע משתמשים בכוורת למרות חזיר?

להלן הסיבות מדוע משתמשים בכוורת למרות זמינותו של חזיר:

  • Hive-QL היא שפת שפה הצהרתית SQL, PigLatin היא שפת זרימת נתונים.
  • חזיר: שפת זרימת נתונים וסביבה לחקר מערכי נתונים גדולים מאוד.
  • כוורת: מחסן נתונים מבוזר.

רכיבי כוורת:

Metastore:

כוורת מאחסן את הסכימה של שולחנות הכוורת במטסטור של כוורת. Metastore משמש לאחסון כל המידע אודות הטבלאות והמחיצות שנמצאות במחסן. כברירת מחדל, המטא-סטור מופעל באותו תהליך כמו שירות הכוורת ומטא-סטור המוגדר כברירת מחדל הוא DerBy Database.

SerDe:

Serializer, Deserializer נותן הוראות לכוורת כיצד לעבד רשומה.

כוורות פקודות:

שפת הגדרת נתונים (DDL)

הצהרות DDL משמשות לבניית ושינוי הטבלאות והאובייקטים האחרים במסד הנתונים.

פקודת DDL פוּנקצִיָה
לִיצוֹר הוא משמש ליצירת טבלה או מסד נתונים
הופעה הוא משמש להצגת מסד נתונים, טבלה, מאפיינים וכו '
גיל הוא משמש לביצוע שינויים בטבלה הקיימת
לְתַאֵר זה מתאר את עמודות הטבלה
TRUNCATE משמש לחיתוך ולמחיקת שורות הטבלה לצמיתות
לִמְחוֹק מוחק את נתוני הטבלה, אך ניתן לשחזר

עבור אל פגז הכוורת על ידי מתן פקודת sudo כוורת והזן את הפקודה 'לִיצוֹר מאגר מידע שם> ' כדי ליצור את מסד הנתונים החדש בכוורת.

צור מסד נתונים של כוורת באמצעות פקודות כוורת

לרשימת מאגרי המידע במחסן כוורת, הזן את הפקודה ' הצג מאגרי מידע '.

מסד הנתונים יוצר במיקום ברירת מחדל של מחסן Hive. ב- Cloudera, מאגר הנתונים של Hive בחנות / משתמש / כוורת / מחסן.

הפקודה להשתמש במסד הנתונים היא להשתמש

העתק את נתוני הקלט ל- HDFS ממקומי באמצעות הפקודה Copy from Local.

כשאנחנו יוצרים טבלה בכוורת, היא יוצרת במיקום ברירת המחדל של מחסן הכוורת. - '/ user / hive / warehouse', לאחר יצירת הטבלה נוכל להעביר את הנתונים מ- HDFS לטבלת הכוורת.

הפקודה הבאה יוצרת טבלה עם המיקום '/user/hive/warehouse/retail.db'

הערה : retail.db הוא מסד הנתונים שנוצר במחסן Hive.

לְתַאֵר מספק מידע על סכימת הטבלה.

שפת מניפולציה של נתונים (DML)

הצהרות DML משמשות לאחזור, שמירה, שינוי, מחיקה, הוספה ועדכון נתונים במסד הנתונים.

דוגמא :

הצהרות עומס, הוספה.

תחביר :

טען נתיבי נתיב לטבלה [שם טבלה]

פעולת הטעינה משמשת להעברת הנתונים לטבלת הכוורת המתאימה. אם מילת המפתח מְקוֹמִי מוגדר, ואז בפקודת הטעינה ייתן נתיב מערכת הקבצים המקומי. אם מילת המפתח מקומית לא מוגדרת עלינו להשתמש בנתיב HDFS של הקובץ.

להלן מספר דוגמאות לפקודה LOAD data LOAD

רוחב אלגוריתם החיפוש פסאודוקוד

לאחר טעינת הנתונים לטבלת הכוורת אנו יכולים להחיל את הצהרות מניפולציה של נתונים או פונקציות מצטברות לאחזר את הנתונים.

דוגמה לספירת מספר הרשומות:

משתמשים בפונקציה צבירה ספירה לספור את המספר הכולל של הרשומות בטבלה.

טבלה 'צור חיצוני':

ה ליצור חיצוני מילת המפתח משמשת ליצירת טבלה ומספקת מיקום בו תיצור הטבלה, כך ש- Hive לא תשתמש במיקום ברירת מחדל לטבלה זו. An חיצוני הטבלה מצביעה על כל מיקום HDFS לאחסון שלו, ולא על אחסון ברירת מחדל.

הכנס פקודה:

ה לְהַכנִיס הפקודה משמשת לטעינת טבלת כוורת הנתונים. ניתן לבצע הכנסות לשולחן או למחיצה.

& bull INSERT OVERWRITE משמש להחלפת הנתונים הקיימים בטבלה או במחיצה.

& bull INSERT INTO משמש לצירוף הנתונים לנתונים קיימים בטבלה. (הערה: תחביר הכניסה הוא עבודה מהגרסה 0.8)

דוגמה לפקודה 'מחולקת על ידי' ו'מקבץ לפי ':

'מחולק על ידי 'משמש לחלוקת הטבלה למחיצה וניתן לחלק אותה לדליים באמצעות' מקובצים על ידי ' פקודה.

כאשר אנו מכניסים את שגיאות השלכת הנתונים בכוורת, מצב המחיצה הדינמית הוא קפדני ומחיצה דינמית אינה מופעלת (על ידי ג'ף בְּ- אתר ראש הלבוש ). אז עלינו להגדיר את הפרמטרים הבאים במעטפת הכוורת.

הגדר את hive.exec.dynamic.partition = true

כדי לאפשר מחיצות דינמיות, כברירת מחדל, זה שקר

הגדר hive.exec.dynamic.partition.mode = לא קפדני

המחיצה נעשית לפי הקטגוריות וניתן לחלק אותה לדליים באמצעות הפקודה 'מקובצים לפי'.

המשפט 'זרוק טבלה' מוחק את הנתונים והמטא נתונים לטבלה. במקרה של טבלאות חיצוניות, רק המטא נתונים נמחקים.

המשפט 'זרוק טבלה' מוחק את הנתונים והמטא נתונים לטבלה. במקרה של טבלאות חיצוניות, רק המטא נתונים נמחקים.

טען את נתיב המקומי 'aru.txt' לשם טבלאות הטבלה ואז אנו בודקים את טבלת העובדים באמצעות שימוש * מפקודת שם הטבלה

כדי לספור את מספר הרשומות בטבלה באמצעות בחר לספור(*) מ- txnrecords

צבירה:

בחר ספירה (קטגוריית DISTINCT) משם הטבלה

פקודה זו תספור את הקטגוריה השונה של טבלת 'קייט'. כאן יש 3 קטגוריות שונות.

נניח שיש עוד טבלת טבלה שבה f1 הוא שם השדה של הקטגוריה.

קיבוץ:

פקודת הקבוצה משמשת לקיבוץ קבוצת התוצאות בעמודה אחת או יותר.

בחר קטגוריה, סכום (סכום) מתוך רשומות txt קבוצה לפי קטגוריה

זה מחשב את כמות אותה קטגוריה.

התוצאה טבלה אחת מאוחסנת בטבלה אחרת.

צור שם טבלה חדש בשם בחר * מתוך שם הישן

הצטרף לפיקוד:

כאן נוצרת טבלה אחת נוספת בשם 'מיילים'

הצטרף למבצע :

פעולת הצטרפות מבוצעת לשילוב שדות משני טבלאות על ידי שימוש בערכים המשותפים לכל אחד מהם.

הצטרף חיצוני שמאלי :

התוצאה של צירוף חיצוני שמאלי (או פשוט צירוף שמאלי) לטבלאות A ו- B מכילה תמיד את כל הרשומות של הטבלה 'שמאלה' (A), גם אם תנאי ההצטרפות אינו מוצא שום רשומה תואמת בטבלה 'ימין' (ב).

הצטרפות חיצונית ימנית :

צירוף חיצוני ימני (או צירוף ימני) דומה מקרוב לצירוף חיצוני שמאלי, אלא כאשר הטיפול בשולחנות הפוך. כל שורה מהטבלה 'הימנית' (B) תופיע בטבלה המצטרפת לפחות פעם אחת.

הצטרפות מלאה :

הטבלה המצטרפת תכיל את כל הרשומות משתי הטבלאות, ותמלא NULL עבור התאמות חסרות משני הצדדים.

לאחר שתסיים עם כוורת נוכל להשתמש בפקודה quit כדי לצאת ממעטפת הכוורת.

יוצא מהכוורת

כוורת היא רק חלק מהפאזל הגדול שנקרא Big Data ו- Hadoop. Hadoop הוא הרבה יותר מסתם כוורת. לחץ למטה כדי לראות אילו מיומנויות אחרות עליך לשלוט בהדופ.

יש לך שאלה עבורנו? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

7 דרכים אימון נתונים גדולים יכול לשנות את הארגון שלך

מהו אובייקט סורק

דגמי כוורת נתונים