קידוח על מקדחת אפאצ'י, מנוע השאילתות העידן החדש



מדריך Apache Drill זה מספק לך את כל המידע הדרוש לך כדי להתחיל עם מנוע השאילתות Apache Drill, שימוש ב- Hadoop, Big Data & Apache Spark.

Apache Drill הוא מנוע ה- SQL הראשון של התעשייה ללא סכמות. קידוח הוא לא מנוע השאילתות הראשון בעולם, אבל הוא הראשון שעושה את האיזון הדק בין גמישות למהירות. קידוח נועד להתאים את עצמו לכמה אלפי צמתים ולשאול על פטא-בייטים של נתונים במהירות אינטראקטיבית שדורשות סביבות BI / Analytics.





זה יכול להשתלב במספר מקורות נתונים כמו Hive, HBase, MongoDB, מערכת קבצים, RDBMS. כמו כן, ניתן להשתמש בקידוח בקלות בפורמטי קלט כמו Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence, ורבים אחרים.

מדוע מקדחת אפאצ'י?

היתרון הגדול ביותר של Apache Drill הוא בכך שהוא יכול לגלות את הסכימה בזמן שאתה בוחן נתונים כלשהם. יתר על כן, זה יכול לעבוד עם כלי ה- BI שלך כמו Tableau, Qlikview, MicroStrategy וכו 'לצורך ניתוח טוב יותר.



הנה ציטוט של אנליסט בתעשייה שמסכם את הערך של Apache Drill:

'קידוח הוא לא רק על SQL-on-Hadoop. זה בערך SQL-on- כמעט כל דבר, באופן מיידי וללא רשמיות. '

- אנדרו פרץ, מחקר גיגאום, ינואר 2015



Drillbit הוא הדמון של Apache Drill שפועל על כל צומת באשכול. היא משתמשת ב- ZooKeeper עבור כל התקשורת באשכול ובחברות באשכול maintaisn. היא אחראית לקבל בקשות מהלקוח, לעבד את השאילתות ולהחזיר תוצאות ללקוח. התרגיל שמקבל את הבקשה מהלקוח נקרא 'מנהל עבודה'. היא מייצרת את תוכנית הביצוע, שברי הביצוע נשלחים לקידוחים אחרים הפועלים באשכול.

Drillbits-Apache-Drill

יתרון נוסף הוא שההתקנה וההתקנה של המקדחה הם די פשוטים. הבה נלמד כיצד להתקין את Apache Drill.

השלב הראשון הוא הורדת חבילת המקדחה.

רגיל סעיף האיחוד

פקודה: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

פקודה: זפת -xvf apache-drill-1.5.0.tar.gz

פקודה: ls

לאחר מכן, הגדר את משתני הסביבה בקובץ .bashrc.

פקודה: sudo gedit .bashrc

ייצא DRILL_HOME = / home / edureka / apache-drill-1.5.0

ייצא PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

פקודה זו תעדכן את השינויים:

פקודה: מקור .bashrc

כעת עבור לספריית קידוח הקידוח וערוך את קובץ drill-override.conf עם מזהה אשכול ומארח יציאה של גן החיות, נפעיל אותו באשכול מקומי.

פקודה: cd apache-drill-1.5.0

פקודה: sudo gedit conf / drill-override.conf

כברירת מחדל, DRILL_MAX_DIRECT_MEMORY יהיה 8 ג'יגה-בתים ב- drill-env.sh, ואנחנו צריכים לשמור אותו בהתאם לזיכרון שיש לנו.

פקודה: sudo gedit conf / drill-env.sh

להתקנת קידוח רק בצומת יחיד, ניתן להשתמש במצב מוטבע, שם הוא יפעל באופן מקומי. זה יופעל באופן אוטומטי בשירות drillbit כאשר אתה מפעיל פקודה זו.

פקודה: ./bin/drill- מוטבע

אתה יכול להריץ שאילתה פשוטה כדי לבדוק את ההתקנה.

פקודה: בחר * מתוך sys.options WHERE סוג = 'SYSTEM' ושם כמו '% אבטחה'

כדי לבדוק את קונסולת האינטרנט של Apache Drill, עלינו לעבור ל- localhost: 8047 בדפדפן האינטרנט.

יש שיטות של מחלקת הסורקים מאפשרות לך

אתה יכול להריץ את השאילתה שלך גם מהכרטיסייה שאילתה.

כדי להפעיל קידוח במצב מבוזר, עליך לערוך את מזהה האשכול ולהוסיף מידע על ZooKeeper ב- drill-override.conf כמפורט להלן.

לאחר מכן עלינו להתחיל בשירות ZooKeeper בכל צומת. אחרי זה אתה צריך להתחיל את שירות drillbit בכל צומת עם פקודה זו.

פקודה: ./bin/drillbit.sh להתחיל

פקודה: jps

כעת, אנו משתמשים בפקודה הבאה כדי להפעיל את מעטפת המקדחה.

כעת אנו יכולים לבצע את השאילתות שלנו באשכול במצב מבוזר.

זהו פוסט הבלוג הראשון בסדרת בלוגים של Apache Drill בת שני חלקים. הבלוג השני בסדרה יגיע בקרוב.

יש לך שאלה עבורנו? הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

קידוח מקדחת אפאצ'י חלק 2

Apache Spark Vs Hadoop MapReduce