4 דרכים להשתמש ב- R ו- Hadoop ביחד



R ו- Hadoop משלימים זה את זה די טוב מבחינת הדמיה וניתוח של נתונים גדולים. פוסט בבלוג זה מדבר על 4 דרכים להשתמש בהם יחד.

Hadoop היא מסגרת תכנות משבשת המבוססת על ג'אווה התומכת בעיבוד מערכי נתונים גדולים בסביבת מחשוב מבוזרת, ואילו R היא שפת תכנות וסביבת תוכנה למחשוב סטטיסטי וגרפיקה. שפת R נמצאת בשימוש נרחב בקרב סטטיסטיקאים וכורי נתונים לפיתוח תוכנה סטטיסטית וביצוע ניתוח נתונים. בתחומי ניתוח הנתונים האינטראקטיבי, סטטיסטיקה למטרות כלליות ודוגמנות ניבוי, R צברה פופולריות עצומה בשל יכולות הסיווג, האשכולות והדירוג שלה.

KM





Hadoop ו- R משלימים זה את זה די טוב מבחינת הדמיה וניתוח של נתונים גדולים.

באמצעות R ו- Hadoop

ישנן ארבע דרכים שונות להשתמש ב- Hadoop ו- R יחד:



1. RHadoop

ערכי מערך הדפסת php בלבד

RHadoop הוא אוסף של שלוש חבילות R: rmr, rhdfs ו- rhbase. חבילת rmr מספקת פונקציונליות של Hadoop MapReduce ב- R, rhdfs מספקת ניהול קבצי HDFS ב- R ו- rhbase מספק ניהול מסדי נתונים של HBase מתוך R. בכל אחת מהחבילות העיקריות הללו ניתן להשתמש כדי לנתח ולנהל את נתוני המסגרת של Hadoop בצורה טובה יותר.

2. אורק



ORCH מייצג את Oracle R Connector עבור Hadoop. זהו אוסף של חבילות R המספקות את הממשקים הרלוונטיים לעבודה עם טבלאות Hive, תשתית המחשוב של Apache Hadoop, סביבת R המקומית וטבלאות מסדי נתונים של Oracle. בנוסף, ORCH מספק גם טכניקות ניתוח ניבוי שניתן להחיל על נתונים בקבצי HDFS.

3. RHIPE

RHIPE היא חבילת R המספקת API לשימוש ב- Hadoop. RHIPE מייצג סביבת תכנות משולבת R ו- Hadoop, ובעצם הוא RHadoop עם ממשק API אחר.

ארבע. הזרמת Hadoop

Hadoop Streaming הוא כלי עזר המאפשר למשתמשים ליצור ולהפעיל עבודות עם כל הפעלות כמו המפות ו / או המפחית. באמצעות מערכת הזרמה, ניתן לפתח עבודות Hadoop עובדות עם מספיק ידע בג'אווה בכדי לכתוב שני סקריפטים של מעטפת שעובדים במקביל.

השילוב של R ו- Hadoop מתגלה כערכת כלים חובה לאנשים שעובדים עם סטטיסטיקה וערכות נתונים גדולות. עם זאת, חובבי Hadoop מסוימים הניפו דגל אדום תוך כדי התמודדות עם שברי Big Data גדולים במיוחד. לטענתם, היתרון של R אינו התחביר שלה אלא הספרייה הממצה של פרימיטיבים להדמיה וסטטיסטיקה. ספריות אלה אינן מופצות ביסודן, מה שהופך את אחזור הנתונים לרומן זמן רב. זהו פגם מובנה ב- R, ואם תבחר להתעלם ממנו, R ו- Hadoop יחדיו עשויים לחולל פלאים.

עכשיו, בואו נראה הדגמה:

יש לך שאלה עבורנו? אנא הזכר אותם בסעיף ההערות ונחזור אליך.

פוסטים קשורים:

פיצול מחרוזת מפרישים מרובים