Informatica ETL: מדריך למתחילים להבנת ETL באמצעות Informatica PowerCenter



הבנת המושגים של Informatica ETL ושלבים שונים בתהליך ETL ותרגול מקרה שימוש של מאגר עובדים.

מטרת Informatica ETL היא לספק למשתמשים, לא רק תהליך של חילוץ נתונים ממערכות מקור והבאתם למחסן הנתונים, אלא גם לספק למשתמשים פלטפורמה משותפת לשילוב הנתונים שלהם מפלטפורמות ויישומים שונים.זה הוביל לגידול בביקוש ל .לפני שנדבר על Informatica ETL, הבה נבין תחילה מדוע אנו זקוקים ל- ETL.

מדוע אנו זקוקים ל- ETL?

כל חברהבימים אלה צריך לעבד סטים גדולים של נתונים ממקורות מגוונים. יש לעבד נתונים אלה כדי לספק מידע תובנה לקבלת החלטות עסקיות. אך לעיתים קרובות למדי נתונים כאלה יש אתגרים הבאים:





  • חברות גדולות מייצרות המון נתונים ונתח עצום כזה של נתונים יכול להיות בכל פורמט. הם יהיו זמינים במסדי נתונים מרובים ובקבצים לא מובנים רבים.
  • יש לאסוף נתונים אלה, לשלבם, להשוותם ולהפוך אותם למכלול חלק. אבל מאגרי המידע השונים לא מתקשרים טוב!
  • ארגונים רבים יישמו ממשקים בין מאגרי מידע אלה, אך הם עמדו בפני האתגרים הבאים:
    • כל זוג בסיסי נתונים דורש ממשק ייחודי.
    • אם תשנה מסד נתונים אחד, ייתכן שיהיה צורך לשדרג ממשקים רבים.

להלן תוכלו לראות את מאגרי המידע השונים בארגון ואת האינטראקציות ביניהם:

מערך נתונים שונים של ארגון - Informatica - ETL - Edureka

מאגרי מידע שונים המשמשים מחלקות שונות בארגון



אינטראקציות שונות של מסדי הנתונים בארגון

כפי שנראה לעיל, בארגון עשויים להיות מאגרי מידע שונים במחלקותיו השונות והאינטראקציה ביניהם הופכת קשה ליישום שכן יש ליצור עבורם ממשקי אינטראקציה שונים. כדי להתגבר על אתגרים אלה, הפיתרון הטוב ביותר הוא באמצעות מושגים שילוב נתונים אשר יאפשרו נתונים ממאגרי מידע ופורמטים שונים לתקשר זה עם זה. האיור שלהלן עוזר לנו להבין כיצד הכלי לשילוב נתונים הופך לממשק נפוץ לתקשורת בין בסיסי הנתונים השונים.

מאגרי מידע שונים המחוברים באמצעות שילוב נתונים



אך ישנם תהליכים שונים הזמינים לביצוע שילוב נתונים. בין תהליכים אלה, ETL הוא התהליך האופטימלי, היעיל והאמין ביותר. באמצעות ETL, המשתמש לא יכול רק להביא את הנתונים ממקורות שונים, אלא שהוא יכול לבצע את הפעולות השונות בנתונים לפני שהוא מאחסן את הנתונים האלה אל המטרה הסופית.

בין כלי ה- ETL הזמינים השונים הקיימים בשוק, Informatica PowerCenter היא פלטפורמת שילוב הנתונים המובילה בשוק. לאחר שנבדקה על כמעט 500,000 שילובים של פלטפורמות ויישומים, Informatica PowerCenter inter פועלת במגוון הרחב ביותר האפשרי של סטנדרטים, מערכות ויישומים שונים. הבה נבין כעת את השלבים המעורבים בתהליך ה- Informatica ETL.

Informatics ETL | אדריכלות אינפורמטיקה | מדריך Informatica PowerCenter | אדוריקה

מדריך זה של אדוריקה אינפורמטיקה עוזר לך להבין את היסודות של ETL באמצעות Informatica Powercenter בפירוט.

שלבים בתהליך ETL אינפורמטיקה:

לפני שנעבור לשלבים השונים המעורבים ב- Informatica ETL, תן לנו סקירה כללית של ETL. ב- ETL, Extraction הוא המקום בו הנתונים מופקים ממקורות נתונים הומוגניים או הטרוגניים, Transformation שבו הנתונים הופכים לאחסון בפורמט או במבנה המתאים למטרות שאילתות וניתוח וטעינה במקום בו הנתונים נטענים למסד היעד הסופי, מאגר נתונים תפעולי, מידע נתונים או מחסן נתונים. התמונה למטה תעזור לך להבין כיצד מתרחש תהליך Informatica ETL.

סקירת תהליך ETL

כפי שנראה לעיל, Informatica PowerCenter יכול לטעון נתונים ממקורות שונים ולאחסן אותם במחסן נתונים יחיד. כעת, בואו נסתכל על השלבים המעורבים בתהליך ה- ETL של אינפורמטיקה.

יש בעיקר 4 שלבים בתהליך ETL של Informatica, בואו נבין אותם לעומק:

  1. לחלץ או ללכוד
  2. לשפשף או לנקות
  3. שינוי צורה
  4. עומס ואינדקס

1. לחלץ או ללכוד: כפי שנראה בתמונה למטה, הצילום או התמצית הוא השלב הראשון בתהליך ETL של אינפורמטיקה.זהו תהליך קבלת תמונת מצב של תת-הנתונים שנבחרה מהמקור, אותה יש לטעון למחסן הנתונים. תמונת מצב היא תצוגה סטטית לקריאה בלבד של הנתונים במסד הנתונים. תהליך המיצוי יכול להיות משני סוגים:

  • תמצית מלאה: הנתונים מופקים לחלוטין ממערכת המקור ואין צורך לעקוב אחר שינויים במקור הנתונים מאז החילוץ המוצלח האחרון.
  • תמצית מצטברת: זה רק יתפוס שינויים שהתרחשו מאז התמצית המלאה האחרונה.

שלב 1: חלץ או לכידת

2. לשפשף או לנקות: זהו תהליך ניקוי הנתונים המגיעים מהמקור על ידי שימוש בזיהוי תבניות וטכניקות AI שונות כדי לשדרג את איכות הנתונים המועברים קדימה. בדרך כלל, השגיאות כמו שגיאות כתיב, תאריכים שגויים, שימוש שגוי בשדה, כתובות לא תואמות, חסרים נתונים, נתונים כפולים, סתירות הןמודגש ואז תוקן או הוסרבשלב זה. כמו כן, פעולות כמו פענוח, עיצוב מחדש, חותמת זמן, המרה, יצירת מפתח, מיזוג, זיהוי / רישום שגיאות, איתור נתונים חסרים נעשים בשלב זה. כפי שנראה בתמונה למטה, זהו השלב השני בתהליך Informatica ETL.

שלב 2: קרצוף או ניקוי נתונים

3. טרנספורמציה: כפי שנראה בתמונה למטה, זהו השלב השלישי והחיוני ביותר בתהליך Informatica ETL. טרנספורמציות היא פעולה של המרת נתונים מהפורמט של מערכת המקור לשלד של Data Warehouse. טרנספורמציה משמשת בעצם כדי לייצג סט של כללים, המגדירים את זרימת הנתונים ואופן טעינת הנתונים ליעדים. למידע נוסף על טרנספורמציה, עיין ב טרנספורמציות באינפורמטיקה בלוג.

שלב 3: טרנספורמציה

מפתח פיתון ברמת הכניסה

4. עומס ואינדקס: זהו השלב האחרון בתהליך ETL של Informatica כפי שנראה בתמונה למטה. בשלב זה אנו ממקמים את הנתונים שהופכו למחסן ויוצרים אינדקסים עבור הנתונים. ישנם שני סוגים עיקריים של עומס נתונים זמינים בהתבסס על תהליך הטעינה:

  • עומס מלא או עומס גורף :תהליך טעינת הנתונים כאשר אנו עושים זאת בפעם הראשונה. התפקיד מחלץ נפח נתונים שלם מטבלת מקור ונטען למחסן נתוני היעד לאחר החלת השינויים הנדרשים. זו תהיה עבודה חד פעמית לאחר מכן השינויים לבדם יתפסו כחלק מתמצית מצטברת.
  • עומס מצטבר או עומס רענון : הנתונים ששונו בלבד יעודכנו ביעד ואחריהם עומס מלא. השינויים יתבצעו על ידי השוואה בין תאריך שנוצר או שונה לתאריך הריצה האחרון של העבודה.הנתונים שהשתנו בלבד חולצו מהמקור ויעודכנו ביעד מבלי להשפיע על הנתונים הקיימים.

שלב 4: עומס ואינדקס

אם הבנתם את תהליך ה- Informatica ETL, אנו נמצאים כעת במצב טוב יותר להעריך מדוע Informatica הוא הפיתרון הטוב ביותר במקרים כאלה.

תכונות של Informatica ETL:

במשך כל פעולות שילוב הנתונים ו- ETL, אינפורמטיקה סיפקה לנו Informatica PowerCenter . הבה נראה כעת כמה תכונות עיקריות של Informatica ETL:

  • מספק מתקן לציין מספר גדול של כללי טרנספורמציה עם ממשק משתמש.
  • צור תוכניות לשינוי נתונים.
  • טיפול במקורות נתונים מרובים.
  • תומך במיצוי נתונים, ניקוי, צבירה, ארגון מחדש, שינוי ועומס.
  • מייצר תוכניות אוטומטית להפקת נתונים.
  • טעינה מהירה של מחסני נתוני יעד.

להלן כמה מהתרחישים האופייניים בהם נעשה שימוש ב- Informatica PowerCenter:

  1. העברת נתונים:

חברה רכשה יישום חדש לתשלום חשבונות עבור מחלקת החשבונות שלה. PowerCenter יכול להעביר את נתוני החשבון הקיימים ליישום החדש. האיור שלמטה יעזור לך להבין כיצד תוכל להשתמש ב- Informatica PowerCenter להעברת נתונים. Informatica PowerCenter יכולה לשמר בקלות את שושלת הנתונים למטרות מס, חשבונאות ומטרות חוקיות אחרות במהלך תהליך העברת הנתונים.

העברת נתונים מיישום חשבונאות ישן יותר ליישום חדש

  1. שילוב יישומים:

נגיד חברה-א 'רוכשת את חברת ב'. לכן, כדי להשיג את היתרונות שבאיחוד, יש לשלב את מערכת החיוב של החברה-ב 'במערכת החיוב של החברה-א' שניתן לבצע בקלות באמצעות Informatica PowerCenter. האיור שלמטה יסייע לך להבין כיצד תוכל להשתמש ב- Informatica PowerCenter לשילוב יישומים בין החברות.

שילוב יישום בין חברות

  1. אחסנת נתונים

פעולות אופייניות הנדרשות במחסני נתונים הן:

  • שילוב מידע ממקורות רבים יחד לצורך ניתוח.
  • העברת נתונים ממאגרי מידע רבים למחסן הנתונים.

ניתן לבצע בקלות את כל המקרים האופייניים לעיל באמצעות Informatica PowerCenter. למטה, תוכלו לראות ש- Informatica PowerCenter משמש לשילוב נתונים ממאגרי מידע מסוגים שונים כמו Oracle, SalesForce וכו 'והבאתם למחסן נתונים משותף שנוצר על ידי Informatica PowerCenter.

נתונים ממאגרי מידע שונים המשולבים במחסן נתונים משותף

  1. Middleware

נניח שארגון קמעונאי עושה שימוש ב- SAP R3 ליישומי הקמעונאות שלו ו- SAP BW כמחסן הנתונים שלו. תקשורת ישירה בין שני היישומים הללו אינה אפשרית בגלל היעדר ממשק תקשורת. עם זאת, Informatica PowerCenter יכול לשמש כ- Middleware בין שני היישומים הללו. בתמונה למטה תוכלו לראות את הארכיטקטורה של אופן השימוש ב- Informatica PowerCenter בתור תוכנת ביניים בין SAP R / 3 ו- SAP BW. היישומים מ- SAP R / 3 מעבירים את הנתונים שלהם למסגרת ABAP ואז מעבירים אותם אלנקודת מכירה של SAP (POS) ו- SAPחשבונות שירותים (BOS). Informatica PowerCenter מסייע בהעברת נתונים משירותים אלה למחסן העסקי של SAP (BW).

Informatica PowerCenter כ- Middleware בארכיטקטורה של SAP

אמנם ראית כמה תכונות עיקריות ותרחישים אופייניים של Informatica ETL, אך אני מקווה שאתה מבין מדוע Informatica PowerCenter הוא הכלי הטוב ביותר לתהליך ETL. בואו נראה כעת מקרה שימוש של Informatica ETL.

מקרה שימוש: הצטרפות לשני טבלאות לקבלת טבלה מפורטת אחת

נניח שאתה מעוניין לספק תחבורה חכמה של המחלקה לעובדים שלך שכן המחלקות ממוקמות במקומות שונים. לשם כך, ראשית עליך לדעת לאיזה מחלקה כל עובד משתייך ומיקום המחלקה. עם זאת, פרטי העובדים מאוחסנים בטבלאות שונות ועליך לצרף את פרטי המחלקה למסד נתונים קיים עם פרטי כל העובדים. לשם כך נטען תחילה את שתי הטבלאות ב- Informatica PowerCenter, נבצע טרנספורמציה של מקור המקור על הנתונים ולבסוף נטען את הפרטים למסד היעד..הבה נתחיל:

שלב 1 : פתח את מעצב PowerCenter.

להלן דף הבית של מעצב Informatica PowerCenter.

הבה נתחבר כעת למאגר. במקרה שלא הגדרת את המאגרים שלך או שאתה נתקל בבעיות כלשהן, תוכל לבדוק זאת בלוג.

שלב 2: לחץ לחיצה ימנית על המאגר שלך ובחר אפשרות התחברות.

בלחיצה על אפשרות ההתחברות תתבקש למסך שלמטה ותבקש את שם המשתמש והסיסמה שלך במאגר.

לאחר שהתחברת למאגר שלך, עליך לפתוח את תיקיית העבודה שלך כפי שנראה למטה:

תתבקש לשאול את שם המיפוי שלך. ציין את שם המיפוי שלך ולחץ על אישור (שמתי אותו בשם m- שכיר ).

שלב 3: בואו כעת נטען את הטבלאות ממסד הנתונים, התחל בחיבור למסד הנתונים. לשם כך, בחר בכרטיסיה מקורות ובאפשרות ייבא ממסד הנתונים כפי שנראה למטה:

בלחיצה על ייבא ממסד נתונים, תתבקש למסך להלן ולשאול את פרטי מסד הנתונים שלך ואת שם המשתמש והסיסמה שלו לחיבור (אני משתמש במסד הנתונים של Oracle ובמשתמש HR).

לחץ על התחבר כדי להתחבר למסד הנתונים שלך.

שלב 4: כפי שאני רוצה להצטרף ל עובדים ו מַחלָקָה טבלאות, אבחר אותם ולחץ על אישור.
המקורות יופיעו בסביבת עבודת המיפוי שלך, כפי שנראה למטה.

שלב 5: באופן דומה טען את טבלת היעד למיפוי.

שלב 6: עכשיו נקשר בין מוקדמות המקור לטבלת היעד. לחץ לחיצה ימנית על נקודה ריקה כלשהי בסביבת העבודה ובחר קישור אוטומטי כפי שנראה למטה:

להלן המיפוי המקושר על ידי קישור אוטומטי.

שלב 7: מכיוון שעלינו לקשר את שתי הטבלאות למוקדמת המקור, בחר את העמודות של טבלת המחלקה ושחרר אותה למוקדמת המקור כפי שנראה למטה:

שחרר את ערכי העמודות למכשיר המקור SQ_EMPLOYEES .

להלן מוסמך המקור המעודכן.

שלב 8: לחץ פעמיים על מקצוען המקור כדי לערוך את השינוי.

תקבל את הקופץ עריכת שינוי כפי שנראה למטה. לחץ על הכרטיסייה מאפיינים.

שלב 9: בכרטיסייה מאפיינים, לחץ על שדה ערך בשורה הצטרפות משתמש מוגדרת.

תקבל את עורך SQL הבא:

שלב 10: להיכנס מועסקים.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID כתנאי להצטרף לשתי הטבלאות בשדה SQL ולחץ על אישור.

שלב 11: כעת לחץ על שורת שאילתת SQL כדי ליצור את SQL להצטרפות כפי שנראה למטה:

תקבל את עורך ה- SQL הבא, לחץ על אפשרות SQL ליצור.

ה- SQL הבא ייווצר עבור התנאי שציינו בשלב הקודם. לחץ על אישור.

ממיר בינארי לעשרוני

שלב 12: לחץ על החל ואישור.

להלן המיפוי שהושלם.

סיימנו את תכנון האופן שבו יש להעביר את הנתונים מהמקור ליעד. עם זאת, העברת הנתונים בפועל עדיין אינה מתרחשת ולשם כך עלינו להשתמש בתכנון זרימת העבודה של PowerCenter. ביצוע זרימת העבודה יוביל להעברת נתונים מהמקור ליעד. למידע נוסף על זרימת העבודה, עיין ב מדריך אינפורמטיקה: זרימת עבודה בלוג

שלב 13: לet us כעת משיקים את מנהל זרימת העבודה על ידי לחיצה על סמל ה- W כפי שנראה למטה:

להלן דף הבית של מעצב זרימת העבודה.

שלב 14: הבה ניצור כעת זרימת עבודה חדשה למיפוי שלנו. לחץ על הכרטיסייה זרימת עבודה ובחר צור אפשרות.

תקבל את החלון הקופץ שלמטה. ציין את שם זרימת העבודה שלך ולחץ על אישור.

שלב 15 : לאחר יצירת זרימת עבודה, אנו מקבלים את סמל ההתחלה בסביבת העבודה של מנהל זרימת העבודה.

בואו כעת הוסף מושב חדש לסביבת העבודה כפי שנראה למטה על ידי לחיצה על סמל ההפעלה ולחיצה על סביבת העבודה:

לחץ על סביבת העבודה כדי למקם את סמל ההפעלה.

שלב 16: במהלך הוספת ההפעלה עליך לבחור את המיפוי שיצרת ושמרת בשלבים שלעיל. (שמרתי אותו בתור m-EMPLYYEE).

להלן מרחב העבודה לאחר הוספת סמל ההפעלה.

שלב 17 : כעת לאחר שיצרת מושב חדש, עלינו לקשר אותו למשימת ההתחלה. אנו יכולים לעשות זאת על ידי לחיצה על סמל קישור המשימות כפי שנראה למטה:

לחץ תחילה על סמל ההתחלה ואז על סמל ההפעלה כדי ליצור קישור.

להלן זרימת עבודה מחוברת.

שלב 18: כעת לאחר שסיימנו את התכנון, בואו נתחיל בתהליך העבודה. לחץ על הכרטיסייה זרימת עבודה ובחר באפשרות התחל זרימת עבודה.

מנהל זרימת עבודה החל מזרם העבודה.

שלב 19 : ברגע שאנחנו מתחילים את זרימת העבודה, מנהל זרימת העבודה יופעל אוטומטיתומאפשר לך לעקוב אחר ביצוע זרימת העבודה שלך. למטה תוכל לראות את Monitor Workflow מציג את מצב זרימת העבודה שלך.

שלב 20: לבדיקת הסטטוס של זרימת העבודה, לחץ לחיצה ימנית על זרימת העבודה ובחר קבל מאפייני הפעלה כפי שנראה למטה:

בחר בכרטיסייה מקור / סטטיסטיקה של יעד.

להלן ניתן לראות את מספר השורות שהועברו בין המקור ליעד לאחר השינוי.

תוכל גם לאמת את התוצאה שלך בבדיקת טבלת היעד שלך, כפי שנראה למטה.

אני מקווה שבלוג Informatica ETL זה היה מועיל לבנות את הבנתך על המושגים של ETL באמצעות Informatica ויצר מספיק עניין כדי שתוכל ללמוד עוד על Informatica.

אם מצאת את הבלוג הזה מועיל, אתה יכול גם לבדוק את סדרת הבלוגים שלנו בנושא מדריכי Informatica , מדריך אינפורמטיקה: הבנת אינפורמטיקה 'מבפנים החוצה' ו טרנספורמציות אינפורמטיקה: הלב והנשמה של אינפורמטיקה פאוור-סנטר . אם אתה מחפש פרטים על הסמכת Informatica, אתה יכול לבדוק את הבלוג שלנו הסמכת Informatica: כל מה שצריך לדעת .

אם כבר החלטת לקחת את אינפורמטיקה כקריירה, הייתי ממליץ לך להסתכל על שלנו דף קורס. הכשרת הסמכת אינפורמטיקה באדוריקה תהפוך אותך למומחה באינפורמטיקה באמצעות מפגשים חיים בהדרכת מדריכים והכשרה מעשית באמצעות מקרי שימוש אמיתיים.