מדריך למדעי נתונים - למד מדעי נתונים מ- Scratch!



מדריך מדע נתונים זה אידיאלי עבור אלה המחפשים מעבר לתחום מדע הנתונים. הוא כולל את כל יסודות מדע הנתונים עם מסלול קריירה.

רוצה להתחיל את הקריירה שלך כמדען נתונים, אבל לא יודע מאיפה להתחיל? אתם במקום הנכון! היי חבר'ה, ברוכים הבאים לבלוג המדהים הזה של מדעי הנתונים, זה ייתן לכם התחלה טובה לעולם מדעי הנתונים. כדי לקבל ידע מעמיק במדעי הנתונים, אתה יכול להירשם לשידור חי מאת אדוריקה עם תמיכה 24/7 וגישה לכל החיים. בואו נסתכל על מה שנלמד היום:

    1. מדוע מדע נתונים?
    2. מה זה מדע נתונים?
    3. מיהו מדעני נתונים?
    4. מגמות עבודה
    5. כיצד לפתור בעיה במדע הנתונים?
    6. רכיבי מדע הנתונים
    7. תפקידי תפקידים של מדען נתונים





מדוע מדע נתונים?

נאמר כי מדען הנתונים הוא 'העבודה הכי סקסית של המאה ה -21'. למה? מכיוון שבמהלך השנים האחרונות חברות שמורות את הנתונים שלהן. וזה נעשה על ידי כל חברה וחברה, זה הביא לפתע לפיצוץ נתונים. נתונים הפכו לדבר הכי שופע כיום.

אבל, מה תעשה עם הנתונים האלה? בואו נבין זאת באמצעות דוגמה:



תגיד, יש לך חברה שמייצרת טלפונים ניידים. הוצאת את המוצר הראשון שלך והוא הפך ללהיט מאסיבי. לכל טכנולוגיה יש חיים, נכון? אז, עכשיו הגיע הזמן להמציא משהו חדש. אבל אתה לא יודע מה צריך לחדש, כדי לענות על הציפיות של המשתמשים, שמחכים בקוצר רוח למהדורה הבאה שלך?

מישהו בחברה שלך מעלה רעיון להשתמש במשוב שנוצר על ידי המשתמש ולבחור דברים שלדעתנו המשתמשים מצפים במהדורה הבאה.

מגיע במדע הנתונים, אתה מיישם טכניקות שונות של כריית נתונים כמו ניתוח סנטימנטים וכו 'ומקבל את התוצאות הרצויות.



זה לא רק זה, אתה יכול לקבל החלטות טובות יותר, אתה יכול להפחית את עלויות הייצור שלך על ידי לצאת עם דרכים יעילות, ולתת ללקוחות שלך את מה שהם באמת רוצים!

עם זאת, ישנם אינספור יתרונות שמדע הנתונים יכול לגרום להם, ולכן זה הפך להיות הכרחי ביותר עבור החברה שלך שיהיה צוות מדע נתונים.דרישות כמו אלה הובילו ל'מדע נתונים 'כנושא כיום, ומכאן שאנו כותבים את הבלוג הזה במדריך למדעי הנתונים עבורכם. :)

מדריך מדעי נתונים: מהו מדע נתונים?

המונח Data Science הופיע לאחרונה עם התפתחות הסטטיסטיקה המתמטית וניתוח הנתונים. המסע היה מדהים, השגנו כל כך הרבה היום בתחום מדע הנתונים.

בשנים הקרובות נוכל לחזות את העתיד כפי שטענו חוקרים מ- MIT. הם כבר הגיעו לאבן דרך בחיזוי העתיד, עם המחקר המדהים שלהם. כעת הם יכולים לחזות מה יקרה בסצנה הבאה של הסרט, עם המכונה שלהם! אֵיך? ובכן אולי יהיה לך מורכב מעט להבין נכון לעכשיו, אך אל תדאג בסוף הבלוג הזה, תהיה לך תשובה גם לזה.

כשחזרנו, דיברנו על מדע נתונים, זה ידוע גם כמדע מונחה נתונים, העושה שימוש בשיטות, תהליכים ומערכות מדעיים להפקת ידע או תובנות מנתונים בצורות שונות, כלומר מובנה או לא מובנה.

מהן השיטות והתהליכים האלה, מה נדבר בהדרכה זו למדעי הנתונים היום.

ממשיכים קדימה, מי עושה את כל המוח הזה מסתער, או מי עוסק במדע נתונים? א מדען נתונים .

מיהו מדעני נתונים?

כפי שניתן לראות בתמונה, מדען נתונים הוא המאסטר בכל המקצועות! הוא צריך להיות בקיא במתמטיקה, עליו להתמודד בתחום העסקי, וכמו כן צריך להיות בעל כישורים גדולים במדעי המחשב. מפחד? אל תהיה. אמנם אתה צריך להיות טוב בכל התחומים האלה, אבל גם אם לא, אתה לא לבד! אין דבר כזה 'מדען נתונים שלם'. אם אנו מדברים על עבודה בסביבה ארגונית, העבודה מופצת בין צוותים, שבהם לכל צוות מומחיות משלו. אבל העניין הוא שאתה צריך להיות בקיא לפחות באחד התחומים האלה. כמו כן, גם אם כישורים אלה חדשים עבורך, צמרמורת! זה יכול לקחת זמן, אך ניתן לפתח את הכישורים הללו, ותאמינו לי שזה יהיה שווה את הזמן שתשקיעו. למה? ובכן, בואו נסתכל על מגמות העבודה.

איך לפתוח cls aws

מגמות העבודה של מדעני הנתונים

ובכן, הגרף אומר הכל, לא רק שיש הרבה משרות עבור מדעני נתונים, אלא שגם המשרות משתלמות היטב! ולא, הבלוג שלנו לא יכסה את נתוני השכר, חפשו בגוגל!

ובכן, אנו יודעים כעת, למידת מדעי הנתונים הגיונית למעשה, לא רק משום שהיא שימושית מאוד, אלא גם שיש לך קריירה נהדרת בה בעתיד הקרוב.

בואו נתחיל את המסע שלנו בלימוד מדעי הנתונים ונתחיל עם,

כיצד לפתור בעיה במדע הנתונים?

אז עכשיו, בואו נדון כיצד צריך לגשת לבעיה ולפתור אותה באמצעות מדע הנתונים. בעיות במדע הנתונים נפתרות באמצעות אלגוריתמים. אבל, הדבר הגדול ביותר שיש לשפוט הוא באיזה אלגוריתם להשתמש ומתי להשתמש בו?

בעיקרון ישנם 5 סוגים של בעיות שאתה יכול להתמודד איתן במדע הנתונים.

בואו נתייחס לכל אחת מהשאלות הללו ולאלגוריתמים המשויכים בזה אחר זה:

האם זה A או B?

בשאלה זו אנו מתייחסים לבעיות שיש להן תשובה קטגורית, כמו בבעיות שיש להן פתרון קבוע, התשובה יכולה להיות כן או לא, 1 או 0, מעוניין, אולי או לא מעוניין.

לדוגמה:

ש: מה יהיה לך, תה או קפה?

כאן, אתה לא יכול לומר שאתה רוצה קוקה! מכיוון שהשאלה מציעה רק תה או קפה, ומכאן שאתה יכול לענות על אחד מהם בלבד.

כשיש לנו רק שני סוגים של תשובות כלומר כן או לא, 1 או 0, זה נקרא 2 - Class Classification. עם יותר משתי אפשרויות, זה נקרא Class Class Classification.

לסיום, בכל פעם שנתקלתם בשאלות שהתשובה עליהן היא קטגורית, במדעי הנתונים תפתרו את הבעיות הללו באמצעות אלגוריתמי סיווג.

הבעיה הבאה במדריך למדעי הנתונים, שתיתקל בה, אולי משהו כזה,

האם זה מוזר?

שאלות כמו אלה עוסקות בתבניות וניתן לפתור אותן באמצעות אלגוריתמי זיהוי חריגות.

לדוגמה:

נסה לשייך את הבעיה 'האם זה מוזר?' לתרשים זה,

מה מוזר בתבנית שלעיל? הבחור האדום, לא?

בכל פעם שיש הפסקה בתבנית, האלגוריתם מסמן את אותו אירוע שעלינו נוכל לבדוק. יישום עולם אמיתי של אלגוריתם זה יושם על ידי חברות כרטיסי אשראי, כאשר כל עסקה חריגה על ידי משתמש מסומנת לבדיקה. מכאן שיישום הביטחון והפחתת המאמץ האנושי למעקב.

בואו נסתכל על הבעיה הבאה במדריך זה למדעי הנתונים, אל תפחדו, עוסק במתמטיקה!

כמה או כמה?

לאלו מכם, שלא אוהבים מתמטיקה, הקלו! אלגוריתמי רגרסיה כבר כאן!

לכן, בכל פעם שיש בעיה שעשויה לבקש נתונים או ערכים מספריים, אנו פותרים אותה באמצעות אלגוריתמים של רגרסיה.

לדוגמה:

מה תהיה הטמפרטורה למחר?

מכיוון שאנו מצפים לערך מספרי בתגובה לבעיה זו, נפתור אותו באמצעות אלגוריתמים של רגרסיה.

נעבור במדריך זה למדעי הנתונים, בואו נדון באלגוריתם הבא,

איך זה מאורגן?

תגיד שיש לך כמה נתונים, עכשיו אין לך מושג, איך להיות הגיוני מהנתונים האלה. מכאן נשאלת השאלה, איך זה מאורגן?

ובכן, אתה יכול לפתור את זה באמצעות אלגוריתמי אשכולות. כיצד הם פותרים את הבעיות הללו? בוא נראה:

אלגוריתמי אשכולות מקבצים את הנתונים במונחים של מאפיינים נפוצים. לדוגמא בתרשים שלמעלה, הנקודות מסודרות על בסיס צבעים. באופן דומה, בין אם מדובר בנתונים כלשהם, אלגוריתמי אשכולות מנסים לתפוס את המשותף ביניהם ומכאן 'מקבצים' אותם יחד.

הסוג הבא והאחרון של הבעיה בהדרכה זו למדעי הנתונים, שתיתקל בה היא,

מה עלי לעשות הלאה?

בכל פעם שאתה נתקל בבעיה שבה המחשב שלך צריך לקבל החלטה על סמך ההדרכה שנתת לה, זה כרוך באלגוריתמים לחיזוק.

לדוגמה:

מערכת בקרת הטמפרטורה שלך, כאשר היא צריכה להחליט אם עליה להוריד את הטמפרטורה בחדר, או להגדיל אותה.

כיצד פועלים אלגוריתמים אלה?

אלגוריתמים אלה מבוססים על פסיכולוגיה אנושית. אנחנו אוהבים שמעריכים אותנו נכון? מחשבים מיישמים אלגוריתמים אלה, ומצפים שיזכו להערכה בעת הכשרה. אֵיך? בוא נראה.

במקום ללמד את המחשב מה לעשות, אתה נותן לו להחליט מה לעשות, ובסיום פעולה זו אתה נותן משוב חיובי או שלילי. מכאן, במקום להגדיר מה נכון ומה לא נכון במערכת שלך, אתה נותן למערכת שלך 'להחליט' מה לעשות, ובסופו של דבר לתת משוב.

זה בדיוק כמו לאמן את הכלב שלך. אתה לא יכול לשלוט במה הכלב שלך עושה, נכון? אבל אתה יכול לנזוף בו כשהוא עושה רע. באופן דומה, אולי טופח לו על הגב כשהוא עושה את מה שמצופה.

בואו נשתמש בהבנה זו בדוגמה שלמעלה, דמיין שאתה מאמן את מערכת בקרת הטמפרטורה, כך שבכל פעם שלא. אנשים בחדר הולכים וגדלים, חייבת להיות פעולה שמבוצעת על ידי המערכת. או להוריד את הטמפרטורה או להגדיל אותה. מכיוון שהמערכת שלנו לא מבינה כלום, היא לוקחת החלטה אקראית, נניח שהיא מעלה את הטמפרטורה. לכן, אתה נותן משוב שלילי. בכך המחשב מבין בכל פעם שמספר האנשים גדל בחדר, לעולם אל תגדיל את הטמפרטורה.

באופן דומה לגבי פעולות אחרות, תתן משוב.עם כל משוב שהמערכת שלך לומדת ולכן הופכת מדויקת יותר בהחלטה הבאה שלה, למידה מסוג זה נקראת למידת חיזוק.

כעת, האלגוריתמים שלמדנו לעיל בהדרכה זו למדעי הנתונים כוללים 'תרגול למידה' נפוץ. אנחנו גורמים למכונה ללמוד נכון?

מהי למידת מכונה?

זהו סוג של בינה מלאכותית ההופכת את המחשבים למסוגלים ללמוד בעצמם כלומר בלי להיות מתוכנת במפורש. עם למידת מכונה, מכונות יכולות לעדכן את הקוד שלהן, בכל פעם שהם נתקלים במצב חדש.

לסיום במדריך זה למדע הנתונים, אנו יודעים כעת שמדע הנתונים מגובה על ידי Machine Learning והאלגוריתמים שלו לצורך ניתוחו. כיצד אנו מבצעים את הניתוח, היכן אנו עושים זאת. למדע הנתונים יש גם כמה מרכיבים המסייעים לנו להתמודד עם כל השאלות הללו.

לפני כן הרשו לי לענות כיצד MIT יכול לחזות את העתיד, כי אני חושב שאתם אולי תצליחו להתייחס אליו עכשיו. לכן חוקרים ב- MIT הכשירו את המודל שלהם בסרטים והמחשבים למדו כיצד בני האדם מגיבים, או כיצד הם פועלים לפני שהם מבצעים פעולה.

למשל, כשאתה עומד ללחוץ ידיים עם מישהו אתה מוציא את היד מהכיס שלך, או אולי נשען על האדם. בעיקרון יש 'פעולה מקדימה' המוצמדת לכל דבר שאנחנו עושים. המחשב בעזרת סרטים הוכשר ב'פעולות קדם 'אלה. ועל ידי צפייה בעוד ועוד סרטים, המחשבים שלהם הצליחו אז לחזות מה יכולה להיות הפעולה הבאה של הדמות.

קל לא? תן לי לזרוק אליך שאלה נוספת ואז במדריך זה למדעי הנתונים! איזה אלגוריתם של למידת מכונה הם בטח יישמו בזה?

רכיבי מדע הנתונים

1. מערכי נתונים

על מה תנתח? נתונים, נכון? אתה צריך הרבה נתונים שניתן לנתח, נתונים אלה מוזנים לאלגוריתמים או לכלי הניתוח שלך. אתה מקבל נתונים אלה ממחקרים שונים שנערכו בעבר.

2. סטודיו R

R היא שפת תכנות קוד פתוח וסביבת תוכנה למחשוב סטטיסטי וגרפיקה הנתמכת על ידי קרן R. שפת ה- R משמשת ב- IDE בשם R Studio.

מדוע משתמשים בו?

  • תכנות ושפה סטטיסטית
    • מלבד השימוש בשפה סטטיסטית, ניתן להשתמש בה גם בשפת תכנות למטרות אנליטיות.
  • ניתוח נתונים והדמיה
    • מלבד היותו אחד מכלי הניתוח הדומיננטיים ביותר, R הוא גם אחד הכלים הפופולריים ביותר המשמשים להדמיית נתונים.
  • פשוט וקל ללמוד
    • R הוא פשוט וקל ללימוד, קריאה וכתיבה

  • קוד פתוח וחופשי
    • R הוא דוגמה ל- FLOSS (תוכנה חופשית / חופשית וקוד פתוח), כלומר ניתן להפיץ באופן חופשי עותקים של תוכנה זו, לקרוא את קוד המקור שלה, לשנות אותה וכו '.

R Studio היה מספיק לניתוח, עד שמערכי הנתונים שלנו הפכו להיות עצומים, גם לא מובנים בו זמנית. סוג נתונים זה נקרא Big Data.

3. ביג דאטה

נתונים גדולים הם המונח לאוסף של ערכות נתונים כה גדולות ומורכבות עד שקשה לעבד אותן באמצעות כלי ניהול מסדי נתונים ידניים או יישומי עיבוד נתונים מסורתיים.

עכשיו כדי לאלף את הנתונים האלה, היינו צריכים להמציא כלי, מכיוון שאף תוכנה מסורתית לא הצליחה להתמודד עם נתונים מסוג זה, ומכאן שהגענו ל- Hadoop.

4. Hadoop

Hadoop היא מסגרת שעוזרת לנו חנות ו תהליך מערכי נתונים גדולים במקביל ובאופן הפצה.

בואו נתמקד בחנות ונעבד חלק מ- Hadoop.

חנות

מה עושה init בפייתון

חלק האחסון ב- Hadoop מטופל על ידי HDFS כלומר מערכת קבצים מבוזרת של Hadoop. הוא מספק זמינות גבוהה בכל מערכת אקולוגית מבוזרת. האופן שבו הוא מתפקד הוא כזה, הוא מפרק את המידע הנכנס לגושים, ומפיץ אותם לצמתים שונים באשכול, ומאפשר אחסון מבוזר.

תהליך

MapReduce הוא לב העיבוד של Hadoop. האלגוריתמים מבצעים שתי משימות חשובות, ממפים ומצמצמים. הממפים מפרקים את המשימה למשימות קטנות יותר אשר מעובדות במקביל. ברגע שכל הממפים מבצעים את חלקם בעבודה, הם מצטברים את תוצאותיהם ואז תוצאות אלה מצטמצמות לערך פשוט יותר על ידי תהליך הצמצום. למידע נוסף על Hadoop תוכלו לעבור על שלנו .

אם אנו משתמשים ב- Hadoop בתור האחסון שלנו במדע הנתונים, קשה לעבד את הקלט עם R Studio, בגלל חוסר היכולת שלו לבצע ביצועים טובים בסביבה מבוזרת, ולכן יש לנו Spark R.

5. ניצוץ R

זוהי חבילת R, המספקת דרך קלה לשימוש של Apache Spark עם R. מדוע תשתמש בה על פני יישומי R המסורתיים? מכיוון שהיא מספקת יישום מסגרת נתונים מבוזרת שתומך בפעולה כמו בחירה, סינון, צבירה וכו 'אך על מערכי נתונים גדולים.

קח אוויר עכשיו! סיימנו עם החלק הטכני בהדרכה זו למדעי הנתונים, בואו נסתכל על זה מנקודת מבט העבודה שלכם עכשיו. אני חושב שהיית עושה בגוגל את המשכורות עד עכשיו עבור מדען נתונים, אך עדיין, בואו נדון בתפקידי התפקיד העומדים לרשותך כמדען נתונים.

תפקידי תפקידים של מדען נתונים

כמה מכותרות העבודה הבולטות של מדען הנתונים הן:

  • מדען נתונים
  • מהנדס נתונים
  • אדריכל נתונים
  • מנהל נתונים
  • אנליסט מידע
  • מנתח עסקי
  • מנהל נתונים / אנליטיקס
  • מנהל מודיעין עסקי

התרשים Payscale.com בהדרכה זו למדעי הנתונים להלן מציג את השכר הממוצע של מדען הנתונים לפי כישורים בארה'ב ובהודו.

הזמן בשלים למומחיות במדעי הנתונים ובביג דאטה אנליטיקס כדי לנצל את הזדמנויות הקריירה של מדע הנתונים המגיעות בדרך שלך. זה מביא אותנו לסוף הבלוג של מדעי הנתונים. אני מקווה שהבלוג הזה היה אינפורמטיבי והוסיף ערך מוסף עבורך. זה הזמן להיכנס לעולם מדע הנתונים ולהפוך למדען נתונים מצליח.

אדוריקה יש אוצר מיוחד אשר מסייע לך לצבור מומחיות באלגוריתמים של למידת מכונה כמו אשכולות K-Means, עצים של החלטות, Forest Random, Naive Bayes. תלמדו את המושגים סטטיסטיקה, סדרות זמן, כריית טקסטים וגם מבוא ללמידה עמוקה. קבוצות חדשות לקורס זה מתחילות בקרוב !!

יש לנו שאלה עבורנו במדריך למדעי הנתונים? אנא הזכיר זאת בסעיף ההערות ונחזור אליך.