היסטוגרמה היא כלי חיוני בסטטיסטיקה ובניתוח נתונים, המספק ייצוג חזותי של התפלגות נתונים מספריים. זוהי בעצם סוג של דיאגרמת עמודות שבה גובה העמודות מראה את התדירות (השכיחות) של נקודות נתונים הנופלות לתוך טווחים ספציפיים, הנקראים תאים (Bins).
- ציר ה-X (האופקי): מייצג את ערכי הנתונים, המחולקים למרווחים רצופים ובלתי חופפים (התאים).
- ציר ה-Y (האנכי): מייצג את התדירות (הספירה, ה"כמה") או את התדירות היחסית (הפרופורציה) של נקודות הנתונים הנופלות בתוך כל תא.
העמודות בהיסטוגרמה תמיד צמודות (נוגעות זו בזו), וזהו הבדל מפתח מול דיאגרמת עמודות רגילה, שבה העמודות מייצגות קטגוריות נפרדות ובדרך כלל מופרדות.
דוגמה
נניח שאספת את גילאי 100 אנשים ורצית להמחיש את ההתפלגות.
| טווח גילאים (תא) | ספירה (תדירות) |
| 0–10 | 15 |
| 11–20 | 25 |
| 21–30 | 30 |
| 31–40 | 18 |
| 41–50 | 12 |
היסטוגרמה תשרטט את הטווחים הללו על ציר ה-X, והעמודה עבור הטווח '21–30' תהיה הגבוהה ביותר, ותגיע לגובה של 30. זה מראה מיד שקבוצת הגיל הנפוצה ביותר היא 21–30.
️ איך היסטוגרמה פועלת?
- איסוף נתונים: אוספים מערך של נקודות נתונים מספריות (למשל, ציוני מבחנים, משקלים, זמני המתנה).
- קביעת טווח: מוצאים את הערכים המינימליים והמקסימליים כדי להבין את הפיזור הכולל.
- הגדרת תאים (מרווחים): מחלקים את כל טווח הנתונים לסדרה של מרווחים. זהו השלב הקריטי ביותר, מכיוון שמספר ורוחב התאים משפיעים באופן משמעותי על מראה ההיסטוגרמה.
- מעט מדי תאים (תאים רחבים): מפשטים יתר על המידה את הנתונים ומסתירים מאפיינים חשובים.
- יותר מדי תאים (תאים צרים): יוצרים גרף קופצני ומבולגן שקשה לפרש.
- מניית תדירויות: סופרים כמה נקודות נתונים נופלות לתוך כל תא.
- שרטוט הגרף: בונים את גרף העמודות, כאשר גבולות התאים נמצאים על ציר ה-X והתדירויות על ציר ה-Y. העמודות חייבות להיות צמודות.
שימושים בהיסטוגרמה
היסטוגרמות משמשות בעיקר לניתוח נתונים ראשוני (exploratory data analysis) כדי:
- להמחיש את ההתפלגות: לראות במהירות את הצורה הבסיסית של הנתונים (למשל, סימטרית, מוטה).
- לזהות מגמה מרכזית: להעריך חזותית את הממוצע, החציון והשכיח (העמודה הגבוהה ביותר מראה את התא השכיח).
- להעריך שונות/פיזור: לראות עד כמה הנתונים מפוזרים (היסטוגרמה רחבה מעידה על שונות גבוהה).
- לאתר חריגים (Outliers): לחפש עמודות מבודדות הרחק מהגוף העיקרי של הנתונים.
- לבדוק נורמליות: לקבוע אם הנתונים עוקבים אחר התפלגות נורמלית דמוית פעמון, שהיא לעתים קרובות דרישה לבדיקות סטטיסטיות.
סוגי צורות התפלגות
צורת ההיסטוגרמה חושפת מידע מכריע על הנתונים:
- התפלגות נורמלית (פעמון): סימטרית, עם שיא באמצע וזנבות יורדים באותה מידה משני הצדדים. אידיאלית עבור מודלים סטטיסטיים רבים.
- הטיה ימנית (חיובית): הזנב הארוך משתרע ימינה. רוב הנתונים נמצאים בצד שמאל (ערכים נמוכים יותר). דוגמה: נתוני הכנסה, שבהם רוב האנשים מרוויחים פחות, אך מעטים מרוויחים הרבה.
- הטיה שמאלית (שלילית): הזנב הארוך משתרע שמאלה. רוב הנתונים נמצאים בצד ימין (ערכים גבוהים יותר). דוגמה: ציונים במבחן קל.
- התפלגות אחידה (Uniform): כל העמודות הן בערך באותו גובה, כלומר נקודות הנתונים מפוזרות באופן שווה על פני הטווח.
- התפלגות דו-שיאית (Bimodal): יש לה שני שיאים ברורים, מה שמרמז שהנתונים עשויים להגיע משתי אוכלוסיות בסיס שונות.
יתרונות ו- חסרונות
יתרונות
- חזותי חזק: מספק תמונה ברורה ואינטואיטיבית של התפלגות וצורת הנתונים במבט אחד.
- קל לבנייה: פשוט ליצירה באמצעות נתונים בסיסיים וכלי גרפים.
- מבליט מאפיינים מרכזיים: חושף במהירות את המרכז, הפיזור והסימטריה של מערך הנתונים.
חסרונות
- תלות בתאים: המראה יכול להשתנות משמעותית בהתאם למספר ורוחב התאים שנבחרו, מה שעלול להוביל לפרשנות שגויה.
- אובדן נתונים אישיים: לא ניתן לשחזר את ערכי הנתונים המקוריים מהיסטוגרמה; יודעים רק את הספירה בתוך כל טווח.
- לא מתאים לנתונים קטגוריאליים: מתאים רק לנתונים מספריים, רציפים או בדידים. דיאגרמות עמודות רגילות טובות יותר לקטגוריות.
