Essential Statistics

Take Note : Essential Statistics

Speaker : DataRockie อาจารย์ ทอย Kasidis Satangmongkol
Date : 1 MAR 2025

ส่งการบ้าน

10 ideas สำคัญ ที่วิชาสถิติ จำเป็นต้องใช้ในชีวิตประจำวัน

  1. อยากทำกับข้าวให้อร่อย ต้องคนส่วนผสมให้เข้ากันให้ทั่ว ตักมาชิม ถ้าไม่อร่อยปรุงใหม่ จนกว่าจะชิมแล้วอร่อย
  2. เลือกคู่ แฟน สามีหรือภรรยา หาข้อมูลสอบจาก คนรอบข้าง พ่อแม่ พี่น้อง ลุงป้าข้างบ้าน ค่อยนำมาวิเคราะห์ด้วยตัวเอง ว่าเข้ากันได้ไหม ทดลองเป็นแฟน ถ้าไม่ใช่คนที่ต้องการ หาใหม่ จนกว่าจะเจอคนที่ต้องการ ปล. ถึงวิเคราะห์ว่าดีที่สุดแล้ว แต่สุดท้ายจะเลิกกันก็ได้ สถานะการณ์เปลี่ยน ใจคนเปลี่ยนได้เสมอ
  3. การเปรียบเทียบ คะแนนสอบของเรา กับกลุ่มเพื่อนในห้อง
  4. ช่วยให้เราเข้าใจ วิธีการ สำมะโนประชากร ของประเทศไทย
  5. เลือกแผนการลงโฆษณาในช่องทางต่างๆ ให้เหมาะสม เพื่อประมาณการให้ได้ยอดขายสินค้าที่ต้องการ
  6. มีวิธีนำเสนอข้อมูลได้อย่างเหมาะสม เช่น เลือกใช้ กราฟ และ แผนภูมิ ให้เหมาะสมกับข้อมูล
  7. GDP ของประเทศที่โตขึ้น ไม่ได้หมายความว่า คนในประเทศทั้งหมดจะรวยขึ้น แค่มีคน 1 คนที่รวยมากๆ อยู่ในกลุ่มสำรวจ ก็สามารถทำให้ GDP เพิ่มขึ้นได้มากๆ เพราะ GDP คือค่าเฉลี่ยของคนทั้งประเทศ
  8. ทุกประเทศ ในระบบทุนนิยม เหมือนกันหมด คนรวยจุก คนจนกระจาย มีคนรวยน้อยกว่าคนจน และคนรวยๆ เพิ่มขึ้นเรื่อยๆ วิธีแก้ปัญหา แค่คนรวย ยอมที่จะรวยน้อยลง และกระจายรายได้ให้คนจนบ้างก็ได้
  9. วิเคราะห์ข้อมูล ที่เราจดบันทึก รายรับ รายจ่าย ส่วนตัวทุกวัน มาดูสถิติว่าใช้เงินไปในกลุ่มไหนบ้าง และจะลดค่าใช้จ่ายในสวนไหนได้เพิ่มมากขึ้น
  10. ช่วยในการตัดสินใจอย่างมีเหตุผลมากขึ้น ในการเลือกซื้อสินค้า โดยเปรียบเทียบราคาและคุณภาพ หรือ วิธีการตัดสินใจในการลงทุน โดยวิเคราะห์ข้อมูลทางการเงินของตัวเองให้ดีก่อน

=====

  1. 10 ideas สำคัญ ที่วิชาสถิติ จำเป็นต้องใช้ในชีวิตประจำวัน
  2. สถิติ คืออะไร
  3. ทำไมต้องเรียน
  4. วิธีแบบไหน ที่ให้ได้คุณภาพกลุ่มตัวอย่างที่เหมาะสม
  5. Normal distribution
  6. Standard Normal Distribution

ใช้ https://app.whiteboard.microsoft.com/ ในการสอน ใช้ฟรี online ใช้ email @hotmail

สถิติ คืออะไร

สถิติ คือ การสุ่มตัวอย่างที่ดี เพื่อการตัดสินใจที่ดี Maket Better Decisions
วางแผนทำ research design การเก็บ collect data เก็บข้อมูลแบบไหน เพื่อจะตอบคำถามแบบที่ต้องการได้

เคล็ดลับการทำธุรกิจให้ยั่งยืน คือดูแลลูกค้าเก่าให้ยั่งยืน

ทำไมต้องเรียน

สถิติ เรียนไปเพื่อให้เข้าใจโลก โดยเรียนรู้จาก small data และกลับไปหากลุ่ม Big Data

POP 70m > Sampling > Sample n 100 >= generalization กลุ่ม sample ที่กลับไปหากลุ่มใหญ่ POP 70m

วิธีแบบไหน ที่ให้ได้คุณภาพกลุ่มตัวอย่างที่เหมาะสม

ยกตัวอย่าง แกง1หม้อ ใช้ช้อนคนให้เข้ากัน ก่อนตักมาชิม 1 ช้อน คือ Sampling

Sampling
1. Probability
2.Non-probability

1. Probability

1.1 Simple random sampling ทำระบบปิด เช่น สุ่มตัวอย่าง 10 จาก 100 รายชื่อ ในทางปฏิบัติทำได้ยาก
=RAND()

1.2 Systematic random sampling มีระบบบางอย่างที่สุ่มตัวอย่าง เช่น จากรายชื่อทั้งหมด สัมภาษณ์คนที่1 และเว้นไป 2 คน สัมภาษณ์คนที่ 2

1.3 Custer random sampling แบ่งคนเป็นกลุ่มก่อน จะสุ่ม custer ไปทำกลุ่มตัวอย่าง
=RANDBETWEEN(1,3)

1.4 Stratified random sampling * professional ใช้ แบบที่4 เยอะ
Sample size : time budget , CPI cost per interview
แบ่งตามพื้นที่และสุ่ม เช่น แบ่งตามภาค แบ่งตามจังหวัด และ่ใช้ตารางกริด แต่ สุดท้าย bias กลับไปหาลูกค้า เลือกกลุ่มด้วยตัวเอง เช่น เลือกกลุ่มที่สินค้าของเขาขายดี เพื่อไม่ให้ข้อมูลเป็นของคู่แข่งมากเกินไป และเมื่อไปสัมภาษณ์จริง ให้หลักการ ซ้ายมือ สัมภาษณ์ บ้านที่ 1 เว้น 4 หลัง สัมภาษณ์ บ้านหลังที่ 2

2.Non-prob
Convenience sample GG Forms , LINE , FB
Sample ไม่สอดคล้อง และไม่สามารถนำมาใช้ได้จริง ในตอนเรียนป.โท ทำเพื่อเรียนขั้นต้น ไม่อย่างนั้น เรียนไม่จบ เพราะเก็บไม่ไหว time budget แต่ถ้าเป็นเรียนปริญญาเอก ไม่ควรใช้ Convenience sample

Snowball หาคนแรกที่ซื้อของนั้นก่อน แล้วค่อยขอชื่อเพื่อนของคนแรก เพื่อสัมภาษณ์คนถัดไป แต่เต็มไปด้วย bias แต่ต้องใช้เพื่อให้ได้ข้อมูลที่ต้องการ เช่น Ivory

Sample size , pop 1000 สุ่ม n
https://www.surveymonkey.com/mp/sample-size-calculator/
Confidence 95%
Margin error = +- 5 % // 10, 8 , 5 , 1 = Diminishing return
1000 , 95 , 5 = sample size 278
ต้องคำนึงถึง ต้นทุนในการเก็บข้อมูล time budget

Stat
1.Descriptive
2.Inferential

Book แนะนำ: naked statistics

Correlation ​​สหสัมพันธ์
Linear regression ​​การวิเคราะห์ข้อมูลถดถอยเชิงเส้น
Range = max – min พิสัย

Central tendency Mean Median Mode
Spread SD VAR Range
Position min max percentile

Center
5 12 20 25 37
Mean = (5+12+20+25+37)/5
Median = 20

5 12 20 22 25 37
Median = (20+22)/2 =21

5 10 10 15 22
Mode = 10 Unimodal ในชีวิตจริงมีโอกาศเกิดได้มากที่สุด
Bimodal เช่น จำนวนคนที่เข้า ร้านอาหาร จะเข้าเยอะใน ช่วงเที่ยง กับหลังเลิกงาน
Multimodal

Mean
Median
Mode Gender M/F เช่น M M F M F
Normal Distribution , Bell Shape , Mean Median Mode จะเท่ากัน
Numerical
Graphical , visual
Histogram เหมาะกับข้อมูล อันเดียว

Skewness left right
หางยาวไปซ้าย เรียกเบ้ซ้าย
หางยาวไปขวา เรียกเบ้ขวา

ให้ใช้ median ถ้าข้อมูลเป็นแบบเบ้ซ้ายหรือเบ้ขวา

68.2% พื้นที่ใต้กราฟ +-SD1
95%
99.7%

Stat เพื่อ Best Decision
Sampling
Sample
Describe

Part 2
Descriptive Stat
1 mean median mode
2 SD VAR Rang IQR
2 position

Measures of Spread
SD standard deviation ค่าเบี่ยงเบนมาตรฐาน
VARIANCE ความเเปรปวน
Range พิสัย

STATE คือการบีบอัดข้อมูลที่เยอะๆ มาอยู่ใน sample ให้เป็น Single number คือ mean median mode จะใช้ตัวไหน อยู่ที่ค่ากระจายตัวแบบไหน และอยู่ที่ objective ที่จะวัด

var.p น้อยกว่า var.s
Report mean คู่กับ SD

Normal distribution

150 155 160 165 170 175 180
-3 -2 -1 +1 +2 +3
Empirical Rule of Normal Distribution
68% [160, 170]
95% [155, 175]
99.7% [150, 180]

Exam Score

Standard Normal Distribution

Z score
Z+ มากกว่าค่าเฉลี่ย
Z- น้อยกว่าค่าเฉลี่ย
Z=0 เท่ากับค่าเฉลี่ย

Normal (Raw)
Standard Normal (Z)

ค่าพื้นที่ใต้กราฟ Z คือทางซ้ายมือ

Measures of position
X = [Min to max]
Median ตัวที่แบ่งของข้อมูลเป็น 2 ฝั่งเท่ากัน
Percentile
P50 = Median

Quartile

P0 P25 P50 P75 P100
Q0 Q1 Q2 Q3 Q4
Min Median Max

IQR = Interquartile Range
Q3-Q1

สรุปสิ่งที่เรียนวันนี้
STAT
Sampling
Description ( Center , Spread , Position)
Compare
Normal Distribution
Z score

เพื่อนๆ อ่านแล้ว มีข้อคิดเห็นอย่างไร ช่วยบอกด้วยค่ะ

Leave a comment