Statistika Dalam Dunia Data (Vol. 1.1) : Pengertian dan Fundamental Statistika
Memahami pentingnya pendekatan statistika dalam dunia data dan analisis secara fundamental, seperti pengertian statistika dan komponen dasar ilmu statistika
Pengantar
Melihat meningkatnya animo masyarakat (terutama di Indonesia) dalam meminati hal-hal yang berkaitan tentang data, baik berdasarkan sudut pandang Data Analyst, Data Science, dan Business Intelligence, saya merasa ingin berbagi sekaligus belajar bersama dengan teman-teman pembaca terkait hal-hal yang berkaitan dengan ilmu data dan analisis. Saya tidak menempatkan diri saya sebagai orang yang sangat professional dan sangat expertise di bidang data, namun berbagi pengalaman dan pembelajaran menurut saya merupakan suatu kesenangan dan kewajiban bagi saya sebagai penuntut ilmu, dengan alasan itu juga kedepannya saya akan menulis banyak artikel tentang ilmu data menggunakan Bahasa Indonesia agar lebih mudah dipahami dan dimengerti oleh temen-temen yang baru belajar atau belum terlalu mengerti Bahasa Inggris. Semoga dengan tulisan dan artikel saya kedepannya dapat membantu teman-teman semua untuk belajar dan juga melihat sisi menarik dari dunia data.
Mengapa Statistika
Mungkin bagi sebagian orang susah untuk berdamai dengan dunia hitung-hitungan (hehe), namun tak dapat di pungkiri bahwa mayoritas data yang akan kita temui nantinya merupakan data numerik atau data yang berwujud angka. Salah satu contohnya ketika kita ingin memproses data gambar, Machine Learning akan memproses data gambar tersebut menjadi beberapa bagian (pixel) yang berisi beberapa matrix yang berisi angka numerik. Jadi pemahaman dalam mengkalkulasikan angka numerik menjadi sangat penting dalam ilmu data dan analisis, termasuk penerapan ilmu statistika itu sendiri.
Bidang Penerapan Statistika
berbicara tentang bidang, hampir semua bidang yang melibatkan data pasti melibatkan statistik, entah itu statistika dasar maupun statistika terapan. sebagai contoh, mungkin teman-teman cukup familiar dengan bidang Data Analyst, Big Data Analytics, dan Data Science, namun diluar bidang itu ada bidang yang saya yakin cukup asing bagi teman-teman, yaitu bidang Geographic Information System atau disingkat GIS. GIS sendiri merupakan sebuah sistem informasi pemetaan yang digunakan untuk mengolah, menganalisis dan menghasilkan data bereferensi geografis sebagai pendukung pengambilan keputusan dalam perencanaan dan pengelolaan penggunaan lahan, sumber daya alam, lingkungan, transportasi, fasilitas kota, dan pelayanan umum lainnya. Contoh bentuk penerapannya adalah dengan menggunakan nilai “Mean” untuk merepresentasikan ketinggian ketinggian suatu wilayah.
Definisi Statistika
Statistika sendiri merupakan bentuk interpretasi keilmuan yang mencakup pengumpulan, pengelolaan, analisis dan interpretasi suatu data dengan tujuan pengambilan suatu keputusan. Dalam statistika sendiri, bentuk data atau dataset dibagi menjadi 2, yaitu :
- Data Populasi
- Data Sampel
Data Populasi sendiri merupakan data berdasarkan hasil pengumpulan keseluruhan pengamatan, perhitungan, dan pengkuran dari suatu penelitian. Sedangkan Data Sampel merupakan data bagian dari Data Populasi atau data yang merepresentasikan Data Populasi secara keseluruhan.
Berikut ilustrasi gambar terkait data populasi dan data sampel :
Ruang Lingkup Statistika
Dalam statistika, terdapat beberapa ruang lingkup atau macam-macam jenis statistika berdasarkan fokus implementasinya. Seacara umum, jenis ilmu statistika sendiri di bagi menjadi 2 bagian, yaitu :
- Statistika Deskriptif
- Statistika Inferensial
Statistika Deskriptif merupakan jenis ilmu statistika yang memiliki fokus pengimplementasian terhadap pengolahan data, peringkasan data, visualisasi data, dan interpretasi data
Contohnya :
Berdasarkan data sampel yang di peroleh dari hasil penelitian, didapati hasil bahwa persentase jumlah kepuasan di desa penari meningkat sebanyak 20% dari tahun kemarin terhadap kinerja kepala desa periode 2021–2022.
Statistika Inferensial merupakan jenis ilmu statistika yang memiliki fokus terhadap pemanfaatan data sampel dalam merepresentasikan data populasi untuk menarik suatu kesimpulan.
Contohnya :
Sejumlah pemuda dengan umur 25 di desa penari dilibatkan dalam suatu penelitian selama 1 tahun, dan hasilnya adalah 20% pemuda yang merantau berpotensi memiliki gaji diatas UMR (2.4 Juta) di umur 30 tahun dan 80% pemuda yang tidak merantau memiliki gaji dibawah UMR di umur 30 tahun.
Tipe Data dalam Statistika
Secara umum, jenis data dalam statistika itu terbagi menjadi 2 dengan masing-masing jenis data memiliki masing-masing 2 skala pengukuran atau Level of Measurement, yaitu :
- Data Kualitatif
- Data Kuantitatif
Data Kualitatif merupakan data yang bersifat non-numerik atau dengan kata lain data yang mengandung huruf, contoh : Nama, Alamat, dll. Dalam data kualitatif terdapat 2 skala pengukuran, yaitu :
- Nominal
- Ordinal
Data Kuantitatif merupakan data yang bersifat numerik, contoh : harga, umur, dll. Dalam data kuantitatif memiliki 2 skala pengukuran, yaitu :
- Interval
- Rasio
Lebih Dalam Mengenal Skala Pengukuran (Level of Measurement)
Di sub-bab sebelumnya, saya telah menyinggung terkait “Skala Pengukuran”, dan di bab ini kita bakal belajar jauh lebih dalam terkait skala pengukuran. Dalam statistika sendiri terdapat 4 skala pengukuran, yaitu skala pengukuran nominal, ordinal, interval, dan rasio. Kita bakal bahas masing-masing ya.
Skala Nominal
Skala nominal sendiri berasosiasi dengan tipe data kualitatif, oleh karena itu skala pengukuran nominal tidak dapat di aplikasikan dengan operasi matematika. Skala nominal sendiri berfokus terhadap pengelompokan dan pengkategorian data tanpa struktur atau peringkat. Contoh : nama, NIM (Nomer Induk Mahasiswa), nama kota.
Skala Ordinal
Skala ordinal juga berasosiasi dengan jenis data kualitatif, dan juga skala pengukuran ordinal ini tidak dapat diaplikasikan dengan operasi matematika. Namun skala nominal merupakan skala pengelompokan data yang dapat dilakukan strukturisasi urutan, rangking, atau peringkat. Contoh : rangking kelas, tingkat kepuasan customer (bagus, cukup, jelek, sangat jelek)
Skala Interval
Skala interval ini berasosiasi dengan jenis data kuantitatif, dan juga dapat dilakukan pengelompokan data yang dapat dilakukan pengurutan. Karena skala ini berasosiasi dengan jenis data kuantitatif, maka skala ini dapat di aplikasikan dengan operasi matematika akan tetapi hanya untuk menghitung selisih nilai dan tidak dapat dilakukan operasi perkalian dan pembagian. Yang terpenting adalah skala interval tidak memiliki nol (0) yang nilainya absolut. Mungkin temen-temen agak bingung, tapi mari saya kasih contoh.
Contoh 1 : Tahun 2022 (tahun 2022 hanya merepresentasikan skala ukur saja, bukan berarti tahun 0 adalah tahun terbentuknya dunia)
Contoh 2 : Suhu udara 32 derajat celcius (bukan berarti suhu 0 derajat celcius tidak memiliki udara)
Skala Rasio
Skala rasio juga hampir sama dengan skala interval, sama-sama berasosiasi dengan jenis data kuantitatif, data yang dikelompokkan juga dapat disusun secara peringkat atau urutan, dan juga dapat aplikasikan operasi matematika. Tetapi yang membedakan dengan skala interval adalah skala rasio dapat diaplikasikan operasi matematika, khususnya perkalian dan pembagian serta skala rasio memiliki nilai nol (0) yang absolut. Untuk lebih jelasnya, perhatikan contoh di bawah.
Contoh 1 : Umur 22 tahun (umur 22 tahun menandakan bahwa orang tersebut berumur 22 tahun, umur 0 tahun artinya orang tersebut belum memiliki umur a.k.a orang tersebut benar-benar belum lahir)
Contoh 2 : Harga baju Rp. 400.000 (harga 400.000 pada baju menandakan value harga pada baju tersebut, namun harga 0 pada baju menandakan baju tersebut tidak memiliki harga a.k.a gratis)
Penutup
Dari semua hal yang sudah di bahas diatas, teman-teman sudah belajar dasar dari statistika itu sendiri. Mungkin teman-teman bertanya “ini mah dasar banget”, “emang materi beginian di pakek ya, kan dasar banget”. Believe me guys, materi dasar seperti yang saya bahas itu di perlukan. Contoh dalam bidang Data Science atau pengimplementasian Machine Learning kita pasti melakukan Data Pre-processing sebelum data tersebut diimplementasikan ke dalam model Machine Learning, dan dalam tahap data pre-processing, kita akan melakukan transformasi data dari data kategori (categorical data) ke data numerik (numerical data) dan metode yang paling sering digunakan adalah metode Categorical Encoding untuk meningkatkan performa model Machine Learning kita. Data kategori yang akan kita transformasikan pasti ada dua tipe, entah itu data ordinal atau data nominal, dan bentuk implementasi nya bergantung pada 2 jenis data kategori tersebut. Contoh ketika kita ingin mentransformasikan kolom yang data kategori nya berjenis data ordinal atau datanya berurutan, seperti data tingkat kepuasan customer (baik, cukup, buruk, dan sangat buruk) maka kita dapat menggunakan metode Label Encoding, dan untuk melakukan transformasi data pada kolom yang memiliki data kategori yang bersifat non-ordinal atau nominal, seperti nama negara (indonesia, singapura, dll), maka kita menggunakan metode One-hot Encoding.
Tambahan
Kedepannya saya mungkin bakal lebih membahas materi fundamental, seperti statistika, secara tuntas. Jika sudah materi fundamental selesai, kita bisa pindah ke materi lain yang lebih advance dari segi pengimplementasian di dunia data.
Jika ingin mengenal saya lebih jauh atau ingin berdiskusi dan belajar bareng tentang data, bisa mampir di LinkdeIn saya. Jangan sungkan perihal bertanya, disini kita sama-sama masih belajar jadi kita bisa belajar dan diskusi bareng-bareng.
Terima kasih teman-teman, see you!