ANALISIS DATA DENGAN STATA

STATA merupakan salah satu perangkat lunak komputer untuk mengolah dan menganalisis data. Bila dibandingkan dengan SPSS, salah satu kelemahan STATA (yang dirasakan oleh pemula) dalam pengolahan data adalah perintah atau command-nya harus di ketik dan dijalankan satu per satu, bila dibandingkan dengan SPSS yang perintahnya tinggal mengklik menunya saja. Tentunya STATA punya kelebihan dibanding perangkat komputer pengolah data yang lain, justru karena perintahnya harus diketik tersebut, maka hampir semua proses analysis statistik dapat dilakukan oleh STATA. Menu pada SPSS dibatasi pembuatannya hanya untuk analisis yang sering digunakan saja.

Kelebihan lainnya adalah STATA dapat juga digunakan untuk menganalisis data survey, yang biasanya pengambilan sampelnya tidak dilakukan secara acak sederhana (simple ramdom sampling), misalnya adanya pembagian strata dan pemilihan cluster atau blok atau wilayah cacah. Keterbatasan SPSS dan perangkat statistik lainnya adalah hanya berasumsi pada pengambilan sampel yang acak sederhana. Ketidaksesuaian antara disain sampel dengan metode analisis akan berakibat pada kesalahan pada hasil analisis, terutama kesalahan pada hasil estimasi interval dan uji hipotesis.

Pengolahan data hanya dapat dilakukan dengan STATA setelah file data diaktifkan. Hasil pengolahan data (output) dapat dimunculkan dilayar dan/atau disimpan ke dalam file tersendiri, yang mana file output atau hasil ini dapat diedit atau diprint dengan menggunakan program pengolah kata seperti MsWord atau WordPerfect.

Gunakan program STATA Intercooled

Langkah:

1.Aktifkan STATA Intercooled

Pilih File à Open à pilih direktory dan nama file yang akan dibuka à Open

2. Menyimpan file data



Dilakukan setelah proses pengolahan (transformasi) data selesai

à Gunakan ikon gambar disket (atau pilih File à Save à Pilih Directory)
à Kemudian Stata akan meminta Namafile

(Stata secara otomatis akan memberikan exstension .DTA)

3. Dilakukan sebelum proses pengolahan dan analysis data dimulai

à ketik perintah log using
LOG USING C:\directory\hasil.doc (file akan disimpan di directory C:\DIRECTORY
dengan nama file HASIL.DOC)

File HASIL yang berbentuk format ASCII dapat dibaca dengan semua program pengolah kata, misalnya MsWord. Dengan Windows Explorer, anda dapat langsung mendouble- klik file HASIL.DOC yang secara langsung akan dibuka oleh MsWord.

Transformasi data, pemberian variable label dan value label dapat dilakukan langsung dengan perintah stata, namun Jika anda belum terbiasa menggunakan STATA, maka perintah pada STATA dirasakan agak sulit dibandingkan dengan perintah pada SPSS, oleh karena itu disarankan anda tetap melakukan pengolahan & transformasi data dengan SPSS atau software lain yang anda kuasai, setelah data siap untuk dianalysis barulah data tersebut ditransfer ke format STATA.

Semua variabel label dan value label yang telah dibuat dengan SPSS atau software lainya akan tetap ada saat dilakukan transfer ke format STATA.

Setiap perintah di kotak Command harus diketik dengan huruf kecil (bukan KAPITAL)

Setiap perintah di kotak Command hanya bisa jalan setelah menekan tombol Enter

ANALISIS DATA PADA DESAIN SAMPEL SRS (Simple/Systematic Random Sampling)

Aktifkan file TNG.DTA

1. NILAI RATA-RATA, STD. DEVIASI, & 95% CI

à Gunakan perintah SUM dan CI

contoh: ketik perintah berikut di jendela command

SUM V01, d (menampilkan nilai mean, median, percentile, SD dari variabel umur ibu)

CI V01 (menampilkan 95% Confidence Interval dari mean umur ibu, sbb:)

Variable | Obs Mean Std. Err. [95% Conf. Interval]

———+————————————————————

v01 | 298 25.56376 .3344718 24.90552 26.22199

2. TABEL DISTRIBUSI FREKUENSI

à Gunakan perintah TAB1

contoh:

TAB1 V09a V09b V09c (menampilkan frekuensi pada pemeriksaan kehamilan dilakukan PENIMBANGAN, IMUNISASI-TT, TABLET-FE)

V09b | Freq. Percent Cum.

————+———————————-

Ya | 235 90.73 90.73

Tidak | 24 9.27 100.00

————+———————————-

Total | 259 100.00

3. TABEL SILANG DAN UJI X2

à Gunakan perintah TAB diikuti 2 variabel yang akan disilang, setelah koma

kemudian CHI (X2), EXACT (Fisher exact test), ROW (persen baris), COL (%kolom)

contoh:

TAB tab v04 v13, row chi exact (Tabel silang antara pemeriksaan kehamilan dg status penimbangan bayi saat lahir, % row, hitung chi-square, hitung Fisher’s exaxt test)

| Bayi Ditimbang saat

Periksa | Persalinan

Kehamilan | Ya Tidak | Total

———–+———————+———

Ya | 168 105 | 273

| 61.54 38.46 | 100.00

———–+———————+———

Tidak | 4 21 | 25

| 16.00 84.00 | 100.00

———–+———————+———

Total | 172 126 | 298

| 57.72 42.28 | 100.00

Pearson chi2(1) = 19.4615 Pr = 0.000

Fisher’s exact = 0.000

1-sided Fisher’s exact = 0.000

ANALISIS DATA PADA DESAIN SAMPEL BUKAN-SRS
(Stratifikasi, Cluster, atau Multistages)

1. MEMBERI DESKRIPSI DESAIN SAMPEL KEPADA STATA (Perintah wajib)

à Gunakan perintah SVYSET (stata ver 6.0+)

contoh:

svyset, strata (strata) (Set strata adalah variabel strata)

svyset, psu (psu) (Set PSU adalah variabel psu)

svyset [pweight = bobot] (Set Weight adalah variabel bobot)

atau sekaligus:

svyset [pweight = bobot], strata (strata) psu (psu)

svyset, clear (all) (Menghapus deskripsi sampel)

Catatan:Semua perintah stata diketik dengan huruf kecil (small letter)

Kasus data TNG.DTA adalah hasil survey cepat dengan metode sampling cluster 2 tahap. Tahap pertama memilih cluster/desa secara pps dan tahap kedua memilih 7—10 rumah tangga per cluster. (PSU adalah cluster, strata dan bobot tidak ada).

PSU=Primary Sampling Unit/Unit sampel yang pertamakali dipilih secara acak

Deskripsikan desain sampel kepada program STATA sbb:

SVYSET PSU klaster (Set PSU adalah variabel klaster)

2. NILAI RATA-RATA, SE, & 95% CI

à Gunakan perintah SVYMEAN

contoh:

SVYMEAN V01 (Keluarkan 95% CI dari umur ibu, disain sampel cluster)

pweight: <none> Number of obs = 298

Strata: <one> Number of strata = 1

PSU: klaster Number of PSUs = 28

Population size = 298

——————————————————————————

Mean | Estimate Std. Err. [95% Conf. Interval] Deff

———+——————————————————————-

v01 | 25.56376 .340003 24.86613 26.26139 1.033348

——————————————————————————

Bandingkan 95% CI yang didapat dari disain sampel cluster yang memperhitungkan pengaruh dari disain (24.86613 — 26.26139) dengan tanpa memperhitungkan disainnya (24.90552 — 26.22199), mana yang lebih lebar CI-nya? Mengapa CI-nya lebih lebar?

3. NILAI PROPORSI, SE, & 95% CI

à Gunakan perintah SVYPROP

contoh:

SVYPROP V03

Perhitungan 95% CI dilakukan secara manual, 95% CI = p + 1.96 * SE

——————————————————————————

pweight: <none> Number of obs = 259

Strata: <one> Number of strata = 1

PSU: klaster Number of PSUs = 28

Population size = 259

——————————————————————————

Survey proportions estimation

v09b _Obs _EstProp _StdErr

Ya 235 0.907336 0.021016

Tidak 24 0.092664 0.021016

95% CI dihitung manual, = Proporsi + 1.965 * SE = ….?

4. DESKRIPSI DISAIN SURVEY NASIONAL PADA PROGRAM STATA

Kasus data SKRT 1995:

Desain sampel multistages. Pada tingkat kabupaten/kota dilakukan pemilihan sampel secara 3 tahap. Tahap pertama dipilih wilcah secara sistematik random sampling

Tahap kedua dipilih segmen secara pps

Tahap ketiga dipilih 16 rumah tangga secara sistematik di tiap segmen

Deskripsi desain sampel pada program STATA untuk tingkat propinsi:

à Kabupaten/kota adalah STRATIFIKASI, Wilcah adalah unit sampel pertama yang dipilih secara random (PSU), Variabel INWEIGHT harus dibuat yang merupakan proporsi jumlah sampel di tiap strata (kab/kota) dengan jumlah penduduk di kab/kota tersebut.

VARSET STRATA kabupaten

VARSET PSU wilcah

VARSET PWEIGHT inweight

Deskripsi desain sampel pada program STATA untuk tingkat nasional:

VARSET STRATA prop + kabupaten (perlu dibuat variabel baru)

VARSET PSU wilcah

VARSET PWEIGHT inweight

LATIHAN: GUNAKAN FILE TNG.DTA

1.

Berapa cakupan pemeriksaan kehamilan, SE dan 95% confidence interval

2.

Dari ibu semua ibu, berapa persen yang periksa hamil 4 kali atau lebih, SE, dan 95% CI

3.

Berapa rata-rata berat badan bayi lahir di kabupaten Tangerang, 95% confidence interval, dan berapa design effectnya ?

4.

Berapa prevalensi BBLR (berat lahir<2500 gr), SE, dan 95% confidence interval

REGRESI LOGISTIK PADA PROGRAM STATA

Sebelum melakukan analysis data dengan program STATA, terlebih dahulu harus dilakukan transformasi data untuk membuat variabel baru (Generate) atau melakukan pengkodean ulang (RECODE).

Analysis dengan STATA akan lebih mudah apabila variabel diberi KODE, yangmana kode tersebut diawali dengan angka 0 (nol). Misalnya untuk variabel dependen, kode = 0 (tidak ada outcome/sehat) dan kode = 1 (sakit).

Begitu juga untuk variabel independen, kode = 0 (tidak berisiko/proteksi), kode = 1 (risiko sedang), dan kode = 2 (risiko tinggi). Secara otomatis STATA akan memperlakukan kode terendah sebagai kelompok pembanding (reference category). Ingat, sebaliknya dengan SPSS yang selalu memperlakukan kode tertinggi sebagai kelompok pembanding, kecuali dirobah reference category-nya.

1. Data dengan metode sampel acak sederhana/sistematik:

Perintah STATA:

à logit DEPVAR INDEPVAR1 INDEPVAR2 . . . dst

(Perintah ini akan menghasilkan koefisien B regresi logistik)

à logistic DEPVAR INDEPVAR1 INDEPVAR2 . . . dst

(Perintah ini akan menghasilkan Odds Ratio (Exp-B) regresi logistik)

à logistic DEPVAR INDEPVAR1 INDEPVAR2 INDEPVAR1*INDEPVAR2

(Perintah ini akan menghasilkan Odds Ratio (Exp-B) regresi logistik, termasuk melihat uji interaksi antara independen-1 dengan independen-2)

à xi:logistic DEPVAR i.INDEPVAR1 INDEPVAR2

(Perintah ini dilakukan jika ada variabel independen (INDEPVAR1) yang memiliki lebih dari 2 kategori)

à xi:logistic DEPVAR i.INDEPVAR1 INDEPVAR2 i.INDEPVAR1*INDEPVAR2

(Perintah ini dilakukan jika ada variabel independen (INDEPVAR1) yang memiliki lebih dari 2 kategori, dan mendeteksi apakah ada interaksi atau tidak)

2. Data dengan metode sampel bukan acak sederhana/sistematik:

Perintah STATA:

  1. Perintah Deskripsi Disain Survey (STRATA, PSU, PWEIGHT)
  2. Perintah Regresi Logistik:

à svylogit DEPVAR INDEPVAR1 INDEPVAR2 . . . , or

(Perintah ini akan menghasilkan koefisien B regresi logistik)

à svylogistic DEPVAR INDEPVAR1 INDEPVAR2 . . . , or

(Perintah ini akan menghasilkan Odds Ratio (Exp-B) regresi logistik)

à svylogistic DEPVAR INDEPVAR1 INDEPVAR2 INDEPVAR1*INDEPVAR2, or

(Perintah ini akan menghasilkan Odds Ratio (Exp-B) regresi logistik, termasuk melihat uji interaksi antara independen-1 dengan independen-2)

Contoh:

Dari file TNG.DTA, buat variabel baru sbb:

Timbang “Bayi ditimbang setelah lahir” 1 = Ya, 0 = Tdk

K4 “Periksa hamil 4+ kali 1 = Ya, 0 = Tdk

Salin “Persalinan oleh nakes“ 1 = Ya, 0 = Tdk

gen timbang= v13

recode timbang 2=0

label value timbang timbang

label define timbang 1 “Ditimbang” 0 “Tdk ditimbang”

gen k4= v05

recode k4 1/3=0 4/81=1

lab val k4 k4

lab def k4 1 “4+” 0 “<4 kali”

gen salin=v11

recode salin 1/2=0 3/4=1 5/6=0

lab value salin salin

lab def salin 1 “Nakes” 0 “Non nakes”

3. ANALYSIS TANPA MEMPERHITUNGKAN SAMPEL CLUSTER

. logistic timbang k4

Logit estimates Number of obs = 298

LR chi2(1) = 42.74

Prob > chi2 = 0.0000

Log likelihood = -181.62356 Pseudo R2 = 0.1053

——————————————————————————

timbang | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

———+——————————————————————–

k4 | 5.332592 1.423887 6.269 0.000 3.159759 8.99959

——————————————————————————

. logistic timbang salin

Logit estimates Number of obs = 298

LR chi2(1) = 109.01

Prob > chi2 = 0.0000

Log likelihood = -148.48859 Pseudo R2 = 0.2685

——————————————————————————

timbang | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

———+——————————————————————–

salin | 18.49091 6.202069 8.698 0.000 9.58198 35.68299

——————————————————————————

. logistic timbang k4 salin

Logit estimates Number of obs = 298

LR chi2(2) = 121.81

Prob > chi2 = 0.0000

Log likelihood = -142.08958 Pseudo R2 = 0.3000

——————————————————————————

timbang | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

———+——————————————————————–

k4 | 2.991117 .9263974 3.538 0.000 1.630056 5.488635

salin | 14.27612 4.895484 7.753 0.000 7.289895 27.95756

——————————————————————————

4. ANALYSIS DENGAN MEMPERHITUNGKAN SAMPEL CLUSTER

. svyset psu klaster

. svylogit timbang k4, or

Survey logistic regression

pweight: <none> Number of obs = 298

Strata: <one> Number of strata = 1

PSU: klaster Number of PSUs = 28

Population size = 298

F( 1, 27) = 24.76

Prob > F = 0.0000

——————————————————————————

timbang | Odds Ratio Std. Err. t P>|t| [95% Conf. Interval]

———+——————————————————————–

k4 | 5.332592 1.793679 4.976 0.000 2.674281 10.63334

——————————————————————————

. svylogit timbang salin, or

Survey logistic regression

pweight: <none> Number of obs = 298

Strata: <one> Number of strata = 1

PSU: klaster Number of PSUs = 28

Population size = 298

F( 1, 27) = 69.17

Prob > F = 0.0000

——————————————————————————

timbang | Odds Ratio Std. Err. t P>|t| [95% Conf. Interval]

———+——————————————————————–

salin | 18.49091 6.486169 8.317 0.000 9.002894 37.9782

——————————————————————————

. svylogit timbang k4 salin, or

Survey logistic regression

pweight: <none> Number of obs = 298

Strata: <one> Number of strata = 1

PSU: klaster Number of PSUs = 28

Population size = 298

F( 2, 26) = 33.42

Prob > F = 0.0000

——————————————————————————

timbang | Odds Ratio Std. Err. t P>|t| [95% Conf. Interval]

———+——————————————————————–

k4 | 2.991117 1.115364 2.938 0.007 1.391713 6.428612

salin | 14.27612 4.712368 8.054 0.000 7.252202 28.10287

——————————————————————————

Perbedaan utama yang terlihat adalah nilai Std. Error pada metode LOGIT lebih kecil daripada nilai seharusnya dengan metode SVYLOGIT, artinya nilai SE pada perintah logit adalah under-estimate dari nilai yang seharusnya.

Padahal, Std. Error akan digunakan sebagai dasar dalam statistik inferens, baik itu estimasi interval maupun perhitungan nilai sig. Sehingga penggunaan LOGIT tidak valid pada metode sample yang bukan simple/systematic random sampling.

CATATAN : PENGOLAHAN DATA DIATAS ADALAH MENGGUNAKAN STATA VERSI 6.0.SETIAP VERSI MEMPUNYAI PERINTAH YANG AGAK SEDIKIT BERBEDA.

UNTUK MENGETAHUI PERINTAH KITA BISA KETIK PERINTAH HELP SPASI APA YANG INGIN KITA CARI.MISAL : help svy………enter.

Berikut saya lampirkan link YouTube belajar praktis STATA:https://m.youtube.com/watch?v=NTNW06GKtu0&amp;feature=youtu.be

0 thoughts on “ANALISIS DATA DENGAN STATA

  1. Pak, saya mau meneliti mengenai financial distress terhadap perusahaan dengan model Neural Network dan Trait Recognition. Apakah STATA bisa digunakan ?, trus cara pengolahan datanya gimana pak, data apa saja yang harus saya kumpulkan, dan-lain-lain.

  2. saya mau meneliti hubungan harga saham antar negara.menggunakan unit root test dan cointegration test.kalau pake STATA bisa nggak?lebih mudah pake STATA atau eviews?terimakasih

  3. Sori ni mas….

    Mo nanya STATA sendiri akronim dari apa ya? karena saya cari di search engine agak susah…

    ditunggu jawabannya karena amat saya butuhkan…

    Thanks a lot.

  4. dear mas mirza tawi,

    saya masih termasuk baru dalam penggunaan stata (karena wajib digunakan)hehehe…biasanya pake spss….mungkin mas bisa rekomendasikan buku panduan yang mudah dalam penggunaan stata..
    pusing saya dengan program analisis data ini (stata), maklum masih pengenaan
    saat ini kami menggunakan stata 9..

    terima kasih mas..

  5. salam kenal mas, sy fauzi, mau tanya niy, bedanya fweight, aweight, dan pweight pada stata itu apa ya? trus contoh penggunaannya seperti apa?

  6. DEAR COLLEAGUES AND FRIENDS,

    SAYA INGIN MENGINFORMASIKAN BAHWA TELAH TERBIT BUKU BARU YANG BERJUDUL “APLIKASI ANALISIS DATA STATISTIK UNTUK ILMU SOSIAL SAINS DENGAN STATA” BUKU INI TERDIRI DARI DUA VOLUME, YAITU UNTUK VOLUME 1 MEMBAHAS TENTANG ANALISIS UNIVARIAT, MULTIVARIAT, PARAMETRIK DAN NON-PARAMETRIK SERTA SAMPLING, POPULASI, VALIDITAS, RELIABILITAS DAN SEBAGAINYA (BUKUNYA SUDAH TERBIT SAAT INI DAN DAFTAR ISINYA DAPAT DILIHAT PADA ATTACH FILE) DAN VOLUME 2 AKAN MEMBAHAS TENTANG SEM, BAYESIAN DAN MULTILEVEL MODELING (SEDANG DI PROSES). BAGI YANG BELUM MENGENAL PROGRAM STATA, PERLU DIKETAHUI BAHWA STATA MERUPAKAN PROGRAM STATISTIK YANG SANGAT LENGKAP DAN POWERFUL. MENGAPA? KARENA SELAIN MENYEDIAKAN FITUR ANALISIS MULTIVARIAT YANG KOMPLIT, STATA JUGA DAPAT DIGUNAKAN UNTUK SEM, BAYESIAN, MULTILEVEL MODELING DAN BAHKAN FITUR TIME-SERIES NYA ITU SERUPA DENGAN EVIEWS. STATA JUGA SUDAH TERINTEGRASI DENGAN R PEKCAGES DAN MEMPUNYAI TAMPILAN GRAFIK YANG LUAR BIASA. BUKU INI DITULIS DENGAN TUJUAN UNTUK MENGISI KEKOSONGAN LITERATUR BUKU STATA YANG ADA DI INDOENSIA DAN DILUAR NEGERI PROGRAM STATA SANGAT POPULAR DIGUNAKAN DI BERBAGAI UNIVERSITAS TERNAMA. ISI DARI BUKU INI JUGA SUDAH DIBUAT DENGAN STANDAR KUALITAS YANG TINGGI SEHINGGA DIHARAPKAN DAPAT MENJADI PEGANGAN BAGI PARA PENELITI, MAHASISWA MAUPUN DOSEN PENGAMPU MATA KULIAH STATISTIK. TUNGGU APA LAGI UNTUK MEMILIKI BUKU INI? SEGERA HUBUNGI hengkylatan@yahoo.com. Thanks

  7. Mohon sared diskusinya apakah ada syntax khusus untuk mengenerate inflate pada Subset Data hasil penelitian survei jika diketahui telah ada weight nya?, Dimana weight adalah inflate yang dibagi dengan rata-rata inflate. Di dalam stata, nilai bagi tersebut sudah dilakukan dengan perintah pweight, oleh karena itu bobot yang digunakan inflate.

  8. Mohon share syntax untuk analisis multi level degan 2 dan 3 level pak. Dan bagaimana perintah untuk uji random intercept dan random koefisien pak ? Terimakasih.

Leave a Reply

Your email address will not be published. Required fields are marked *