Assignment 7: Tugas Big Data Social Network Analysis

SOCIAL NETWORK ANALYSIS

Business Understanding

  1. Untuk mengetahui tingkat kepadatan jaringan dalam akun twitter Zalora
  2. Untuk mengetahui diameter pada jaringan dalam akun twitter Zalora
  3. Untuk mengetahui keyplayers dalam jaringan Zalora
  4. Untuk mengetahui nodes yang menjadi perantara dalam jaringan Zalora.

Langkah-langkah:

  1. Mengambil data mengenai Zalora yang diambil dengan menggunakan twitter, lalu mengcrawling data tersebut dengan mengggunakan RStudio.

  1. Setelah mengcrawling data, selanjutnya mengcleaning data dengan menggunakan Rapid  Minner dan Excel.

  1. Setelah mengcleaning, data divisualisasikan dengan menggunakan aplikas Gephi. Adapun hasil visualiasasinya sebaga berikut:

Hasil visualisasi diatas, dapat ditemukan:

  1. Jaringan Zalora memiliki Average Degree sebesar 0,888.
  2. Jaringan Zalora memiliki network diameter, yaitu jarak terjauh terhadap jaringan sebesar 3.
  3. Jaringan Zalora memiliki kepadatan nodes satu dengan nodes yang lainnya sebesar 0,003. Itu artinya kepadatan jaringan Zalora tidak terlalu kuat.

Dari hasil Visualisasi diatas pun, didapatkan:

  • Terdapat lebih dari 1 nodes yang memiliki nilai closeness centrality sebesar 1,0. Itu artinya banyak akun yang menjadi keyplayers dalam jaringan Zalora.

  • Dari hasil diatas. Dapat diketahui pula bahwa betwenness, yaitu perantara yang menghubungan antar nodes dalam penyebaran informasi dalam jaringan Zalora adalah akun Zalora Malaysia.

Assignment 6: Linear Regression menggunakan Repid Miner Studio

LINEAR REGRESSION

Kali ini saya akan melakukan analisis prediksi volume penjualan yang didasarkan biaya promosinya dengan meggunakan metode linear regression dengan Rapid Miner sebagai softwarenya.

Langkah yang harus dilakukan adalah:

  1. Langkah pertama adalah membuat data set menggunakan Microsoft excel.

excel nada

  1. Langkah kedua adalah membuat serta menyusun sebuah model.

nadasatu

nadatiga

  1. Untuk melakukan model prediksi, langkah selanjutnya adalah dengan menghapus nilai yang ada pada volume penjualan, untuk mengetahui prediksi volume penjualan berdasarkan model regresi yang telah dibuat.

nadaenam

  1. Maka hasil prediksinya akan terlihat seperti gambar dibawah ini:

nadaempat

  1. Hasil visualisasi datanya pun akan seperti gambar dibawah ini:

nadalima

KESIMPULAN:

Model regresi bisa membantu kita untuk melakukan prediksi suatu keadaan atau suatu variable tertentu, dengan melihat variable atau factor yang mempengaruhinya.

Sumber:

http://duwiconsultant.blogspot.co.id/2011/11/analisis-regresi-linier-sederhana.html

 

Assignment 4 (part 2): Model Klasifikasi Algoritma

MODEL KLASIFIKASI ALGORTIMA:

Selain Decision tree, model klasifikasi algortima memiliki beberapa model, yaitu:

  1. Algoritma K-Nearest Neighbor

Algoritma k-nearest neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. KNN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikasi berdasarkan mayoritas dari kategori pada KNN. Nanti kelas yang paling banyak muncullah yang akan menajdi kelas hasil klasifikasi.

Tujuan dari algoritma ini adalah, mengklasifikasi objek baru berdasarkan atribut dan training sample. Classifier tidak menggunakan model apapun untuk di cocokkan dan hanya berdasarkan pada memori.

Algoritma metode k-nearest neighbor sangatlah sederhana. Bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya.

  1. Algoritma Naive Bayes

merupakan sebuah metoda klasifikasi menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian.

  1. Artificial Neural Network (ANN)

Artificial Neural Network (ANN) merupakan cabang ilmu multi disiplin yang meniru cara kerja otak makhluk hidup. Salah satu struktur yang ditiru adalah bentuk neuralnya. Jaringan syaraf tiruan dapat menyelesaikan rumit/tidak mungkin jika diselesaikan dengan menggunakan komputasi secara konvensional.

Fungsi dari Neural Network diantaranya adalah:

  1. Pengklasifikasian pola
  2. Memetakan pola yang didapat dari input ke dalam pola baru pada output
  3. Penyimpan pola yang akan dipanggil kembali
  4. Memetakan pola-pola yang sejenis
  5. Pengoptimasi permasalahan
  6. Prediksi
  1. Support Vector Machine
    (SVM ) juga dikenal sebagai teknik pembelajaran mesin (machine learning) paling mutakhir setelah pembelajaran mesin sebelumnya yang dikenal sebagai Neural Network ( NN). Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajaran dilakukan dengan menggunakan pasangan data input dan data output berupa sasaran yang diinginkan. Pembelajaran dengan cara ini disebut dengan pembelajaran terarah (supervised learning). Dengan pembelajaran terarah ini akan diperoleh fungsi yang menggambarkan bentuk ketergantungan input danoutputnya. Selanjutnya, diharapkan fungsi yang diperoleh mempunyai kemampuan generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat digunakan untuk data input di luar data pembelajaran.

Sumber:

https://informatikalogi.com/algoritma-naive-bayes/

http://www.metode-algoritma.com/2013/06/artificial-neural-network-ann-jaringan.html

http://wayanwidhiblogspotcom.blogspot.co.id/2011/10/pengertian-pola-svm-dan-contohnya_23.html

https://www.scribd.com/doc/57208138/Metode-Algoritma-KNN

 

Assignment 4 (part1 ): Decision tree menggunakan algoritma C4.5

DECISION TREE MENGGUNAKAN ALGORITMA C4.5

Langkah-langkah membuat Decision tree menggunakan algoritma C4.5:

  1. Drag e-reader adoption training dan e-reader adoption scoring ke dalam rapid miner studio.
  1. Drag operator set role sebanyak 3 kali dan hubungkan set role 1 dan set role 2 setelah dataset e-reader adoption training, dan set role 3 dihubungkan dengan e-reader adoption scoring.
  1. Drag operator decision tree, lalu hubungkan dengan set role 2.
  1. Drag operator apply model, dan hubungkan dengan decision tree, juga dengan set role 3 seperti susunan konfigurasi pada gambar dibawah ini:

c

  1. Klik pada operator set role 1, pilih target user_ID dan kriteria ID, lalu menambahkan entry e-reader adoption dengan kriteria label, lakukan langkah yang sama pada set role 2 dan 3.
  1. Klik dua kali pada operator decision tree dan pilih information gain pada kolom criterion.
  2. Hubungkan apply model dengan titik akhir test dan result.
  1. Klik tombol play, dan tunggu sampai muncul hasil dari decision tree seperti gambar dibawah ini:

big data

ANALISIS:

Dari dataset e-reader adoption training dan scoring, saya menggunakan algoritma C4.5 karena, model decision tree lebih simple dan lebih mudah diinterpretasikan. Serta tersedia script dari deskripsi decision tree tersebut, seperti gambar dibawah ini:

a

Adapun visualisasi hasil dari klasifikasinya, menggunakan diagram cluster adalah sebagai berikut:

b

KESIMPULAN:

Berdasarkan analisis di atas, dataset e-reader adoption training dan scoring cocok menggunakan algoritma C4.5, karena jumlah variable dalam dataset tersebut tidak terlalu banyak, sehingga pemodelan data tidak terlalu kompleks. Hal tersebut menjadikan model decision tree dengan algoritma C4.5 dapat menghasilkan decision tree yang mudah di interpretsaikan dengan model yang simple (information gain).

 

 

 

 

 

Assignment 3: Prediksi Elektabilitas menggunakan Data Training

PREDIKSI ELEKTABILITAS MENGGUNAKAN DATA TRAINING

Apa itu machine learning? Machine Learning adalah ilmu cabang dari kecerdasan buatan yang mempelajari bagaimana caranya belajar dari data. Istilah Machine Learning sendiri cukup membingungkan, karena hampir tidak berhubungan dengan mesin apapun. Mesin disini merujuk kepada algoritma atau program yang berjalan di komputer.

Berbicara mengenai machine learning, saya akan menjelaskan sedikit mengenai machin learning, yaitu analisis dari impementasi machine learning, mengenai prediksi elektabilitas dengan data training menggunakan decision tree, naive bayes, dan k-nearest neighbor, dengan tahap-tahap sebagai berikut:

  1. Tahap awal saya menggunakan aplikasi orange unuk memprediksi data yang ada yaitu pemilukpu.xls.
  2. Meyusun widget apa saja yang terlibat, dan dimasukan kedalam software yang digunakan, yaitu orange.

no 2 pertama

Bisa dilihat dari gambar diatas, dengan widget yang ada, saya menggunakan random forest untuk desicion tree, naive bayes, dan KNN dengan proporsi data training 80%, dan dengan melakukan data training sebanyak 100 kali.

no 2 kedua

Dilihat dari hasil yang ada pada gambar diatas, algoritma KNN memiliki nilai akurasi yang paling tinggi, yaitu 0,913, diikuti dengan random forest dengan nilai akurasi 0,896, dan yang terakhir adalah naive bayes, dengan nilai akurasi 0,708.

  1. Menggunakan 10-fold x validation untuk melakukan data testing.

no 3 pertama

Dari gambar diatas, dengan melakukan x falidation sebanyak 10 fold, hasilnya akan muncul seperti dibawah ini:

no 3 one

no 3 two

no 3 three

Hasil dari menguji 10-fold x validation diatas, kita dapatkan bahwa dari segi akurasi yang kinerjanya paling baik adalah KNN dengan nilai akurasi paling tinggi, yaitu 0,911 dan dengan nilai AUC terendah, yaitu 0,885.

Hasil dari analisis diatas, dapat disimpulkan bahwa KNN memiliki kinerja yang paling baik, dan algoritma yang dipilih untuk memprediksi elektabilitas adalah algoritma KNN karena memiliki kinerja yang paling baik, dibandingkan dengan algoritma random forest yang memiliki nilai akurasi 0,904, serta nilai AUC 0,890, dan naive bayes dengan nilai akurasi 0,718 dan nilai AUC sebesar 0,893.

Sumber: https://mitbal.wordpress.com/2014/01/18/ml-apa-itu-machine-learning/

Assignment 2 (part 2): Analisis Data Pribadi dari Instagram

ANALISIS DATA PRIBADI

 LATAR BELAKANG

Di era globalisasi ini, social media menjadi sarana untuk menuangkan fikiran serta pengalaman yang dialami oleh seseorang. Pada zaman yang sudah serba digital ini, dimanapun dan kapanpun banyak orang yang membagikan pengalaman hidupnya untuk dilihat oleh orang lain dengan menggunakan teknologi, yaitu smartphone. Bahkan saat ini, dimanapun orang tidak akan terlepas dari telepon genggamnya atau yang sering kita bilang sebagai gadget. Contoh social media yang terus digunakan oleh banyak orang adalah instagram. Instagram bisa dikatakan menjadi social media yang pasti kebanyakan orang sering menggunakannya. Apalagi sekarang ini instagram sudah mengeluarkan fitur, yaitu instagram story, yang mana setiap orang bisa membagikan apa yang sedang dilakukannya pada saat itu, dan bisa dilihat oleh banyak orang. Instagram pada khususnya adalah tempat dimana kita membagikan foto-foto kita. Bisa juga sebagai sarana, dalam menyimpan kenangan berupa foto agar dapat dilihat dalam jangka waktu yang lama. Oleh karena itu, akan saya jelaskan, analisis mengenai data diri saya sendiri yang akan saya ambil dari instagram.

MASALAH

  1. Mengapa instagram sangat berpengaruh bagi diri saya untuk mengeskpresikan kehidupan saya?
  2. Mengapa saya lebih senang membagikan foto melalui instagram dibandingkan media social lainnya?

TUJUAN

  1. Untuk mengetahui jenis foto seperti apa yang sering saya bagikan
  2. Untuk mengetahui siapa saja yang saya ikuti untuk menjadi teman dalam instagram saya

ANALISIS

  1. Hasil analisis yang saya lakukan pertama kali adalah, seberapa banyak saya membagikan foto diri saya sendiri atau selfie, foto diri saya sendiri disuatu tempat, dan membagikan foto saya bersama kerabat, saudara, serta keluarga saya sendiri.
TEMA FOTO JUMLAH FOTO
Selfie 15
Bersama teman, saudara, keluarga 14
Disuatu tempat 8


1.1 tema foto yang saya bagian pada akun pribadi

foto instagram

Dilihat dari grafik diatas, saya lebih banyak membagikan foto selfie saya sendiri. Lalu saya juga senang membagikan foto kebersamaan, bersama kerabat saya, saudara, serta keluarga saya. Saya memang gemar berfoto, dan alasan saya mengapa saya tidak banyak membagikan foto kebersamaan, karena ketika saya bersama dengan orang-orang terdekat saya, saya merasa disaat sedang bersama, saya lebih menikmati momen kebersamaan itu, dan terkadang lupa untuk mengabadikannya dengan berfoto, meskipun itu memang penting, karena mengabadikan foto itu akan membuat kita mengenang apa yang sudah terjadi dalam hidup kita. Dan alasan saya tidak banyak membagikan foto saya disuatu tempat adalah, tidak semua tempat yang saya kunjungi itu menarik, biasanya saya akan berfoto apabila menurut saya tempat itu cukup menarik, dan bagus untuk saya ambil gambar. Itulah alasan mengapa saya tidak banyak membagikan foto saya diri yang sedang berada disuatu tempat.

  1. Analisis yang saya lakukan selanjutnya adalah mengenai akun yang saya ikuti untuk saya jadikan teman dalam akun instagram saya.
FOLLOWING JUMLAH
Teman 80%
Artis 15%
Official Account 5%


1.2 akun yang saya ikuti/following

following

Pada akun instagram saya, saya lebih banyak memfollow teman saya sendiri, begitu pula mengenai foto yang lebih sering saya sukai adalah foto temanteman saya sendiri, lalu kemudian ada beberapa artis yang saya ikuti. Biasanya artis yang saya sukai, akan saya cari instagramnya dan saya ikuti, untuk melihat foto-foto yang mereka bagikan, dan terkadang pun saya suka menyukai beberapa foto mereka. Official account yang saya ikuti haya beberapa saja, contohnya adalah 9GAG, lambe_turah, dan ada pula beberapa yang saya ikuti untuk saya lihat foto yang mereka bagikan.

Saya memang lebih senang menggunakan social media instagram, dibandingkan social media lainnya, karena menurut saya instagram memiliki fitur yang bagus, dan saya senang menggunakannya.

Alasan saya lebih senang menggunakan instagram juga, karena kebanyakan teman saya pun menggunakan social media instagram, yang sangat membantu saya untuk berkomunikasi dengan teman-teman saya. Juga meskipun saya sudah lama tidak bertemu dengan teman saya, saya bisa melihat seperti apa teman saya sekarang, karena saya bisa menggunakan instagram untuk melihat foto apa yang teman-teman saya bagikan.

KESIMPULAN

Instagram menjadi wadah bagi saya untuk membagikan foto dan apa yang terjadi dalam hidup saya. Saya bisa mengeskpresikan kehidupan saya dengan membagikan beberapa foto kepada teman-teman yang memfollow instagram saya. Pada instagram, saya lebih banyak memfollow temanteman saya, dibandingkan dengan artis, dan official account, karena dengan memfollow instagram teman saya, saya dapat berkomunikasi dengan mudah.

Pada instagram, saya lebih banyak membagikan foto diri saya sendiri atau selfie. Jarangnya saya membagikan foto kebersamaan bersama teman, saudara, ataupun keluarga saya adalah, karena ketika sedang bersama saya lebih menikmati kebersamaan yang ada, tanpa berfikir untuk mengabadikannya lewat berfoto bersama.

Sumber: https://www.instagram.com/nadakhryyh/

 

Assignment 2 (part 1):VISUALISASI DATA

VISUALISASI DATA

LATAR BELAKANG

Kebutuhan primer merupakan kebutuhan yang sangat dibutuhkan oleh banyak orang. Contoh kebutuhan primer adalah shampoo, sabun, sikat gigi, dan masih banyak lagi. Karena banyaknya kebutuhan primer yang di butuhkan, banyak perusahaan yang memproduksi barang yang merupakan barang primer. Contohnya adalah shampoo. Shampoo adalah kebutuhan primer yang pasti semua orang pun sangat membutuhkannya. Kebutuhan shampoo setiap orang pun berbeda-beda. Untuk melayani kebutuhkan pelanggannya, perusahaan yang memproduksi shampoo mengeluarkan shampoo yang memiliki vitamin yang berbeda untuk menjaga rambut. Seperti shampoo untuk rambut kering, shampoo untuk rambut berketombe, dan shampoo untuk rambut rusak. Karena pada dasarnya setiap orang memiliki masalah rambut yang berbeda-beda. Oleh karena itu, sekarang ini banyak perusahaan shampoo yang bersaing, untuk memberikan vitamin pada shampoo yang di produksi sesuai dengan apa yang konsumen butuhkan.

MASALAH

  1. Dengan menggunakan visualisasi data, bagaimana perusahaan dapat mengetahui persaingan bisnis yang terjadi?
  2. Dengan menggunakan visualisasi data, bagaimana perusahaan meramalkan penjualan produk dari data yang ada?
  3. Dengan menggunakan visualisasi data, bagaimana perusahaan dapat mengetahui peluang serta ancaman yang akan terjadi?

TUJUAN

  1. Untuk mengetahui peluang dan ancaman dari perusahaan yang ada.
  2. Untuk mengetahui dan membandingkan setiap perusahaan dalam persaingan pasar.
  3. Untuk mengetahui penjualan yang terjadi pada setiap perusahaan.

PEMBAHASAN

  1. Mengumpulkan data

Tahap awal adalah untuk mengumpulkan data terlebih dahulu, agar kita dapat mengetahui apa yang terjadi pada penjualan shampoo dalam persaingan pasar.

  1. Penyusunan data

Pada tahap ini kita menyusun data kedalam sebuah tabel, seperti:

Tabel 1.1 Data penjualan pada Shampoo Pentene

TAHUN PENJUALAN (persen)
2012 29,2%
2013 27,3%
2014 25,1%


Tabel 1.2 Data penjualan pada Shampoo Sunsilk

TAHUN PENJUALAN (persen)
2012 20,5%
2013 18,5%
2014 16,5%


Tabel 1.3 Data penjualan pada shampoo Clear

TAHUN PENJUALAN (persen)
2012 20,3%
2013 23,1%
2014 22,5%

3. Visualisasi Data

pantene

sunsilk

clear

4. Analisis

  • Perbandingan setiap perusahaan dilihat dari penjualan setiap tahunnya

Melihat penjualan dari setiap shampoo, pentene menduduki peringkat pertama untuk penjualan yang terjadi pada pasar. Pantene menjualkan lebih banyak shampoo, dibadningkan kompetitornya, yaitu Sunsilk dan Clear. Tetapi dilihat dari pertumbuhan penjualan dari tahun 2012 sampai 2014, meskipun begitu Pantene mengalami penurunan setiap tahunnya. Pada tahun 2012, Sunsilk menduduki posisi kedua, dengan penjualan sebesar 20,5%. Meskipun begitu, pada tahun 2013 dan 2014, Sunsilk mengalami penurunan penjualan. Tetapi bisa dilihat pada tahun 2012, meskipun Clear menduduki posisi terakhir dibandingkan dengan kompetitornya, pada tahun 2013 Clear mengalami kenaikan penjualan, serta pada tahun 2014, Clear berhasil menggeser Sunsilk dengan  penjualan, yaitu sebesar 22,5%.

Dapat dilihat dari data yang tersebut, bahwa setiap perusahaan saling berebut pangsa pasar.

  • Mengetahui peluang dan ancaman perusahaan
  1. Pantene

Pantene memiliki peluang yang besar, dilihat dari penjualan yang lebih tinggi setiap tahunnya dibandingkan dengan kompetitornya. Dengan penjualan yang lebih tinggi, akan menjadi peluang bagi Pentene untuk menjadikannya sebagai shampoo yang banyak dibutuhkan oleh konsumen. Tetapi dilihat dari grafik yang ada, akibat Pantene mengalami penurunan setiap tahunnya, itu akan menjadi ancaman bagi pantene. Karena dengan begitu, akan banyak perusahaan yang bersaing untuk menggeser posisi penjualan pantene.

  1. Sunsilk

Sunsilk memiliki peluang, karena penjualan yang diraih oleh Sunsilk setiap tahunnya, tetapi pada tahun 2013 dan 2014, Sunsilk mengalami penurunan penjualan, yang mengakibatkan hal itu akan menajdi sebuah ancaman, dimana Clear menggeser Sunsilk, dan mengalami kenaikan penjualan pada saat itu.

  1. Clear

Pada tahun 2012, Clear mengalami penjualan yang lebih sedikit dibandingkan dengan kompetitornya, yang menjadikan itu semua menjadi ancaman bagi Clear, dimana perusahaan Clear harus mempuyai strategi, agar penjualannya dapat menyaingi para kompetitornya. Kemudian pada tahun 2013, Clear mengalami kenaikan penjualan, yang menjadikan itu semua menajdi peluang bagi Clear untuk dapat menyaingi para kompetitornya dan dapat mempertahankan penjualan yang terjadi dalam pasar bisnis.

Sumber: http://eprints.perbanas.ac.id/365/3/BAB%20I.pdf

 

Assignment 1:Hasil Analisis Menggunakan Metode Deskripsi

HASIL ANALISIS IMPLEMENTASI DATA MINING MENGGUNAKAN

METODE DESKRIPSI UNTUK MENGETAHUI

POLA TRANSAKSI PADA DATA PENJUALAN

 

LATAR BELAKANG

Supermarket Mulia berlokasi dijalan Godean km. 10 Yogyakarta. Lokasinya yang strategis dipinggir jalan dan depan pasar Godean, menjadi factor pendukung atas besarnya tingkat kunjungan konsumen. Rata-rata transaksi setiap harinya mencapai 800 kali. Berangkat dari banyaknya jumlah transaksi dan kondisi laporan yang dihasilkan, maka penulis tertarik untuk menganalisi database transaksi penjualan dengan menggunakan data mining metode deskripsi guna menemukan informasi yang bermanfaat dan yang belum diketahui dari data transaksi penjualan. Dengan metode deskripsi informasi yang dihasilkan akan berupa ringkasan perbandingan sekelompok data dengan data yang lain, atau gabungan keduanya, dan ditampilkan berupa diagram. Dengan informasi yang berupa ringkasan dan diagram tersebut akan membanti pihak manajemen dalam mengambil keputusan yang cepat dan efektif untuk menghasilkan program promo yang sesuai dengan perilaku konsumen.

RUMUSAN MASALAH

  1. Pengetahuan apakah yang dapat dihasilkan dari data atau informasi tersebut?
  2. Metode apa yang dilakukan untuk menggali pengetahuan dari sebuah data?
  3. Kategori barang apakah yang paling sering laku dalam satu bulan atau periode tertentu.

IDE SOLUSI

Untuk mengetahui pola transaksi pada data penjualan, dilakukan dengan menggunakan metode deskripsi. Karena dengan menggunakan metode deskripsi pada fungsi minor data mining, permasalahan dalam penelitian ini membatasi pada data transaksi penjualan yang digunakan tahun 2007 sampai 2008 dengan menggunakan metode deskripsi  yang merupakan salah satu metode dalam data mining.

METODOLOGI PENELITIAN

  1. Seleksi data

Melakukan seleksi terhadap atribut yang akan dilibatkan dalam proses data mining. Beberapa atribut penting yang bersifat rahasia telah dilakukan pemotongan, seperti harga, pokok barang, diskon, dan nilai transaksi.

  1. Bersihkan data

Data yang diperoleh masih belum bisa digunakan karena ada record yang tidak memiliki nilai. Pembersihan dilakukan agar, data yang dipakai siap digunakan dalam proses data mining. Sebelum melakukan pembersihan data, adalah dengan mengubah format data.

  1. Transformsasi data:

Transformasi data adalah untuk menstrukturkan data transaksi menjadi bentuk yang mudah di proses oleh data mining. Beberapa data dalam database transaksi masih perlu dilakukan transformasi.

  1. Integrasi data

Data yang telah bersih dari missing value, nilai data tidak konsisten dan data yang tidak lengkap. Selanjutnya dilakukan integrasi data di MySQL . proses integrasi data dilakukan dari berbagai data yang digabungkan untuk menghasilkan data yang disimpan pada table baru.

MODEL

Kode kategori  

Nama kategori

Jumlah transaksi penjualan yang terjadi
1 Agar-Agar 184
2 Aneka Perabot Rumah Tangga 8.093
3 Asesoris 3.480
4 Bahan Roti 324
5 Beras 0
6 Bumbu-bumbu 955
7 Busana Pria 4.125
8 Busana Wanita 9.713
9 Daging Siap Saji 225
10 Elektronik 374
11 Gula 311
12 Ice cream 404
13 Kopi 551
14 Kosmetik 2.336
15 Kue basah 443
16 Mainan anak-anak 670
17 Makanan kering 62
18 Mie instan 2.287
19 Minuman 1.988
20 Minyak goring 396
21 Obat-obatan 748
22 Pakaian anak-anak 2.015
23 Parfum dan Deodorant 866
24 Pasta dan Sikat gigi 1.434
25 Pembalut dan Kapas 1264
26 Pembasmi serangga 346
27 Pembersih kamar mandi dan Lantai 276
28 Perlengkapan alat tulis 12.691
29 Perlengkapan Bayi 4.868
30 Perlengkapan dan busana muslim 3.255
31 Sabun cuci 2.958
32 Sabun mandi 2.465
33 Sepatu, sandal dan kaos kaki 6.171
34 Shampo 1.465
35 Snack dan biscuit 5.482
36 Susu dan makanan bayi 2.766
37 The 465
38 Telur 92
39 Rokok 194
Jumlah 86.742

Mencari data dan Informasi dengan menggunakan model deskripsi adalah dengan cara:

  1. Mencari informasi nilai rata-rata:

Rata-rata =  86.742/39= 2.224,1538

Berdasarkan hasil perhitungan diatas, maka nilai rata-rata yang diperoleh dari data yang ada adalah sebesar 2.224,1538.

  1. Mencari informasi nilai median:

Median = {[(n/2)+((n/2)+1)]/2}

= {[(86.742 / 2) + ((86.742/ 2) + 1)] / 2}

= {[43.371+ 43.372] / 2} = 43.371,5

Berdasarkan hasil perhitungan di atas, maka nilai median terletak pada data transaksi penjualan dengan urutan data ke 43.371,5.

  1. Mencari Informasi nilai modus:

Pada dasarnya modus adalah nilai yang paling sering keluar atau nilai yang paling sering muncul. Nilai frekuensi penjualan tertinggi merupakan nilai observasi yang paling sering

muncul (modus). Berdasarkan data diatas, nilai yang paling sering muncul adalah 12.691, dengan kategori perlengkapan alat tulis.

  1. Mencari informasi nilai varians:

Berikut adalah tabel penjualan bulan Agustus dan bulan September yang sudah diurutkan:

Kategori Agustus 2008 S1 September 2008 S2
5 0 4.946.860,12605444 0 6.449.906,94708889
6 955 1.610.751,36805444 738 3.246.002,89788889
7 4.125 3.613.216,27605444 8.993 41.645.510,68088890
8 9.713 56.082.817,40725440 18.292 248.136.004,394228900
9 225 3.996.615,91605444 257 5.210.567,26328889
10 374 3.423.069,08365444 298 5.025.069,59388889
11 311 3.660.157,46245444 359 4.755.307,25648889
12 404 3.312.959,85565444 214 5.408.725,59948889
13 551 2.799.443,63845444 397 4.591.020,58728889
14 2.336 12.509,57245444 1.855 468.768,49008889
15 443 3.172.508,85925444 615 3.704.341,90608889
16 670 2.415.394,03405444 388 4.629.669,58788889
17 62 4.674.909,05485444 36 6.268.346,94468889
18 2.287 3.949,64485444 1.553 973.511,17688889
19 1.988 55.768,61725444 1.464 5.725,44948889
20 396 3.342.146,31645444 274 5.133.245,59548889
21 748 2.179.030,04125444 509 4.123.607,24648889
22 2.015 43.745,31205444 6.266 13.885.559,86268890
23 866 1.844.581,74445444 731 3.271.275,23168889
24 1.434 624.343,02765444 978 2.438.802,88188889
25 1.264 921.895,31965444 847 2.865.120,55728889
26 346 3.527.461,69645444 245 5.265.495,26408889
27 276 3.795.303,22845444 230 5.334.560,26508889
28 12.691 109.554.869,37445400 7.736 27.001.879,76468890
29 4.868 6.989.922,72925444 6.653 16.919.510,83688890
30 3.255 1.062.643,88805444 8.828 39.543.135,69188890
31 2.958 538.530,24525444 2.167 138.880,46928889
32 2.465 58.006,89205444 1.664 766.792,16948889
33 6.171 15.577.594,92645440 8.222 32.288.911,73228890
34 1.465 576.314,49205444 1.059 2.192.373,87648889
35 5.482 10.613.561,86285440 4.264 2.973.325,32948889
36 2.766 293.597,30445444 2.349 36.353.79048889
37 465 3.094.622,09205444 357 4.764.033,92328889
38 92 4.546.079,82685444 65 6.123.975,27608889
39 194 4.121.524,45165444 125 5.830.615,27208889
Jumlah 86.742 310.880.023,07692256 99.047 540.210.926,66666688
Rata-rata 2.224,1538 2.539,6667

Sebagai contoh dari table diatas, berikut rincian perhitungan varians untuk ID Kategori Barang 1 (Agar-agar), Barang 2 (Perabot rumahtangga), Barang 3 (asesoris) dan Barang 4 (Bahanroti) periode bulan Agustus 2008 yaitu:

  • Perhitungan varians untuk ID Kategori Barang 1 (Agar-agar):

S1 = (x – (rata-rata)) = (184 − 2.224,1538) = 4.162.227,52765444

  • Perhitungan varians ID Kategori Barang 2 (Perabot Rumah Tangga):

S1 = (x – (rata-rata)) = (8.093 − 2.224,1538) = 34.443.355,71925440

  • Perhitungan varians untuk ID Kategori Barang 3 (Asesoris):

S1 = (x – (rata-rata)) = (3.480 − 2.224,1538) = 1.577.149,67805444

  • Perhitungan varians untuk ID Kategori Barang 4 (Bahan Roti):

S1 = (x – (rata-rata)) = (324 − 2.224,1538) = 3.610.584,46365444

varians penjualan bulan Agustus 2008 adalah:

varians = X – Rata-rata2 /n-1 =

310.880.023,07692259/38 = 8.181.053,23886638

Berdasarkan tabel diatas, total transaksi penjualan pada bulan September 2008 adalah 99.047. oleh karena itu rata-rata yang didapat adalah sebesar:

Rata-rata =  99.047/39 = 2.539,6667

Rata-rata yang diperoleh adalah sebesar 2.539,6667.

Sebagai contoh dari table diatas, berikut rincian perhitungan varians untuk ID Kategori Barang 1 (Agar-agar), Barang 2 (Perabot rumahtangga), Barang 3 (asesoris) dan Barang 4 (Bahanroti) periode bulan September 2008 yaitu:

  • Perhitungan varians untuk ID Kategori Barang 1 (Agar-agar):

S2 = (x – (rata-rata)) = (280 – 2.539,6667) = 5.106.093,59508889

  • Perhitungan varians ID Kategori Barang 2 (Perabot Rumah Tangga):

S2 = (x – (rata-rata)) = (5.442 −2.539,6667) = 8.307.845,25228889

  • Perhitungan varians untuk ID Kategori Barang 3 (Asesoris):

S2 = (x – (rata-rata)) = (3.480 −2.539,6667) = 252.338,74428889

  • Perhitungan varians untuk ID Kategori Barang 4 (Bahan Roti):

S2 = (x – (rata-rata)) = (275 −2.539,6667) = 5.128.715,26208889

Varians penjualan bulan September 2008 adalah:

Varians = X – Rata-rata/n-1

540.210.926,66666688/38 = 14.216.077,01754390

Nilai varians transaksi penjualan yang diperoleh pada bulan September 2008 lebih besar dibandingkan dengan nilai varians transaksi penjualan yang diperoleh pada bulan Agustus 2008. Ini berarti transaksi penjualan pada bulan September 2008 lebih beragam dibandingkan dengan transaksi penjualan pada bulan Agustus 2008.

KESIMPULAN:

  1. Apliaksi yang dibuat dapat menampilkan pola transaksi per periode, dan informasi yang diberikan adalah berupa nilai rata-rata, nilai modus, nilai media, dan juga nilai varians.
  2. Dengan digunakannya metode ini, kita dapat mengetahui pada periode berapakah transaksi penjualan yang beragam-ragam, barang yang dominan, dan barang manakah yang paling banyak diminati oleh konsumen.
  3. Hasil dari proses data mining ini dapat dogunakan untuk mengambil sebuah keputusan untuk memperkirakan pola belanja konsumen di masa mendatang.

SARAN:

Untuk pengembangan aplikasi data mining, peneliti dapat menambahkan seleksi periode berdasarkan bulan dan tahun, agar data yang ada dapat dibaca dengan mudah, karena dalam penelitian ini input-an periode masih berdasarkan tanggal. Selanjutnya peneliti juga dapat menambahkan output berupa saran untuk mendukung pengambilan keputusan oleh manager. Dapat pula  melakukan penelitian menggunakan metode yang lain untuk dapat menampilkan informasi yang dapat digunakan untuk membantu menejer pemasaran dalam mengambil keputusan.

Sumber: http://www.academia.edu/7188361/Implementasi_Data_Mining_Menggunakan_Metode_Deskripsi_Untuk_Mengetahui_Pola_Transaksi_Pada_Data_Penjualan