Karakteristik data warehouse

No comments

Karakteristik data warehouse




Transcript
  • 1. 1
  • 2. 2 1. Subject Oriented (Berorientasi subject) Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan (customers, products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama(customer invoicing, stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data. KARAKTERISTIK DATA WAREHOUSE
  • 3. 3 Jadi, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Kita harus bisa membedakan data warehouse dan data operasional (database) Secara garis besar perbedaan antara data operasional dan data warehouse yaitu : Data Operasional a. Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu. b. Focusnya pada desain database dan proses. c. Berisi rincian atau detail data. d. Relasi antar table berdasar aturan terkini (selalu mengikuti rule(aturan) terbaru). KARAKTERISTIK DATA WAREHOUSE
  • 4. 4 Data Warehouse a.Dirancang berdasar pada subjek-subjek tertentu(utama). b.Focusnya pada pemodelan data dan desain data. c.Berisi data-data history yang akan dipakai dalam proses analisis. d.Banyak aturan bisnis dapat tersaji antara tabel-tabel. KARAKTERISTIK DATA WAREHOUSE
  • 5. 5 2. Integrated (Terintegrasi) Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya. KARAKTERISTIK DATA WAREHOUSE
  • 6. 6 3. Time-variant (Rentang Waktu)   Seluruh  data  pada  data  warehouse  dapat  dikatakan  akurat  atau  valid  pada  rentang  waktu  tertentu.  Untuk  melihat  interval  waktu  yang  digunakan  dalam  mengukur  keakuratan  suatu  data  warehouse,  kita  dapat  menggunakan  cara  antara lain :   a.Cara yang paling sederhana adalah menyajikan data warehouse pada rentang  waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan. b.Cara  yang  kedua,  dengan  menggunakan  variasi/perbedaan  waktu  yang  disajikan  dalam  data  warehouse  baik  implicit  maupun  explicit  secara  explicit  dengan  unsur  waktu  dalam  hari,  minggu,  bulan  dsb.  Secara  implicit  misalnya  pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan.  Unsur waktu akan tetap ada secara implisit didalam data tersebut. c.Cara  yang  ketiga,variasi  waktu  yang  disajikan  data  warehouse  melalui  serangkaian  snapshot  yang  panjang.  Snapshot  merupakan  tampilan  dari  sebagian  data  tertentu  sesuai  keinginan  pemakai  dari  keseluruhan  data  yang  ada bersifat read-only. KARAKTERISTIK DATA WAREHOUSE
  • 7. 7 4. Non-Volatile ( tidak di update real time ) Karakteristik keempat dari data warehouse adalah non-volatile maksudnya data  pada data warehouse tidak di-update secara real time tetapi di refresh dari  sistem  operasional  secara  reguler.  Data  yang  baru  selalu    ditambahkan  sebagai  suplemen  bagi  database  itu  sendiri  dari  pada  sebagai  sebuah  perubahan.  Database  tersebut  secara  kontinyu  menyerap  data  baru  ini,  kemudian secara incremental disatukan dengan data sebelumnya. Berbeda  dengan  database  operasional  yang  dapat  melakukan  update,  insert  dan  delete  terhadap  data  yang  mengubah  isi  dari  database  sedangkan  pada  data  warehouse  hanya  ada  dua  kegiatan  memanipulasi  data  yaitu  loading  data  (mengambil  data)  dan  akses  data  (mengakses  data  warehouse  seperti  melakukan  query  atau  menampilan  laporan  yang  dibutuhkan, tidak ada kegiatan updating data). KARAKTERISTIK DATA WAREHOUSE
  • 8. 8 OLTP DAN OLAP DALAM DATA WAREHOUSE Sistem informasi adalah sekumpulan fungsi yang bekerja secara bersama- sama  dalam  mengelola,  mengumpulkan,  menyimpan,  memproses  serta  mendistribusikan informasi untuk tujuan tertentu. Sistem OLTP ( Online Transactional Processing ) adalah  merupakan  metode  pengolahan  data  terpadu  yang  menunjang  kegiatan  operasional  sebuah  organisasi.  Untuk  itu  system  OLTP  yang  baik  harus  ditunjang  dengan  fungsi sistem basis data ( Database Management System ) yang  baik pula. OLAP (OnLine Analytical Processing) adalah jenis perangkat lunak yang  digunakan untuk melakukan permintaan terhadap data dalam bentuk yang  kompleks dan bersifat sementara serta sewaktu-waktu. OLAP memanipulasi  dan  menganalisis  data  bervolume  besar  dari  berbagai  perspektif  (multidimensi).  Oleh  karena  itu  OLAP  seringkali  disebut  analisis data multidimensi.
  • 9. 9 OLTP DAN OLAP DALAM DATA WAREHOUSE Ciri-ciri sistem OLTP yang baik adalah : a.Mendukung  jumlah  pengguna  yang  banyak  yang  sering  menambah dan merubah data transaksi. b.Mengandung  data  dalam  jumlah  besar,  termasuk  di  dalamnya  validasi data transaksi. c.Memiliki struktur yang kompleks dan rumit. d.Diarahkan  secara  maksimal  untuk  melayani  aktivitas  transaksi  harian. e.Menyediakan teknologi infrastruktur yang mendukung operasional  transaksi data dalam perusahaan
  • 10. 10 OLTP DAN OLAP DALAM DATA WAREHOUSE Beberapa fungsi OLAP a.l : Tujuan OLAP adalah menggunakan informasi dalam sebuah basis  data (data warehouse) untuk memandu keputusan-keputusan yang  strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:   • Menentukan Penjualan Maximum masing-2 kota   • Menentukan 5 Penjualan sales tertinggi dalam 1 tahun   • Menentukan total penjualan tertinggi pada setiap item produk.
  • 11. 11 OLTP DAN OLAP DALAM DATA WAREHOUSE SYSTEM KERJA OLAP OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. 1. Konsolidasi Konsolidasi adalah fungsi Pengelompokan data. Sebagai contoh : a.kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. b.Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi .
  • 12. 12 OLTP DAN OLAP DALAM DATA WAREHOUSE 2. Drill-down Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail. Sebagai contoh : Mula-mula data yang tersaji didasarkan pada Semester pertama. Jika dikehendaki, data masing-masing bulan pada Semester pertama tersebut bisa diperoleh, sehingga akan tersaji data bulan Januari, Februari, Maret, April, Mei, Juni.
  • 13. 13 OLTP DAN OLAP DALAM DATA WAREHOUSE 3. Slicing and dicing (pivoting) Untuk menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan kebutuhan. Sebagai contoh : Mencari data penjualan berdasarkan semua lokasi atau hanya pada lokasi-lokasi tertentu.
  • 14. 14 Tujuan Pembelajaran Teknik Clustering adalah : 1. Mengetahui tehnik cluster dan ide dasar clustering 2. Mengetahui ukuran kemiripan dan ketidak miripan 3. Mengenal tehnik cluster partisi dan hirarki 4.Mengetahui implementasinya kedalam kasus nyata. Tujuan utama tehnik cluster adalah untuk mengelompokkan sejunlah data/objek kedalam cluster atau group sehingga dalam setiap cluster terdapat sejumlah data yang mirip satu sama lain. Teknik cluster sudah banyak dikenal pada penggunaan data mining, tetapi hingga sekarang para ahli masih mencari tehnik dan metode pengklusteran yang baik dan efektif. Sehingga sebenarnya sampai sekarang sistem cluster belum merupakan hasil yang optimal. Tetapi hasil dengan metode yang akan kita pelajari ini adalah metode yang sudah cukup bagus dan praktis. TEKNIK CLUSTERING
  • 15. 15 Diharapkan nantinya mahasiswa dapat mengembangkan metode clustering yang baik atau ada teknik yang lebih optimal. Metode Analisis data Mining dikelompokkan dalam 2 tehnik : a.Unsupervised learning Proses pengelompokkan yang dikerjakan tidak perlu dilakukan pembelajaran/training/pengujian data terlebih dahulu. jadi metode ini tidak membutuhkan label dari hasil keluaran yang dihasilkan. Misalnya : segala tehnik clustering data. b. Supervised learning Adalah metode yang memerlukan pelatihan/training dan testing. Karena hasil keluaran yang diharapkan harus merupakan keluaran terbaik. Misalnya : ANN ( Artificial Neural Network ), Analisis Diskriminan ( LDA ), Support Vector Machine ( SVM ) TEKNIK CLUSTERING
  • 16. 16 Tehnik clustering hirarki, kita hitung jarak masing-2 titik / objek dengan objek lainnya, selanjutnya akan ditemukan jarak titik-titk terdekat, sehingga akan dkelompokkan objek dengan jarak masing-masing terdekat. Langkah clustering hirarki : 1.Kelompokkan objek ke dalam clusternya sendiri. 2.Menemukan data dengan pasangan paling mirip untuk dikelompokkan dalam cluster sama dengan melihat data dalam matrik kemiripan. 3.Gabungkan kedua objek dalam satu kelompok dan lakukan selanjutnya dengan data yang lain sampai tinggal satu cluster. CLUSTERING HIRARKI ( Hierarchical Clustering )
  • 17. 17 Contoh tehnik Clustering Hirarki : 1. SIMILARITY DAN DISIMILARITY ( Kemiripan dan Ketidakmiripan ) Untuk menggabung dua objek dalam cluster dibutuhkan konsep mirip () dan tidak mirip ( disimilarity ), jadi semakin mirip objek, maka dapat dikelompokkan dalam satu cluster. Sebaliknya bila tidak mirip maka masuk cluster lain. Pengukuran kemiripan dapat dilakukan dengan : Cosinus, Kovarian dan Korelasi. Semakin besar nilainya maka semakin mirip, tetapi bila nilainya kecil berarti tidak mirip. 2. DENDOGRAM ( Pohon Kluster ) Tehnik ini adalah menunjukkan bagaimana urutan sebagaimana objek dikelompokkan dalam cluster. Sedangkan distribusi pengelompokkan dapat pula dikerjakan dengan pola cut off ( potong) pada jarak atau nilai tertentu, sehingga dapat membentuk kelompok cluster lainnya. CLUSTERING HIRARKI ( Hierarchical Clustering )