Data Management II & Business Intelligence
ประโยชน์ที่สำคัญของ Data Warehouse
1.เข้าถึงข้อมูลได้รวดเร็วเนื่องจากมีข้อมูลที่จัดเรียงแล้วรวมกันอยู่ที่เดียว ซึ่งสามารถเข้าใช้ผ่านช่องทางต่างๆได้ ไม่ว่าจะเป็น VPN Web browser LAN เป็นต้น
2.ลดความซ้ำซ้อนของข้อมูล ทำให้สะดวกรวดเร็วในการค้นหาข้อมูลต่างๆ ทำให้องค์กรได้เปรียบเชิงแข่งขัน
สาเหตุของ Data Inconsistency
Data Inconsistency คือ ข้อมูลชุดเดียวกัน เช่น ข้อมูลวันเดือนปี แต่กลับมีค่าที่ต่างกัน ซึ่งสาเหตุอาจเกิดจาก
1.format ต่างกัน เช่น ปีพ.ศ. กับปีค.ศ. หรือ ดด/วว/ปป กับ วว/ดด/ปป เป็นต้น
2.ข้อมูล update ไม่เท่ากัน เช่น พนักงานขายลาออกแล้ว ในแฟ้มข้อมูลพนักงานลบข้อมูลออกแล้ว แต่ชื่อของคนนี้ยังอยู่ในแฟ้มของรายชื่อพนักงานขายเป็นต้น ซึ่งรายชื่อพนักงานขายอัพเดทช้ากว่า
Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube
Data Mart
คือ ส่วนย่อยของ Data Warehouse โดยจะมีลักษณะเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลที่เฉพาะเจาะจง โดย Data Mart จะมีประโยชน์ที่เด่นชัดคือ การจัดทำคลังข้อมูลจะใช้เวลาสั้น และการนำไปประยุกต์ใช้ในเชิงวิเคราะห์ เพื่อการตัดสินใจในเรื่องใดเรื่องหนึ่งตามมุมมองที่ผู้ใช้ต้องการ
Types of Data Mart
1.Replicated data mart : คือกลุ่มย่อยขนาดเล็กของ Data Warehouse ซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ในตลาดข้อมูลเล็กๆ หลายๆ อัน ซึ่งในแต่ละอันจะใช้ตอบสนองต่อความต้องการเฉพาะส่วนที่แน่นอน หนึ่ง ๆ เท่านั้น ทำให้สามารถตอบสนองต่อความต้องการที่หลายหลายของแต่ละหน่วยงานในองค์กรได้อย่างรวดเร็ว
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี
The Data Cube
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด
Business Intelligence (BI) : เป็นโปรแกรมที่มีความสามารถในการทำ Online Analytical Process (OLAP) โดยรวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่าง ดียิ่งขึ้น
Dashboard & Scorecards
Dashboard : innovate ในการนำข้อมูลไปสู่ผู้บริหาร เพื่อใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth
Data Mining
คือ การหารูปแบบะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก โดยการสกัดข้อมูลที่จำเป็น/มีประโยชน์ออกมาจากข้อมูลทั้งหมด เพื่อใช้ในการตัดสินใจทางธุรกิจ
เทคนิคในการทำ Data mining
1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า
Text Mining
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character มีค่าในช่วงที่แน่นอน ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data เช่นข้อมูลที่เป็นอักษร จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก และองค์กรก็มีแนวโน้มที่จะต้องใช้ประโยชน์จากข้อมูล unstructured เหล่านี้สูงขึ้นเพื่อปรับปรุงองค์กรด้วย
นาย ศุลี พิเชฐสกุล
5202113014