วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613 Class9 lecture summary

Data Management II & Business Intelligence

ประโยชน์ที่สำคัญของ Data Warehouse

1.เข้าถึงข้อมูลได้รวดเร็วเนื่องจากมีข้อมูลที่จัดเรียงแล้วรวมกันอยู่ที่เดียว ซึ่งสามารถเข้าใช้ผ่านช่องทางต่างๆได้ ไม่ว่าจะเป็น VPN Web browser  LAN เป็นต้น

2.ลดความซ้ำซ้อนของข้อมูล ทำให้สะดวกรวดเร็วในการค้นหาข้อมูลต่างๆ ทำให้องค์กรได้เปรียบเชิงแข่งขัน

สาเหตุของ Data Inconsistency

Data Inconsistency คือ ข้อมูลชุดเดียวกัน เช่น ข้อมูลวันเดือนปี แต่กลับมีค่าที่ต่างกัน ซึ่งสาเหตุอาจเกิดจาก
1.format ต่างกัน เช่น ปีพ.ศ. กับปีค.ศ. หรือ ดด/วว/ปป กับ วว/ดด/ปป เป็นต้น
2.ข้อมูล update ไม่เท่ากัน เช่น พนักงานขายลาออกแล้ว ในแฟ้มข้อมูลพนักงานลบข้อมูลออกแล้ว แต่ชื่อของคนนี้ยังอยู่ในแฟ้มของรายชื่อพนักงานขายเป็นต้น ซึ่งรายชื่อพนักงานขายอัพเดทช้ากว่า



Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube

Data Mart

คือ ส่วนย่อยของ Data Warehouse โดยจะมีลักษณะเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลที่เฉพาะเจาะจง โดย Data Mart จะมีประโยชน์ที่เด่นชัดคือ การจัดทำคลังข้อมูลจะใช้เวลาสั้น และการนำไปประยุกต์ใช้ในเชิงวิเคราะห์ เพื่อการตัดสินใจในเรื่องใดเรื่องหนึ่งตามมุมมองที่ผู้ใช้ต้องการ

Types of Data Mart

1.Replicated data mart : คือกลุ่มย่อยขนาดเล็กของ Data Warehouse ซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ในตลาดข้อมูลเล็กๆ หลายๆ อัน ซึ่งในแต่ละอันจะใช้ตอบสนองต่อความต้องการเฉพาะส่วนที่แน่นอน หนึ่ง ๆ เท่านั้น ทำให้สามารถตอบสนองต่อความต้องการที่หลายหลายของแต่ละหน่วยงานในองค์กรได้อย่างรวดเร็ว
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี

The Data Cube

“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด


Business Intelligence (BI) : เป็นโปรแกรมที่มีความสามารถในการทำ Online Analytical Process (OLAP) โดยรวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่าง ดียิ่งขึ้น


Dashboard & Scorecards

Dashboard : innovate ในการนำข้อมูลไปสู่ผู้บริหาร เพื่อใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth

Data Mining 

คือ การหารูปแบบะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก โดยการสกัดข้อมูลที่จำเป็น/มีประโยชน์ออกมาจากข้อมูลทั้งหมด เพื่อใช้ในการตัดสินใจทางธุรกิจ

เทคนิคในการทำ Data mining
1.Clustering :
เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association :
เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า

Text Mining

ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character มีค่าในช่วงที่แน่นอน ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data เช่นข้อมูลที่เป็นอักษร จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก และองค์กรก็มีแนวโน้มที่จะต้องใช้ประโยชน์จากข้อมูล unstructured เหล่านี้สูงขึ้นเพื่อปรับปรุงองค์กรด้วย


นาย ศุลี พิเชฐสกุล
5202113014

ไม่มีความคิดเห็น:

แสดงความคิดเห็น