CLASS AI613: มกราคม 2011

Data Management II & Business Intelligence

ประโยชน์ที่สำคัญของ Data Warehouse
1.เข้าถึงข้อมูลได้รวดเร็วเนื่องจากมีข้อมูลที่จัดเรียงแล้วรวมกันอยู่ที่เดียว ซึ่งสามารถเข้าใช้ผ่านช่องทางต่างๆได้ ไม่ว่าจะเป็น VPN Web browser LAN เป็นต้น
2.ลดความซ้ำซ้อนของข้อมูล ทำให้สะดวกรวดเร็วในการค้นหาข้อมูลต่างๆ ทำให้องค์กรได้เปรียบเชิงแข่งขัน

สาเหตุของ Data Inconsistency
Data Inconsistency คือ ข้อมูลชุดเดียวกัน เช่น ข้อมูลวันเดือนปี แต่กลับมีค่าที่ต่างกัน ซึ่งสาเหตุอาจเกิดจาก
1.format ต่างกัน เช่น ปีพ.ศ. กับปีค.ศ. หรือ ดด/วว/ปป กับ วว/ดด/ปป เป็นต้น
2.ข้อมูล update ไม่เท่ากัน เช่น พนักงานขายลาออกแล้ว ในแฟ้มข้อมูลพนักงานลบข้อมูลออกแล้ว แต่ชื่อของคนนี้ยังอยู่ในแฟ้มของรายชื่อพนักงานขายเป็นต้น ซึ่งรายชื่อพนักงานขายอัพเดทช้ากว่า

Data Warehouse Process
1.Collect Data both from External data and Operational Data
2.Data Staging : Extract, Clean, Transform and Load .AKA “ETCL” คัดกรองเฉพาะข้อมูลที่ต้องใช้จาก Database เก็บข้อมูลไว้ใน Data Cube

Data Mart
คือ ส่วนย่อยของ Data Warehouse โดยจะมีลักษณะเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลที่เฉพาะเจาะจง โดย Data Mart จะมีประโยชน์ที่เด่นชัดคือ การจัดทำคลังข้อมูลจะใช้เวลาสั้น และการนำไปประยุกต์ใช้ในเชิงวิเคราะห์ เพื่อการตัดสินใจในเรื่องใดเรื่องหนึ่งตามมุมมองที่ผู้ใช้ต้องการ

Types of Data Mart
1.Replicated data mart : คือกลุ่มย่อยขนาดเล็กของ Data Warehouse ซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ในตลาดข้อมูลเล็กๆ หลายๆ อัน ซึ่งในแต่ละอันจะใช้ตอบสนองต่อความต้องการเฉพาะส่วนที่แน่นอน หนึ่ง ๆ เท่านั้น ทำให้สามารถตอบสนองต่อความต้องการที่หลายหลายของแต่ละหน่วยงานในองค์กรได้อย่างรวดเร็ว
2.Stand-alone data mart : เกิดขึ้นกับองค์กรที่ยังไม่พร้อมที่จะสร้าง Data Warehouseขององค์กร จึงสร้างเฉพาะ data mart ในส่วนที่พร้อมเป็นอิสระออกจากกัน เช่น สร้าง Data Mart เฉพาะในฝ่ายการตลาดและบัญชี

The Data Cube
“Multidimensional Databases” (AKA OLAP) : เป็น database ที่มีการจัดเรียงข้อมูลตามมิติต่างๆ เพื่อความสะดวกการวิเคราะห์ข้อมูลที่มีอยู่เป็นจำนวนมาก โดยจะสามารถวิเคราะห์ข้อมูลในลักษณะต่างๆ เช่น
1.Slices and Dices : การดูข้อมูลที่แบ่งออกเป็นมิติต่าง เช่น ข้อมูลเกี่ยวกับ Wine ทั้งในแง่ของราคา ฐานลูกค้าในแต่ละระยะเวลา
2.Rollups : ดูข้อมูลที่เป็นรายละเอียด ไปยังข้อมูลที่เป็นภาพรวม เพื่อความสะดวกในการเปรียบเทียบ และวิเคราะห์แนวโน้ม
3.Drill Downs : ดูข้อมูลสรุปแบบเจาะลึก โดยเริ่มจากภาพกว้างแล้วเจาะลงไปในแต่ละเรื่องย่อย เพื่อศึกษาในรายละเอียด

Business Intelligence (BI) : เป็นโปรแกรมที่มีความสามารถในการทำ Online Analytical Process (OLAP) โดยรวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่าง ดียิ่งขึ้น

Dashboard & Scorecards
Dashboard : innovate ในการนำข้อมูลไปสู่ผู้บริหาร เพื่อใช้ในการประเมิน performance ตาม balance scorecard ทั้ง 4 ด้าน คือ Financial , Customer ,Internal Process และ Learning and Growth

Data Mining
คือ การหารูปแบบะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก โดยการสกัดข้อมูลที่จำเป็น/มีประโยชน์ออกมาจากข้อมูลทั้งหมด เพื่อใช้ในการตัดสินใจทางธุรกิจ

เทคนิคในการทำ Data mining
1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า

Text Mining
ข้อมูลส่วนใหญ่ที่อยู่ใน data warehouse จะเป็นข้อมูลแบบ structured คือมีรูปแบบที่แน่นอน มีชื่อ attribute , ขนาดของ fieldว่ามีกี่ character มีค่าในช่วงที่แน่นอน ซึ่งจะสามารถใช้ Data mining ได้ แต่ในกรณีที่เป็นข้อมูลแบบ unstructured data เช่นข้อมูลที่เป็นอักษร จะไม่สามารถใช้ data mining ได้ เนื่องจากเป็นข้อมูลที่ไม่ได้มีรูปแบบชัดเจน เช่น complain จากลูกค้า ซึ่งข้อมูลประเภท unstructured นี้มีการเติบโตสูงมาก และองค์กรก็มีแนวโน้มที่จะต้องใช้ประโยชน์จากข้อมูล unstructured เหล่านี้สูงขึ้นเพื่อปรับปรุงองค์กรด้วย

นาย ศุลี พิเชฐสกุล
5202113014

วันที่ 12 มกราคม 2554

Data management

ข้อมูล(Data) สารสนเทศ(Information) และ ความรู้(Knowledge)

ข้อมูล (Data) คือ ข้อเท็จจริง ซึ่งหาได้จากแหล่งข้อมูลต่างๆ หรือสิ่งรอบๆตัว ไม่ว่าจะเป็นคน สัตว์ สิ่งของ หรือ เหตุการณ์ต่างๆ

สารสนเทศ (Information) คือ ข้อมูล(Data)ที่ได้ผ่านการประมวลผล ด้วยวิธีการที่เหมาะสม และต้องมีความถูกต้องในการประมวลผล จนได้ผลลัพธ์ตรงตามความต้องการ อยู่ในรูปแบบที่สามารถนำไปใช้ประโยชน์ ในเวลาที่ต้องการของผู้ใช้

ความรู้ (Knowledge) คือ สารสนเทศ(Information) ที่ผ่านกระบวนการคิดเปรียบเทียบ มีการเชื่อมโยงกับความรู้อื่น จนเกิดความเข้าใจ และสามารถนำความเข้าใจนั้นไปใช้ประโยชน์ในการตัดสินใจในสถานการณ์ต่างๆได้

ระบบสารสนเทศ(Information System)

เป็นชุดขององค์ประกอบต่างๆ ได้แก่ ฮาร์ดแวร์ ซอฟแวร์ ฐานข้อมูล ระบบเครือข่าย ผู้ใช้ ผู้พัฒนาระบบ องค์ประกอบต่างๆเหล่านี้ทำหน้าที่ในการนำข้อมูลเข้าสู่ระบบ(Input) เพื่อนำมาประมวลผล(Processing) และนำเสนอผลลัพธ์(Output) ที่ได้ ให้ตรงกับวัตถุประสงค์ และสำหรับผู้ที่มีสิทธิในการใช้สารสนเทศนั้น ซึ่งรวมทั้งการจัดเก็บ บันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคตอีกด้วย

ปัญหาในการจัดเก็บข้อมูล

         - ข้อมูลมีจำนวนมาก และเพิ่มขึ้นอย่างรวดเร็ว
         - ข้อมูลกมีความซ้ำซ้อน
         - ความจำเป็นที่ต้องการใช้ข้อมูลจากภายนอกเพื่อใช้ในการตัดสินใจ
         - ประเด็นด้านความปลอดภัย คุณภาพ และความสมบูรณ์ของข้อมูล เป็นประเด็นที่มีความสำคัญ
         - การเลือกเครื่องมือในการจัดการข้อมูล ต้องมีการเปรียบเทียบ Cost และ Benefit

Data Management มี 4 องค์ประกอบ ได้แก่

Data profiling
Data quality management
Data integration
Data augmentation

Data Life Cycle Process

เก็บรวบรวมข้อมูล
เก็บข้อมูลไว้ใน Database เป็นการชั่วคราว จากนั้นจึงทำการผ่านกระบวนการเพื่อจัดเก็บข้อมูลไว้ใน Data warehouse
ผู้ใช้เข้ามาดึงข้อมูลใน Data warehouse เพื่อนำไปใช้ในการวิเคราะห์
วิเคราะห์

Data Source

Organization data
End user data
External data

Characteristic of data warehouse

organization
consistency
time variant
non-volatile
relational
client/server

CLASS AI613

วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613 Class9 lecture summary

วันพุธที่ 12 มกราคม พ.ศ. 2554

AI613 Class8 lecture summary