วันอังคารที่ 13 ธันวาคม พ.ศ. 2554

การจัดเก็บและค้นคืนสารสนเทศ

ดาวน์โหลดไฟล์ powerpoint คลิกที่นี่

การจัดเก็บและค้นคืนสารสนเทศ
Information Retrieval


ความหมายของสารสนเทศ
ข้อมูล ข่าวสาร ความรู้ ที่ผ่านกระบวนการคัดเลือก รวบรวม วิเคราะห์ เรียบเรียง เพื่อนามาใช้ประโยชน์ตามจุดประสงค์
 
ความหมายของความรู้
สิ่งที่สั่งสมมาจากการศึกษาเล่าเรียน การค้นคว้า หรือ ประสบการณ์ ความเข้าใจหรือสารสนเทศที่ได้รับมาจากประสบการณ์สิ่งที่ ได้รับมาจากการได้ยิน ได้ฟัง การคิด หรือการปฏิบัติ

 
ความสำคัญการจัดเก็บและค้นคืนสารสนเทศ
  1. หน่วยงานบริการสารสนเทศ (ห้องสมุด ศูนย์สารสนเทศ หน่วยงานจดหมายเหตุ ฯลฯ)
  2. ผู้ใช้
ขอบเขตการจัดเก็บและค้นคืนสารสนเทศ

  1. ทฤษฎีพื้นฐานและการประเมินระบบจัดเก็บและค้นคืนสารสนเทศ
  2. เทคโนโลยีและมาตรฐานในการจัดเก็บและค้นคืนสารสนเทศ
  3. การวิเคราะห์และตัวแทนสารสนเทศ
  4. ผู้ใช้ระบบค้นคืนสารสนเทศและพฤติกรรมการแสวงหาสารสนเทศ

พัฒนาการการจัดเก็บและค้นคืนสารสนเทศ
• ระยะที่ 1 พัฒนาการของการจัดเก็บและค้นคืนสารสนเทศ ก่อนทศวรรษ 1960
• ระยะที่ 2 พัฒนาการของการจัดเก็บและค้นคืนสารสนเทศ ตั้งแต่ทศวรรษ 1960 เป็นต้นไป

ภาพรวมของระบบค้นคืนสารสนเทศ
Information Retrieval System Overview

บทนำ
  • ยุคข้อมูลข่าวสารที่ สารสนเทศ (Information) เข้ามามีบทบาทในการทำงาน การบริหารจัดการ และการช่วยสนับสนุนการตัดสินใจ
  • มีการป้อนข้อมูลทั้งข้อความ ตัวเลข ภาพนิ่ง ภาพเคลี่อนไหว เสียงหรือสื่อผสม
  • ผ่านการประมวลผล (process) ตรวจสอบ (verifying) จำแนก (classifying) จัดเรียง (sorting) สรุปผล (summarizing) คำนวณ (calculating) ดึงข้อมูลมาใช้ (retrieving) สำรองข้อมูล (backup) และการเผยแพร่ (communicating)


เทคโนโลยีสารสนเทศและการสื่อสาร
  • ICT หรือ Information and Communication Technology คือ การการนำเทคโนโลยีสารสนเทศ (IT) และเทคโนโลยีการสื่อสาร (CT) มาสร้างสารสนเทศและเชื่อมโยงองค์กรเข้าด้วยกัน
  • เทคโนโลยีสารสนเทศ (Information Technology) คือ กระบวนการในการใช้เครื่องมือและอุปกรณ์ต่างๆ เช่น ฮาร์ดแวร์ ซอฟท์แวร์ เพื่อเก็บข้อมูล ประมวลผล จนถึงการแสดงผลลัพธ์ข้อมูลเพื่อนำไปใช้ประโยชน์ได้ต่อไป
ระดับการทำงานขององค์กร
ความสัมพันธ์ระหว่างองค์กรกับระบบสารสนเทศและเทคโนโลยี












ประเภทของเทคโนโลยีสารสนเทศ
  1. ระบบประมวลผลข้อมูลหรือรายการประจำวัน DP (Data Processing System) หรือ TPS (Transaction Processing System) สำหรับผู้ปฏิบัติงานระดับปฏิบัติการ ทำหน้าที่บันทึก จัดเก็บ ประมวลผลรายการที่เกิดขึ้นในแต่ละวัน ด้วยระบบคอมพิวเตอร์แทนการทำงานด้วยมือ เช่น ระบบจองบัตรโดยสารเครื่องบิน ระบบฝากถอนเงินอัตโนมัติ ระบบแคชเชียร์
  2. ระบบสารสนเทศเพื่อการจัดการ (Management Information System หรือ MIS) สำหรับผู้ปฏิบัติงานระดับกลาง ใช้ในการวางแผนการบริหารงาน ควบคุม โดยสามารถผลิตรายงานสรุปสารสนเทศตามคาบระยะเวลา ตามความต้องการ รายงานสภาวการณ์ผิดปกติ รายงานพยากรณ์ เพื่อให้ผู้บริหารสามารถควบคุม สั่งการ และวางแผนได้ถูกต้อง เช่น ระบบบริหารงานบุคลากร
  3. ระบบสนับสนุนการตัดสินใจ (Decision Support System หรือ DSS) สำหรับผู้บริหารในการตัดสินใจในการแก้ปัญหา โดยมีการนำข้อมูลทั้งภายในและภายนอกองค์กรมาประกอบกัน สามารถเสนอทางเลือกให้พิจารณา สามารถสร้างแบบจำลอง (Model) สถานการณ์ปัจจุบันของการดำเนินงานในองค์กร โดยผลลัพธ์ที่ได้จะอยู่ในรูปของรายงานเฉพาะกิจ รายงานพยากรณ์เหตุการณ์ เพื่อช่วยตัดสินใจ
  4. ระบบสนับสนุนการสร้างกลยุทธ์ (Executive Information System หรือ EIS) สำหรับผู้บริหารระดับสูง ทำหน้าที่ในการกำหนดแผนระยะยาวและเป้าหมายของกิจการ โดยอาศัยข้อมูลภายนอกเป็นส่วนมาก เช่น ข้อมูลคู่แข่ง ข้อมูลอุตสาหกรรม เพื่อให้ผู้บริหารสามารถนำข้อมูลที่ได้ ไปใช้ในการตรวจสอบควบคุมการดำเนินงานในองค์กร รวมถึงการตัดสินใจได้
  5. ระบบผู้เชี่ยวชาญ (Expert System หรือ ES) เป็นระบบคอมพิวเตอร์ที่ช่วยในการตัดสินใจแทนมนุษย์ โดยจัดการความรู้ด้วยหลักการทำงานด้วยระบบปัญญาประดิษฐ์ (Artificial Intelligence) สามารถตอบโต้กับผู้ใช้ในรูปแบบภาษาธรรมชาติได้
  6. ระบบบริหารฐานข้อมูล (Database Management System หรือ DBMS) เป็นระบบที่จัดการเกี่ยวกับฐานข้อมูล เพื่อ บันทึก รักษา ค้นคืน โดยข้อมูลที่จะอยู่ในรูปแบบตารางและตัวเลข (ไม่ใช่ภาษาธรรมชาติ) ซึ่งประกอบด้วยเรคอร์ดข้อมูล และมีฟิลด์ที่มีลักษณะเฉพาะ สามารถค้นหาได้ โดยการระบุค่าที่เป็นเอกลักษณ์
  7. ระบบค้นคืนสารสนเทศ (Information Retrieval System หรือ IR) เป็นระบบที่จัดการและประมวลผลสารสนเทศประเภทเอกสาร (Document) ในรูปแบบต่างๆ เช่น หนังสือ วารสาร บทความ ซึ่งเกี่ยวข้องกับการเก็บบันทึก การดึงเอกสาร และการแสดงรูปแบบ โดยใช้ลักษณะเด่นของเนื้อหาของเอกสารเป็นหลักในการค้นหาและดึงเอาเอกสารที่ต้องการออกมา โดยแยกแยะความเกี่ยวข้อง (Relevant) และความไม่เกี่ยวข้อง (Non-relevant) เช่น Yahoo, Google, MSN
ภาพรวมของระบบค้นคืนสารสนเทศ
  • เอกสารในปัจจุบันมีมาก จนไม่สามารถค้นหาได้รวดเร็ว
  • วิธีค้นคืน : ไม่อ่านเอกสารทั้งหมด  แต่ใช้ลักษณะเด่นของเนื้อหา โดยแยกตามความเกี่ยวข้อง (Relevant)


 ความแตกต่างระหว่างค้นคืนข้อมูล-สารสนเทศ

  • ค้นคืนข้อมูล (Data) เอกสารจะถูกบรรจุเป็นเซทของคำสำคัญ (Keyword)
  • ค้นคืนสารสนเทศ (Information) ใช้หัวข้อหรือประธานของประโยค (subject) เพียงคร่าวๆ

ส่วนที่ 1: การนำเข้าข้อมูล (Input)
    1. เกิดจากการป้อนข้อคำถาม Query ด้วยภาษาธรรมชาติ หรือการป้อนข้อมูลที่เป็น Metadata เกี่ยวกับเอกสารหรือข้อมูล เช่น
    • ป้อนข้อมูลที่อธิบายความเป็นมาของข้อมูล (Descriptive Metadata) เช่น ผู้แต่ง ชื่อเรื่อง แหล่งที่มา วันที่ สำนักพิมพ์ ความยาว
    • ป้อนข้อมูลที่อธิบายเนื้อหาของข้อมูล (Semantic Metadata) เช่น บทคัดย่อ คำสำคัญ รหัสหัวเรื่อง
    • ป้อนข้อมูลที่เป็นหัวเรื่อง (Subject terms)
    • ป้อนข้อมูลที่เป็นสารสนเทศของเว็บ (Web Metadata) เช่น Meta Tag ใน html
ส่วนที่ 2: การประมวลผลข้อมูล (Processor)
  • การจัดโครงสร้างของสารสนเทศในรูปแบบที่เหมาะสม ได้แก่ สร้างตัวแทนเอกสาร แบ่งแยกกลุ่ม จัดเก็บ ดึงข้อมูลตามที่ผู้ใช้ต้องการ โดยจะนำเอาข้อคำถาม (Query) ที่ถูกผู้ใช้ป้อนเข้ามา ไปเปรียบเทียบกับตัวแทนเอกสารที่มีอยู่ เพื่อดึงเอกสารที่มีความใกล้เคียง (Relevant) ออกมาให้ผู้ใช้

 ส่วนที่ 3: การแสดงผลลัพธ์ (Output)
  • ผลลัพธ์ที่ได้จะเป็นข้อความสั้นๆ เช่น ชื่อหนังสือ หมายเลขเอกสาร ชื่อผู้แต่ง สำนักพิมพ์ ซึ่งถ้าผู้ใช้เห็นว่าไม่ตรงกับสิ่งที่ต้องการ ก็สามารถปรับปรุงข้อคำถามใหม่เพื่อให้การสืบค้นตรงกับความต้องการมากที่สุด เป็นการตอบกลับ (feedback) หรือ กระบวนการค้นคืนซ้ำ
 4 ขั้นตอนการสร้างระบบ IR
  • การวิเคราะห์ข้อความ (Text Analysis) เป็นการหาตัวแทนของเอกสารที่เหมาะสม เพื่อแทนการนำข้อความทั้งหมดในเอกสารไปเก็บในระบบ (ลดเวลาและค่าใช้จ่าย)
  • การจัดแบ่งกลุ่มข้อมูล (Classification) เป็นการจัดกลุ่มข้อมูลด้วยตัวแทนเอกสารที่ได้
  • การเก็บบันทึกข้อมูลลงในแฟ้มข้อมูล เป็นการนำตัวแทนของเอกสารหรือดรรชนี (Index) ได้มาจัดเก็บแทนข้อความฉบับสมบูรณ์
  • การค้นคืนสารสนเทศ เป็นการเปรียบเทียบตัวแทนของเอกสารกับข้อคำถามของผู้ใช้ เพื่อวัดประสิทธิภาพและประสิทธิผลของระบบ
การประเมินผลระบบค้นคืนสารสนเทศ
ประสิทธิภาพ Efficiency วัดจากเนื้อที่ในการจัดเก็บหน่วยความจำ CPU Time (ความเร็ว)
ประสิทธผิล Effectiveness วัดจากค่าใช้จ่าย ต้นทุนในการสร้างระบบ


การประเมินผลระบบค้นคืนสารสนเทศ


Precision = Hit / Relevant
วัดความสามารถของระบบในการดึงเอกสารที่เกี่ยวข้องออกมา

Recall = Hit / Retrieved
วัดความสามารถของระบบในการขจัดเอกสารที่ไม่เกี่ยวข้องออกไป
  • Hit: เอกสารที่เกี่ยวข้องที่ถูกดึงออกมา
  • Wasted: เอกสารที่ไม่เกี่ยวข้องที่ถูกดึงออกมา
  • Missed: เอกสารที่เกี่ยวข้องที่ไม่ถูกดึงออกมา
  • Passed: เอกสารที่ไม่เกี่ยวข้องที่ไม่ถูกดึงออกมา


วิวัฒนาการของระบบค้นคืนสารสนเทศ
  • ปี ค.ศ. 1960-70 เริ่มต้นสำรวจระบบค้นคืนข้อความที่มีขนาดเล็กที่เป็นบทคัดย่อทางวิทยาศาสตร์ กฎหมาย หรือเอกสารด้านธุรกิจ มีการพัฒนา บูลีนพื้นฐาน และ Vevtor Space Model สำหรับการค้นคืนสารสนเทศ
  • ปี ค.ศ. 1980 พัฒนาเป็นระบบสืบค้นข้อมูลเอกสารขนาดใหญ่ที่มีการปฏิบัติงานในหลายๆ บริษัท เช่น Lexis-Nexis/MEDLINE
  • ปี ค.ศ. 1990 มีการสืบค้น FTP และ World Wide Web เช่น Lycos, Yahoo, Altavista, WebCrawler
  • ปี ค.ศ. 2000 จนถึงปัจจุบัน มีการเชื่อมโยงด้วยการวิเคราะห์จากสื่อผสม เช่น ภาพ เสียง เพลง วีดีโอ สรุปเอกสาร เช่น Google
ผลการสำรวจผู้ใช้เว็บ Excite
ปี ค.ศ. 1997 จาก Query ทั้งหมด 50,000 คำ พบว่าเทอม (Terms) ที่ใช้บ่อยมากได้แก่



ผลการสำรวจจาก 31 ล้านเทอม (Terms)
จากการวิเคราะห์ 49 ล้านเว็บเพจ สามารถสรุปได้ว่าคำที่มีจำนวนมาก ได้แก่คำดังต่อไปนี้


IR Model จำแนกคุณลักษณะเฉพาะออกเป็น 4 พารามิเตอร์ คือ
  • การสร้างตัวแทนเอกสารหรือข้อสอบถาม (Representation for documents and queries)
  • การจับคู่จากความคล้ายคลึงของเอกสารกับข้อคำถามของผู้ใช้ (Matching strategies for assessing the relevance of documents to a user query)
  • การจัดลำดับผลลัพธ์จากข้อสอบถาม (Methods of ranking query output)
  • การได้มาของระบบตอบกลับ (Mechanisms for acquiring user-relevance feedback)
IR Model แบ่งออกเป็น 4 ชนิด
Set Theoretic Model or Boolean Model : ใช้บูลีนโมเดล อยู่บนพื้นฐานของแนวความคิดเชิงตรรกะหรือพีชคณิตบูลีน (Boolean Algebra) เช่น AND (ทั้งสองคำที่ถูกเชื่อม) , OR (อย่างใดอย่างหนึ่ง) และ NOT (ทั้งหมดที่ไม่อยู่ในคำที่กำหนด) – ใช้ได้เฉพาะกรณีชุดเอกสารที่เล็กน้อย เพราะเป็นการดึงข้อมูลมาทั้งหมด
  • Retrieval Status Value (RSV) มาตรการเกี่ยวกับการคิวรี่เอกสารที่มีความคล้ายคลึง (ค่า RSV =1 = true)
  • ยากต่อการให้น้ำหนักของคำ จะได้แค่ว่าจะปรากฏหรือไม่ปรากฏเท่านั้น
  • การเชื่อมต่อของบูลีนอาจทำให้ค้นคืนผิด เนื่องจากคิวรี่ระบุผิด
  • Fuzzy Set Model สมาชิกแต่ละตัวที่อยู่ใน Set ข้อมูลจะมีระดับสมาชิก (Grade) ซึ่งค่าสมาชิกจะถูกกำหนดในช่วง 0-1
ข้อดี
  • นิยมใช้ ใช้งานง่าย มีประสิทธิภาพ
  • เข้าใจง่าย มีรูปแบบที่แน่นอน หาแบบใช่ ไม่ใช่ เจอ ไม่เจอ
  • เวลา Query กำหนดความต้องการได้ว่าจะเอาคำไหน ทำให้รูปแบบไม่ซับซ้อน
ข้อเสีย
  • ไม่มีการจัดลำดับ Ranking และไม่มีการเปรียบเทียบ Relevance
  • Query แบบซับซ้อนไม่ได้ เพราะว่ามี expression แค่ And, Or, Not
  • ควบคุมจำนวนเอกสารยาก

Algebraic Model or Vector Space Model : ให้ความสำคัญกับความถี่ของคำที่ปรากฏในเอกสาร ซึ่งความถี่ของคำมีผลต่อการให้น้ำหนักของคำ เช่น Term Frequency เจอ 1 ครั้ง โดย Term จะแทนคำศัพท์ของแต่ละคำ
  • Term Weight (น้ำหนักของคำ) ความถี่ของคำหนึ่งคำที่พบในทุกเอกสาร
  • สามารถจัดอันดับของเอกสาร (Ranking) ได้ โดยใช้เกณฑ์ความสำคัญของคำและการ Match กันของคำ
  • การกำหนดน้ำหนักให้กับคำเป็นกระบวนการซับซ้อน โดยอาจจะขึ้นอยู่กับความถี่ของคำ เช่น ยิ่งปรากฏบ่อยยิ่งมีความสำคัญมาก (ข้อยกเว้นได้แก่คำเชื่อม เช่น The, a, and, of)
ข้อดี
  • ใช้คณิตศาสตร์เรียบง่ายในการคิด มีการพิจารณาความถี่ของคำ
  • สามารถจัด Ranking ของเอกสารได้ ใช้กับเอกสารที่มีข้อมูลมากๆ ได้ดี
ข้อเสีย
  • ไม่สนใจความหมายของคำ, วลี, โครงสร้างของคำ, คำที่มีความหมายเหมือนกัน (Synonymy)
  • สืบค้นใส่เงื่อนไขแบบ Boolean Model ไม่ได้

Probabilistic Model : คล้ายกับ Fuzzy Set Model แต่ระบุเพิ่มเติมว่าฟังก์ชั่นสมาชิก หรือฟังก์ชั่นตัดสินที่ถูกใช้เป็นแบบน่าจะเป็น มีข้อกำหนดเพิ่มเติมว่า คำขอต้องเป็นแบบความน่าจะเป็นโดยคำนวณจากข้อมูลความถี่ของคำ

Hybrid Model : เป็นการปรับปรุงข้อเสียของBoolean Model คือไม่รวมน้ำหนักของคำ กับข้อเสียของ Vector Space Model คือไม่สามารถทำการเชื่อมต่อทางตรรกะได้โดยง่าย ให้สามารถทำได้ทั้งสองย่าง กลายเป็น Extended Boolean Model



นำเสนอ ผู้ช่วยศาสตราจารย์ ดร.อาษา ตั้งจิตสมคิด
รหัสวิชา ITM 641 การจัดระเบียบสารสนเทศและการค้นคืน
หลักสูตรวิทยาศาสตร์มหาบัณฑิต สาขาวิชาการจัดการเทคโนโลยีสารสนเทศ มหาวิทยาลัยรังสิต
สรุปโดย: นาย เธียรพงศ์ เสรีธนาวงศ์ รหัส 5307299 และนายศรีศักดิ์ ชลัษเฐียร รหัส 5308858

แหล่งที่มาและภาพประกอบ:
- เว็บไซต์ Gettyimages.com
- เว็บไซต์ Google
 
ดาวน์โหลดไฟล์ powerpoint คลิกที่นี่

ไม่มีความคิดเห็น:

แสดงความคิดเห็น