หมวด 31 โปรแกรมถามตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย (Question answering program from Thai Wikipedia)

poster


หัวข้อการแข่งขัน

         เป็นการแข่งขันพัฒนาโปรแกรมถามตอบภาษาไทยซึ่งมีวัตถุประสงค์เพื่อให้ผู้เข้าแข่งขันพัฒนาโปรแกรมค้นหาคำตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย โดยผู้จัดการแข่งขันได้จัดเตรียมชุดข้อมูลสำหรับฝึกฝนและทดสอบโปรแกรม ซึ่งชุดข้อมูลนี้ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน ยกตัวอย่างเช่น

(1) คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร คำตอบ: ปรีดี พนมยงค์

(2) คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร คำตอบ: ซูโม่


คุณสมบัติผู้สมัคร

คุณสมบัติของผู้เข้าร่วมโครงการ

  • เป็นนักเรียน นิสิต นักศึกษา อาจารย์ หรือบุคคลทั่วไป
  • ในกรณีเป็น นักเรียน หรือนักศึกษา ต้องมีอาจารย์และหัวหน้าสถาบันการศึกษาให้การรับรองว่าเป็นนักเรียน นิสิต นักศึกษา ที่กำลังศึกษาอยู่ในสถาบันนั้นๆ จริง

เงื่อนไขในการเข้าร่วมโครงการ

  • ผู้เสนอโครงการมีสิทธิ์เสนอเพียงคนละ 1 โครงการ และส่งได้ 1 ประเภท โครงการหนึ่งมีทีมพัฒนาได้ไม่เกิน 3 คน โดยมีอาจารย์ที่ปรึกษาลงนามรับรอง
  • ระยะเวลาในการดำเนินโครงการประมาณ 3 เดือน ผู้เสนอโครงการที่ได้รับทุนสนับสนุนจากเนคเทค ต้องส่งผลงานตามเวลาที่ระบุ
  • ทุกโครงการต้องดำเนินการจัดทำข้อตกลงการรับทุนให้แล้วเสร็จภายในระยะเวลาที่กำหนด (ประมาณเดือนพฤศจิกายน)
  • ทรัพย์สินทางปัญญาของผลงานที่เกิดขึ้นเป็นของผู้พัฒนา ทั้งนี้ เนคเทคสามารถนำผลงานไปเผยแพร่ต่อสาธารณชน หรือโฆษณาประชาสัมพันธ์ เพื่อการศึกษา วิจัย ติชม วิจารณ์ หรือแนะนำผลงานได้
  • ในการเผยแพร่ประชาสัมพันธ์ข้อมูลข่าวสารเกี่ยวกับการพัฒนาโครงการ ผู้พัฒนาจะต้องระบุข้อความหรือแจ้งให้สาธารณชนทราบว่า ได้รับทุนสนับสนุนจากเนคเทค
  • หากผู้รับทุนไม่สามารถพัฒนาผลงานได้ตามที่เสนอ จะต้องมีหนังสือเป็นลายลักษณ์อักษรเพื่อขอยกเลิกและส่งคืนเงินทุนให้แก่เนคเทค
  • ผลงานที่ผ่านการตรวจรับจะได้รับคัดเลือกตามเกณฑ์ที่กำหนด โดยจะคัดเลือกผลงานที่ยอดเยี่ยมเข้าสู่การแข่งขันรอบสุดท้าย เพื่อชิงชนะเลิศและรับเงินรางวัลแต่ละประเภท โดยมีคณะกรรมการผู้เชี่ยวชาญเป็นผู้ตัดสิน
  • ผู้พัฒนาต้องติดตามข้อมูลข่าวสารที่ทางเนคเทค หรือ ศูนย์ประสานงาน ประกาศเป็นระยะๆ ผ่านทางเว็บไซต์ อีเมล์ หรือ จดหมาย ตลอดจนให้ความร่วมมือในการแจ้งปรับปรุงข้อมูลของผู้พัฒนา หากมีการเปลี่ยนแปลงจากข้อเสนอโครงการแก่เนคเทค และศูนย์ประสานงาน เป็นลายลักษณ์อักษรทุกครั้ง เพื่อผลประโยชน์ของผู้พัฒนาเอง
  • การรับเงินทุนสนับสนุน สามารถติดต่อขอรับเงินทุนสนับสนุนทั้ง 2 งวด และเงินสนับสนุนการประกวดรอบชิงชนะเลิศได้จากศูนย์ประสานงานโครงการที่สังกัด
  • การรับเงินรางวัลในรอบชิงชนะเลิศ สามารถติดต่อขอรับเงินรางวัลได้ที่ เนคเทค เท่านั้น


การแข่งขัน

การแข่งขันรอบ 1 (ข้อเสนอโครงการ) ภายใน 1 ตุลาคม 2561

         ผู้เข้าแข่งขันจะต้องส่งข้อเสนอโครงการให้กรรมการพิจารณา โดยข้อเสนอจะต้องกล่าวถึงเทคนิคที่คาดว่าจะใช้ในการพัฒนา พร้อมทั้งเครื่องมือที่ใช้ในการพัฒนา โดยละเอียด เพื่อให้กรรมการพิจารณาได้ถึงความเป็นไปได้ที่จะสำเร็จ (และเพื่อให้กรรมการจะได้ให้ข้อแนะนำในการพัฒนาได้)

การแข่งขันรอบ 2 (ภูมิภาค)

         ผู้เข้าแข่งขันจะได้รับชุดคำถาม คำตอบ เพื่อนำไปพัฒนาและทดสอบโปรแกรม

การแข่งขันรอบ 3 (ชิงชนะเลิศ)

         ผู้เข้าแข่งขันจะได้รับชุดคำถามและคำตอบจากทางคณะกรรมการในวันแข่งรอบชิงชนะเลิศเพื่อวัดประสิทธิภาพของโปรแกรมคำถามคำตอบ โดยระยะเวลาอยู่ในช่วง 9.00 -16.00 น.


การส่งข้อเสนอโครงการ

         ศึกษารายละเอียดการแข่งขันเพิ่มเติมได้ที่ http://fic.nectec.or.th/nsc21


เงินทุนและรางวัล

         โครงการที่ผ่านการพิจารณาจะได้รับทุนสนับสนุน รวมโครงการละ ๑๒,๐๐๐ บาท โดยมีรายละเอียด ดังนี้ ๑. ผ่านการพิจารณารอบแรก (รอบคัดเลือกข้อเสนอโครงการ) ได้รับทุนสนับสนุนโครงการละ ๓,๐๐๐ บาท (สามพันบาทถ้วน) ๒. ผ่านการพิจารณารอบสอง (รอบนำเสนอผลงาน) ได้รับทุนสนับสนุนโครงการละ ๙,๐๐๐ บาท (เก้าพันบาทถ้วน) โดยทีมผู้พัฒนาได้รับ ๗,๐๐๐ บาท (เจ็ดพันบาทถ้วน) และอาจารย์ที่ปรึกษาได้รับ ๒,๐๐๐ บาท (สองพันบาทถ้วน)

         สำหรับผลงานที่ผ่านการพิจารณาในรอบชิงชนะเลิศ จะมีเงินรางวัล เกียรติบัตร พร้อมโล่รางวัล รายละเอียดดังนี้ รางวัลที่ ๑ เงินรางวัล ๖๐,๐๐๐ บาท (หกหมื่นบาทถ้วน) และถ้วยพระราชทานจาก สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี (เฉพาะประเภทนักเรียน และ นิสิต นักศึกษา) รางวัลที่ ๒ เงินรางวัล ๔๐,๐๐๐ บาท (สี่หมื่นบาทถ้วน) รางวัลที่ ๓ เงินรางวัล ๒๐,๐๐๐ บาท (สองหมื่นบาทถ้วน) รางวัลชมเชย เงินรางวัล ประเภทละ ๒ รางวัลๆ ละ ๑๐,๐๐๐ บาท (หนึ่งหมื่นบาทถ้วน)

         ทั้งนี้ เงินรางวัลทุกประเภท จะแบ่งเป็น ๒ ส่วน โดยมอบให้ทีมผู้พัฒนา จำนวน ๘๐% และอาจารย์ที่ปรึกษา ๒๐% ส่วนสถาบันการศึกษาที่ได้รับรางวัลที่ ๑, ๒ และ ๓ ในแต่ละประเภท จะได้รับโล่รางวัลจากเนคเทค


ชุดข้อมูลคำถามคำตอบภาษาไทยสำหรับพัฒนาโปรแกรม

         ทางผู้จัดการแข่งขันได้ทำการจัดเตรียมคลังข้อมูลวิกิพีเดียภาษาไทย (Thai Wikipedia corpus) จำนวนกว่า 100,000 เรื่อง และชุดข้อมูลคำถามคำตอบ (Development data set) จำนวน 4,000 ชุด สำหรับให้ผู้เข้าแข่งขันพัฒนาและทดสอบโปรแกรม

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


ตัวอย่างข้อมูล

คลังข้อมูลวิกิพีเดียภาษาไทย ดาวน์โหลด

ตัวอย่างชุดข้อมูลคำถามคำตอบจำนวน 100 ชุด (Sample data set) ดาวน์โหลด


ตัวอย่างรูปแบบไฟล์ผลลัพธ์

ผู้เข้าแข่งขันต้องแสดงผลลัพธ์ออกมาเป็นไฟล์ JSON โดยมีรายละเอียดดังนี้

ตัวอย่างไฟล์ผลลัพธ์ ดาวน์โหลด

output-json-qa

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


การวัดความถูกต้อง

         ผู้จัดการแข่งขันมีเกณฑ์การวัดประสิทธิภาพความถูกต้องของโปรแกรมถามตอบภาษาไทย โดยวัดจากความถูกต้อง (Accuracy) ของโปรแกรมในการตอบคำถาม


สอบถามรายละเอียดเพิ่มเติม

  • สันติพงษ์ ไทยประยูร โทรศัพท์: 02-564-6900 ต่อ 2288 อีเมล: santipong.thaiprayoon@nectec.or.th


ลิขสิทธิ์

         ชุดข้อมูลคำถามคำตอบเป็นลิขสิทธิ์ของศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ อนุญาตให้นำไปเผยแพร่ได้โดยต้องระบุที่มา และไม่ใช้เพื่อการค้า ตามสัญญาอนุญาตเดียวกันกับ Creative Commons BY-SA 3.0

CC_BY-SA_3.0


แก้ไขข้อมูลล่าสุดเมื่อ 30 สิงหาคม 2561