หมวด 31 โปรแกรมถามตอบจากคลังข้อมูลวิกิพีเดียภาษาไทยครั้งที่ 2 (Question answering program from Thai Wikipedia)
เป็นการแข่งขันพัฒนาโปรแกรมถามตอบภาษาไทยซึ่งมีวัตถุประสงค์เพื่อให้ผู้เข้าแข่งขันพัฒนาโปรแกรมค้นหาคำตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย โดยผู้จัดการแข่งขันได้จัดเตรียมชุดข้อมูลสำหรับฝึกฝนและทดสอบโปรแกรม ซึ่งชุดข้อมูลนี้ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน และชุดข้อมูลที่ใช้ในการแข่งขันนี้ประกอบด้วยคำถาม 2 ประเภท คือ
1. คำถามที่เป็นข้อเท็จจริง (Factoid question answering) เป็นคำถามที่ง่ายๆ ถามเกี่ยวกับข้อเท็จจริงและเป็นคำถามที่มีคำตอบจริง โดยจะมีคำแสดงคำถามได้แก่ ใคร อะไร ไหน ที่ไหน เมื่อไร ใด กี่ เท่าไร ยกตัวอย่างเช่น
(1) คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร คำตอบ: ปรีดี พนมยงค์
(2) คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร คำตอบ: ซูโม่
(3) คำถาม: ออสเตรเลียเป็นประเทศร่ำรวยเป็นอันดับที่เท่าไรของโลก คำตอบ: 12
(4) คำถาม: พระกระโดดกำแพงเป็นอาหารประจำชาติไหนในทวีปเอเชีย คำตอบ: จีน
(5) คำถาม: รายงานความสุขโลกเป็นดัชนีวัดความสุขเผยแพร่โดยใคร คำตอบ: สหประชาชาติ
2. คำถามตอบรับหรือปฏิเสธ (Yes/No question answering) เป็นคำถามตอบรับหรือปฏิเสธ โดยจะมีคำแสดงคำถามได้แก่ ใช่หรือไม่, ใช่ไหม, ใช่มั้ย, ใช่หรือไม่ใช่, หรือไม่ ยกตัวอย่างเช่น
(1) คำถาม: เทพีจูโนเป็นเทพีในตำนานเทพปกรณัมโรมัน ที่มีตำแหน่งเทียบเท่ากับเทพีเฮราในตำนานเทพปกรณัมกรีกใช่หรือไม่ คำตอบ: ใช่
(2) คำถาม: หนอนคอมพิวเตอร์คือหน่วยย่อยลงมาจากไวรัสคอมพิวเตอร์ ซึ่งมักจะแพร่กระจายโดยผ่านการใช้งานของผู้ใช้จริงหรือไม่ คำตอบ: ไม่ใช่
คุณสมบัติของผู้เข้าร่วมโครงการ
- เป็นนักเรียน นิสิต นักศึกษา อาจารย์ หรือบุคคลทั่วไป
- ในกรณีเป็น นักเรียน หรือนักศึกษา ต้องมีอาจารย์และหัวหน้าสถาบันการศึกษาให้การรับรองว่าเป็นนักเรียน นิสิต นักศึกษา ที่กำลังศึกษาอยู่ในสถาบันนั้นๆ จริง
เงื่อนไขในการเข้าร่วมโครงการ
- ผู้เสนอโครงการมีสิทธิ์เสนอเพียงคนละ 1 โครงการ และส่งได้ 1 ประเภท โครงการหนึ่งมีทีมพัฒนาได้ไม่เกิน 3 คน โดยมีอาจารย์ที่ปรึกษาลงนามรับรอง
- ระยะเวลาในการดำเนินโครงการประมาณ 3 เดือน ผู้เสนอโครงการที่ได้รับทุนสนับสนุนจากเนคเทค ต้องส่งผลงานตามเวลาที่ระบุ
- ทุกโครงการต้องดำเนินการจัดทำข้อตกลงการรับทุนให้แล้วเสร็จภายในระยะเวลาที่กำหนด (ประมาณเดือนพฤศจิกายน)
- ทรัพย์สินทางปัญญาของผลงานที่เกิดขึ้นเป็นของผู้พัฒนา ทั้งนี้ เนคเทคสามารถนำผลงานไปเผยแพร่ต่อสาธารณชน หรือโฆษณาประชาสัมพันธ์ เพื่อการศึกษา วิจัย ติชม วิจารณ์ หรือแนะนำผลงานได้
- ในการเผยแพร่ประชาสัมพันธ์ข้อมูลข่าวสารเกี่ยวกับการพัฒนาโครงการ ผู้พัฒนาจะต้องระบุข้อความหรือแจ้งให้สาธารณชนทราบว่า ได้รับทุนสนับสนุนจากเนคเทค
- หากผู้รับทุนไม่สามารถพัฒนาผลงานได้ตามที่เสนอ จะต้องมีหนังสือเป็นลายลักษณ์อักษรเพื่อขอยกเลิกและส่งคืนเงินทุนให้แก่เนคเทค
- ผลงานที่ผ่านการตรวจรับจะได้รับคัดเลือกตามเกณฑ์ที่กำหนด โดยจะคัดเลือกผลงานที่ยอดเยี่ยมเข้าสู่การแข่งขันรอบสุดท้าย เพื่อชิงชนะเลิศและรับเงินรางวัลแต่ละประเภท โดยมีคณะกรรมการผู้เชี่ยวชาญเป็นผู้ตัดสิน
- ผู้พัฒนาต้องติดตามข้อมูลข่าวสารที่ทางเนคเทค หรือ ศูนย์ประสานงาน ประกาศเป็นระยะๆ ผ่านทางเว็บไซต์ อีเมล์ หรือ จดหมาย ตลอดจนให้ความร่วมมือในการแจ้งปรับปรุงข้อมูลของผู้พัฒนา หากมีการเปลี่ยนแปลงจากข้อเสนอโครงการแก่เนคเทค และศูนย์ประสานงาน เป็นลายลักษณ์อักษรทุกครั้ง เพื่อผลประโยชน์ของผู้พัฒนาเอง
- การรับเงินทุนสนับสนุน สามารถติดต่อขอรับเงินทุนสนับสนุนทั้ง 2 งวด และเงินสนับสนุนการประกวดรอบชิงชนะเลิศได้จากศูนย์ประสานงานโครงการที่สังกัด
- การรับเงินรางวัลในรอบชิงชนะเลิศ สามารถติดต่อขอรับเงินรางวัลได้ที่ เนคเทค เท่านั้น
การแข่งขันรอบ 1 (ข้อเสนอโครงการ) ภายใน 20 กันยายน 2562
ผู้เข้าแข่งขันจะต้องส่งข้อเสนอโครงการให้กรรมการพิจารณา โดยข้อเสนอจะต้องกล่าวถึงเทคนิคที่คาดว่าจะใช้ในการพัฒนา พร้อมทั้งเครื่องมือที่ใช้ในการพัฒนา โดยละเอียด เพื่อให้กรรมการพิจารณาได้ถึงความเป็นไปได้ที่จะสำเร็จ (และเพื่อให้กรรมการจะได้ให้ข้อแนะนำในการพัฒนาได้) ถ้าผู้เข้าแข่งขันผ่านเข้ารอบข้อเสนอโครงการรอบแรก ทางผู้จัดจะส่งชุดข้อมูลคำถามคำตอบเพื่อสำหรับพัฒนาโปรแกรมและโมเดลจำนวน 10,000 ชุด (Development dataset) ให้ทางอีเมล
การแข่งขันรอบ 2 (ภูมิภาค)
ผู้เข้าแข่งขันจะได้รับชุดคำถาม (Validation dataset) จากทางคณะกรรมการเพื่อวัดประสิทธิภาพของโปรแกรมคำถามคำตอบ โดยชุดนี้จะมีเฉพาะคำถามที่ใช้รูปแบบประโยคคำถามที่แตกต่างกันและเป็นคำถามที่ไม่เคยมีในชุด development dataset
การแข่งขันรอบ 3 (ชิงชนะเลิศ)
ผู้เข้าแข่งขันจะได้รับชุดคำถาม (Evaluation dataset) จากทางคณะกรรมการในวันแข่งรอบชิงชนะเลิศเพื่อวัดประสิทธิภาพของโปรแกรมคำถามคำตอบ โดยชุดนี้จะมีเฉพาะคำถามที่ใช้รูปแบบประโยคคำถามที่แตกต่างกันและเป็นคำถามที่ไม่เคยมีในชุด development dataset โดยระยะเวลาในการวัดประสิทธิภาพโมเดลอยู่ในช่วง 9.00 -16.00 น.
ศึกษาคู่มือการแข่งขัน และสมัครแข่งขันได้ที่ https://nsc.siit.tu.ac.th/GENA/login.php
โครงการที่ผ่านการพิจารณาจะได้รับทุนสนับสนุน รวมโครงการละ ๑๒,๐๐๐ บาท โดยมีรายละเอียด ดังนี้ ๑. ผ่านการพิจารณารอบแรก (รอบคัดเลือกข้อเสนอโครงการ) ได้รับทุนสนับสนุนโครงการละ ๓,๐๐๐ บาท (สามพันบาทถ้วน) ๒. ผ่านการพิจารณารอบสอง (รอบนำเสนอผลงาน) ได้รับทุนสนับสนุนโครงการละ ๙,๐๐๐ บาท (เก้าพันบาทถ้วน) โดยทีมผู้พัฒนาได้รับ ๗,๐๐๐ บาท (เจ็ดพันบาทถ้วน) และอาจารย์ที่ปรึกษาได้รับ ๒,๐๐๐ บาท (สองพันบาทถ้วน)
สำหรับผลงานที่ผ่านการพิจารณาในรอบชิงชนะเลิศ จะมีเงินรางวัล เกียรติบัตร พร้อมโล่รางวัล รายละเอียดดังนี้ รางวัลที่ ๑ เงินรางวัล ๖๐,๐๐๐ บาท (หกหมื่นบาทถ้วน) และถ้วยพระราชทานจาก สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี (เฉพาะประเภทนักเรียน และ นิสิต นักศึกษา) รางวัลที่ ๒ เงินรางวัล ๔๐,๐๐๐ บาท (สี่หมื่นบาทถ้วน) รางวัลที่ ๓ เงินรางวัล ๒๐,๐๐๐ บาท (สองหมื่นบาทถ้วน) รางวัลชมเชย เงินรางวัล ประเภทละ ๒ รางวัลๆ ละ ๑๐,๐๐๐ บาท (หนึ่งหมื่นบาทถ้วน)
ทั้งนี้ เงินรางวัลทุกประเภท จะแบ่งเป็น ๒ ส่วน โดยมอบให้ทีมผู้พัฒนา จำนวน ๘๐% และอาจารย์ที่ปรึกษา ๒๐% ส่วนสถาบันการศึกษาที่ได้รับรางวัลที่ ๑, ๒ และ ๓ ในแต่ละประเภท จะได้รับโล่รางวัลจากเนคเทค
ทางผู้จัดการแข่งขันได้ทำการจัดเตรียมคลังข้อมูลวิกิพีเดียภาษาไทย (Thai Wikipedia corpus) จำนวนกว่า 100,000 เรื่อง และชุดข้อมูลคำถามคำตอบ (Development dataset) จำนวนกว่า 10,000 ชุด สำหรับให้ผู้เข้าแข่งขันพัฒนาและทดสอบโปรแกรม
รายละเอียดของ tag มีดังนี้
- question_id คือ รหัสคำถาม
- question_type คือ ประเภทคำถาม (1=factoid, 2=yes/no)
- question คือ คำถาม
- answer คือ คำตอบ
- answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ
- answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ
- article_id คือ รหัสบทความวิกิพีเดีย
คลังข้อมูลวิกิพีเดียภาษาไทย ดาวน์โหลด
ตัวอย่างชุดข้อมูลคำถามคำตอบจำนวน 100 ชุด (Sample dataset) ดาวน์โหลด
ผู้เข้าแข่งขันต้องแสดงผลลัพธ์ออกมาเป็นไฟล์ JSON โดยมีรายละเอียดดังนี้
ตัวอย่างไฟล์ผลลัพธ์ ดาวน์โหลด
รายละเอียดของ tag มีดังนี้
- question_id คือ รหัสคำถาม
- question คือ คำถาม
- answer คือ คำตอบ
- answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ
- answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ
- article_id คือ รหัสบทความวิกิพีเดีย
ผู้จัดการแข่งขันมีเกณฑ์การวัดประสิทธิภาพความถูกต้องของโปรแกรมถามตอบภาษาไทย โดยวัดจากความถูกต้อง (Accuracy) ของโปรแกรมในการตอบคำถาม
- สันติพงษ์ ไทยประยูร โทรศัพท์: 02-564-6900 ต่อ 2288 อีเมล: santipong.thaiprayoon@nectec.or.th
แก้ไขข้อมูลล่าสุดเมื่อ 14 สิงหาคม 2562