หมวด 31 โปรแกรมถามตอบจากคลังข้อมูลวิกิพีเดียภาษาไทยครั้งที่ 2 (Question answering program from Thai Wikipedia)

poster


หัวข้อการแข่งขัน

         เป็นการแข่งขันพัฒนาโปรแกรมถามตอบภาษาไทยซึ่งมีวัตถุประสงค์เพื่อให้ผู้เข้าแข่งขันพัฒนาโปรแกรมค้นหาคำตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย โดยผู้จัดการแข่งขันได้จัดเตรียมชุดข้อมูลสำหรับฝึกฝนและทดสอบโปรแกรม ซึ่งชุดข้อมูลนี้ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน และชุดข้อมูลที่ใช้ในการแข่งขันนี้ประกอบด้วยคำถาม 2 ประเภท คือ

1. คำถามที่เป็นข้อเท็จจริง (Factoid question answering) เป็นคำถามที่ง่ายๆ ถามเกี่ยวกับข้อเท็จจริงและเป็นคำถามที่มีคำตอบจริง โดยจะมีคำแสดงคำถามได้แก่ ใคร อะไร ไหน ที่ไหน เมื่อไร ใด กี่ เท่าไร ยกตัวอย่างเช่น

(1) คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร คำตอบ: ปรีดี พนมยงค์

(2) คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร คำตอบ: ซูโม่

(3) คำถาม: ออสเตรเลียเป็นประเทศร่ำรวยเป็นอันดับที่เท่าไรของโลก คำตอบ: 12

(4) คำถาม: พระกระโดดกำแพงเป็นอาหารประจำชาติไหนในทวีปเอเชีย คำตอบ: จีน

(5) คำถาม: รายงานความสุขโลกเป็นดัชนีวัดความสุขเผยแพร่โดยใคร คำตอบ: สหประชาชาติ

2. คำถามตอบรับหรือปฏิเสธ (Yes/No question answering) เป็นคำถามตอบรับหรือปฏิเสธ โดยจะมีคำแสดงคำถามได้แก่ ใช่หรือไม่, ใช่ไหม, ใช่มั้ย, ใช่หรือไม่ใช่, หรือไม่ ยกตัวอย่างเช่น

(1) คำถาม: เทพีจูโนเป็นเทพีในตำนานเทพปกรณัมโรมัน ที่มีตำแหน่งเทียบเท่ากับเทพีเฮราในตำนานเทพปกรณัมกรีกใช่หรือไม่ คำตอบ: ใช่

(2) คำถาม: หนอนคอมพิวเตอร์คือหน่วยย่อยลงมาจากไวรัสคอมพิวเตอร์ ซึ่งมักจะแพร่กระจายโดยผ่านการใช้งานของผู้ใช้จริงหรือไม่ คำตอบ: ไม่ใช่


คุณสมบัติผู้สมัคร

คุณสมบัติของผู้เข้าร่วมโครงการ

  • เป็นนักเรียน นิสิต นักศึกษา อาจารย์ หรือบุคคลทั่วไป
  • ในกรณีเป็น นักเรียน หรือนักศึกษา ต้องมีอาจารย์และหัวหน้าสถาบันการศึกษาให้การรับรองว่าเป็นนักเรียน นิสิต นักศึกษา ที่กำลังศึกษาอยู่ในสถาบันนั้นๆ จริง

เงื่อนไขในการเข้าร่วมโครงการ

  • ผู้เสนอโครงการมีสิทธิ์เสนอเพียงคนละ 1 โครงการ และส่งได้ 1 ประเภท โครงการหนึ่งมีทีมพัฒนาได้ไม่เกิน 3 คน โดยมีอาจารย์ที่ปรึกษาลงนามรับรอง
  • ระยะเวลาในการดำเนินโครงการประมาณ 3 เดือน ผู้เสนอโครงการที่ได้รับทุนสนับสนุนจากเนคเทค ต้องส่งผลงานตามเวลาที่ระบุ
  • ทุกโครงการต้องดำเนินการจัดทำข้อตกลงการรับทุนให้แล้วเสร็จภายในระยะเวลาที่กำหนด (ประมาณเดือนพฤศจิกายน)
  • ทรัพย์สินทางปัญญาของผลงานที่เกิดขึ้นเป็นของผู้พัฒนา ทั้งนี้ เนคเทคสามารถนำผลงานไปเผยแพร่ต่อสาธารณชน หรือโฆษณาประชาสัมพันธ์ เพื่อการศึกษา วิจัย ติชม วิจารณ์ หรือแนะนำผลงานได้
  • ในการเผยแพร่ประชาสัมพันธ์ข้อมูลข่าวสารเกี่ยวกับการพัฒนาโครงการ ผู้พัฒนาจะต้องระบุข้อความหรือแจ้งให้สาธารณชนทราบว่า ได้รับทุนสนับสนุนจากเนคเทค
  • หากผู้รับทุนไม่สามารถพัฒนาผลงานได้ตามที่เสนอ จะต้องมีหนังสือเป็นลายลักษณ์อักษรเพื่อขอยกเลิกและส่งคืนเงินทุนให้แก่เนคเทค
  • ผลงานที่ผ่านการตรวจรับจะได้รับคัดเลือกตามเกณฑ์ที่กำหนด โดยจะคัดเลือกผลงานที่ยอดเยี่ยมเข้าสู่การแข่งขันรอบสุดท้าย เพื่อชิงชนะเลิศและรับเงินรางวัลแต่ละประเภท โดยมีคณะกรรมการผู้เชี่ยวชาญเป็นผู้ตัดสิน
  • ผู้พัฒนาต้องติดตามข้อมูลข่าวสารที่ทางเนคเทค หรือ ศูนย์ประสานงาน ประกาศเป็นระยะๆ ผ่านทางเว็บไซต์ อีเมล์ หรือ จดหมาย ตลอดจนให้ความร่วมมือในการแจ้งปรับปรุงข้อมูลของผู้พัฒนา หากมีการเปลี่ยนแปลงจากข้อเสนอโครงการแก่เนคเทค และศูนย์ประสานงาน เป็นลายลักษณ์อักษรทุกครั้ง เพื่อผลประโยชน์ของผู้พัฒนาเอง
  • การรับเงินทุนสนับสนุน สามารถติดต่อขอรับเงินทุนสนับสนุนทั้ง 2 งวด และเงินสนับสนุนการประกวดรอบชิงชนะเลิศได้จากศูนย์ประสานงานโครงการที่สังกัด
  • การรับเงินรางวัลในรอบชิงชนะเลิศ สามารถติดต่อขอรับเงินรางวัลได้ที่ เนคเทค เท่านั้น


การแข่งขัน

การแข่งขันรอบ 1 (ข้อเสนอโครงการ) ภายใน 20 กันยายน 2562

         ผู้เข้าแข่งขันจะต้องส่งข้อเสนอโครงการให้กรรมการพิจารณา โดยข้อเสนอจะต้องกล่าวถึงเทคนิคที่คาดว่าจะใช้ในการพัฒนา พร้อมทั้งเครื่องมือที่ใช้ในการพัฒนา โดยละเอียด เพื่อให้กรรมการพิจารณาได้ถึงความเป็นไปได้ที่จะสำเร็จ (และเพื่อให้กรรมการจะได้ให้ข้อแนะนำในการพัฒนาได้) ถ้าผู้เข้าแข่งขันผ่านเข้ารอบข้อเสนอโครงการรอบแรก ทางผู้จัดจะส่งชุดข้อมูลคำถามคำตอบเพื่อสำหรับพัฒนาโปรแกรมและโมเดลจำนวน 10,000 ชุด (Development dataset) ให้ทางอีเมล

การแข่งขันรอบ 2 (ภูมิภาค)

         ผู้เข้าแข่งขันจะได้รับชุดคำถาม (Validation dataset) จากทางคณะกรรมการเพื่อวัดประสิทธิภาพของโปรแกรมคำถามคำตอบ โดยชุดนี้จะมีเฉพาะคำถามที่ใช้รูปแบบประโยคคำถามที่แตกต่างกันและเป็นคำถามที่ไม่เคยมีในชุด development dataset

การแข่งขันรอบ 3 (ชิงชนะเลิศ)

         ผู้เข้าแข่งขันจะได้รับชุดคำถาม (Evaluation dataset) จากทางคณะกรรมการในวันแข่งรอบชิงชนะเลิศเพื่อวัดประสิทธิภาพของโปรแกรมคำถามคำตอบ โดยชุดนี้จะมีเฉพาะคำถามที่ใช้รูปแบบประโยคคำถามที่แตกต่างกันและเป็นคำถามที่ไม่เคยมีในชุด development dataset โดยระยะเวลาในการวัดประสิทธิภาพโมเดลอยู่ในช่วง 9.00 -16.00 น.


การส่งข้อเสนอโครงการ

         ศึกษาคู่มือการแข่งขัน และสมัครแข่งขันได้ที่ https://nsc.siit.tu.ac.th/GENA/login.php


เงินทุนและรางวัล

         โครงการที่ผ่านการพิจารณาจะได้รับทุนสนับสนุน รวมโครงการละ ๑๒,๐๐๐ บาท โดยมีรายละเอียด ดังนี้ ๑. ผ่านการพิจารณารอบแรก (รอบคัดเลือกข้อเสนอโครงการ) ได้รับทุนสนับสนุนโครงการละ ๓,๐๐๐ บาท (สามพันบาทถ้วน) ๒. ผ่านการพิจารณารอบสอง (รอบนำเสนอผลงาน) ได้รับทุนสนับสนุนโครงการละ ๙,๐๐๐ บาท (เก้าพันบาทถ้วน) โดยทีมผู้พัฒนาได้รับ ๗,๐๐๐ บาท (เจ็ดพันบาทถ้วน) และอาจารย์ที่ปรึกษาได้รับ ๒,๐๐๐ บาท (สองพันบาทถ้วน)

         สำหรับผลงานที่ผ่านการพิจารณาในรอบชิงชนะเลิศ จะมีเงินรางวัล เกียรติบัตร พร้อมโล่รางวัล รายละเอียดดังนี้ รางวัลที่ ๑ เงินรางวัล ๖๐,๐๐๐ บาท (หกหมื่นบาทถ้วน) และถ้วยพระราชทานจาก สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี (เฉพาะประเภทนักเรียน และ นิสิต นักศึกษา) รางวัลที่ ๒ เงินรางวัล ๔๐,๐๐๐ บาท (สี่หมื่นบาทถ้วน) รางวัลที่ ๓ เงินรางวัล ๒๐,๐๐๐ บาท (สองหมื่นบาทถ้วน) รางวัลชมเชย เงินรางวัล ประเภทละ ๒ รางวัลๆ ละ ๑๐,๐๐๐ บาท (หนึ่งหมื่นบาทถ้วน)

         ทั้งนี้ เงินรางวัลทุกประเภท จะแบ่งเป็น ๒ ส่วน โดยมอบให้ทีมผู้พัฒนา จำนวน ๘๐% และอาจารย์ที่ปรึกษา ๒๐% ส่วนสถาบันการศึกษาที่ได้รับรางวัลที่ ๑, ๒ และ ๓ ในแต่ละประเภท จะได้รับโล่รางวัลจากเนคเทค


ชุดข้อมูลคำถามคำตอบภาษาไทยสำหรับพัฒนาโปรแกรม

         ทางผู้จัดการแข่งขันได้ทำการจัดเตรียมคลังข้อมูลวิกิพีเดียภาษาไทย (Thai Wikipedia corpus) จำนวนกว่า 100,000 เรื่อง และชุดข้อมูลคำถามคำตอบ (Development dataset) จำนวนกว่า 10,000 ชุด สำหรับให้ผู้เข้าแข่งขันพัฒนาและทดสอบโปรแกรม

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question_type คือ ประเภทคำถาม (1=factoid, 2=yes/no)

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


ตัวอย่างข้อมูล

คลังข้อมูลวิกิพีเดียภาษาไทย ดาวน์โหลด

ตัวอย่างชุดข้อมูลคำถามคำตอบจำนวน 100 ชุด (Sample dataset) ดาวน์โหลด


ตัวอย่างรูปแบบไฟล์ผลลัพธ์

ผู้เข้าแข่งขันต้องแสดงผลลัพธ์ออกมาเป็นไฟล์ JSON โดยมีรายละเอียดดังนี้

ตัวอย่างไฟล์ผลลัพธ์ ดาวน์โหลด

output-json-qa

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


การวัดความถูกต้อง

         ผู้จัดการแข่งขันมีเกณฑ์การวัดประสิทธิภาพความถูกต้องของโปรแกรมถามตอบภาษาไทย โดยวัดจากความถูกต้อง (Accuracy) ของโปรแกรมในการตอบคำถาม


สอบถามรายละเอียดเพิ่มเติม

  • สันติพงษ์ ไทยประยูร โทรศัพท์: 02-564-6900 ต่อ 2288 อีเมล: santipong.thaiprayoon@nectec.or.th


แก้ไขข้อมูลล่าสุดเมื่อ 14 สิงหาคม 2562

หมวด 31 โปรแกรมถามตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย ครั้งที่ 1 (Question answering program from Thai Wikipedia)

poster


หัวข้อการแข่งขัน

         เป็นการแข่งขันพัฒนาโปรแกรมถามตอบภาษาไทยซึ่งมีวัตถุประสงค์เพื่อให้ผู้เข้าแข่งขันพัฒนาโปรแกรมค้นหาคำตอบจากคลังข้อมูลวิกิพีเดียภาษาไทย โดยผู้จัดการแข่งขันได้จัดเตรียมชุดข้อมูลสำหรับฝึกฝนและทดสอบโปรแกรม ซึ่งชุดข้อมูลนี้ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน ยกตัวอย่างเช่น

(1) คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร คำตอบ: ปรีดี พนมยงค์

(2) คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร คำตอบ: ซูโม่


ชุดข้อมูลคำถามคำตอบภาษาไทยสำหรับพัฒนาโปรแกรม

         ทางผู้จัดการแข่งขันได้ทำการจัดเตรียมคลังข้อมูลวิกิพีเดียภาษาไทย (Thai Wikipedia corpus) จำนวนกว่า 100,000 เรื่อง และชุดข้อมูลคำถามคำตอบ (Development data set) จำนวน 4,000 ชุด สำหรับให้ผู้เข้าแข่งขันพัฒนาและทดสอบโปรแกรม

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


ตัวอย่างข้อมูล

คลังข้อมูลวิกิพีเดียภาษาไทย ดาวน์โหลด

ตัวอย่างชุดข้อมูลคำถามคำตอบจำนวน 100 ชุด (Sample data set) ดาวน์โหลด


ตัวอย่างรูปแบบไฟล์ผลลัพธ์

ผู้เข้าแข่งขันต้องแสดงผลลัพธ์ออกมาเป็นไฟล์ JSON โดยมีรายละเอียดดังนี้

ตัวอย่างไฟล์ผลลัพธ์ ดาวน์โหลด

output-json-qa

รายละเอียดของ tag มีดังนี้

  - question_id คือ รหัสคำถาม

  - question คือ คำถาม

  - answer คือ คำตอบ

  - answer_begin_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - answer_end_position คือ ตำแหน่งตัวอักษรเริ่มต้นของคำตอบ

  - article_id คือ รหัสบทความวิกิพีเดีย


ดาวน์โหลดชุดข้อมูลคำถามคำตอบ

         ชุดข้อมูลคำถามคำตอบ จำนวน 4,000 ชุด ดาวน์โหลด


โปสเตอร์

21P31N0105.jpg 21P31N0225.jpg
21P31W0001.png 31P31I0095.png


ผลการแข่งขัน

         ผลการแข่งขันรอบที่สองและรอบสุดท้าย ดาวน์โหลด


ลิขสิทธิ์

         ชุดข้อมูลคำถามคำตอบเป็นลิขสิทธิ์ของศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ อนุญาตให้นำไปเผยแพร่ได้โดยต้องระบุที่มา และไม่ใช้เพื่อการค้า ตามสัญญาอนุญาตเดียวกันกับ Creative Commons BY-NC-SA 3.0

CC_BY-NC-SA_3.0


แก้ไขข้อมูลล่าสุดเมื่อ 5 กันยายน 2562