Thai Wiki QA - NSC2020

ข้อมูลทั่วไปเกี่ยวกับคลังข้อมูลคู่คำถามคำตอบภาษาไทยแบบ open domain (Thai QA corpus)

Corpus หรือคลังข้อมูล Thai Wiki QA ชุดนี้ เป็นคลังข้อมูลเกี่ยวกับคู่คำถาม-คำตอบแบบ open domain สร้างจากเอกสารบนไทยวิกิพีเดีย โดยอาศัยคนในการอ่านเนื้อหาและสร้างคู่คำถาม-คำตอบ เพื่อให้ได้คู่คำถามที่เป็นภาษาธรรมชาติ ทั้งนี้ผู้สร้างคู่คำถาม-คำตอบมาจากคนจากหลากหลายสาขาอาชีพและหลากหลายช่วงอายุ โดยที่ผ่านมาทางทีมวิจัย Speech and Text Understanding (STU) ได้สร้างและสะสมคลังข้อมูลดังกล่าวเรื่อยมา และนำคลังข้อมูลนี้ไปใช้เป็นคลังกลาง (benchmark) ในการแข่งขัน National Software Contest (NSC) ในปี 2561-2562 ตามลำดับ (https://copycatch.in.th/thai-qa-task.html) และในปี 2564 นี้ทางทีมวิจัยได้ทำการรวบรวบคู่คำถามเหล่านี้โดยไม่แยกปีให้ผู้สนใจได้นำไปต่อยอดงานวิจัยและพัฒนาระบบทางด้านการประมวลผลภาษาธรรมชาติ (NLP)

ตัวข้อมูลประกอบด้วยคู่คำถาม 2 ประเภทคือ

1. คำถามที่เป็นข้อเท็จจริง (factoid) ได้แก่

คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร
คำตอบ: ซูโม่

คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร
คำตอบ: ปรีดี พนมยงค์

2. คำถามตอบรับหรือปฏิเสธ (yes/no) ได้แก่

คำถาม: เทพีจูโนเป็นเทพีในตำนานเทพปกรณัมโรมัน ที่มีตำแหน่งเทียบเท่ากับเทพีเฮราในตำนานเทพปกรณัมกรีกใช่หรือไม่
คำตอบ: ใช่

คำถาม: หนอนคอมพิวเตอร์คือหน่วยย่อยลงมาจากไวรัสคอมพิวเตอร์ ซึ่งมักจะแพร่กระจายโดยผ่านการใช้งานของผู้ใช้จริงหรือไม่
คำตอบ: ไม่ใช่

รายละเอียดของข้อมูล

คลังข้อมูล Thai Wiki QA ชุดนี้ สามารถดาวน์โหลดได้ที่เว็บ AI For Thai ( https://aiforthai.in.th/corpus.php) โดยจำเป็นต้องมีบัญชีการใช้งานก่อน ข้อมูลประกอบด้วย 2 ส่วนคือ

1. คลังข้อมูล thai wikipedia ที่เป็นต้นฉบับในการทำคู่คำถาม-คำตอบ
2. คลังข้อมูลคู่คำถาม-คำตอบ โดยมีรายละเอียดดังนี้

question_id - รหัสคำถาม โดยค่ารหัสเริ่มต้นที่ 1
question_type - ประเภทคำถาม (1=factoid, 2=yes/no)
question - คำถาม
answer - คำตอบ
answer_begin_position - ตำแหน่งอักษรเริ่มต้นของคำตอบ โดยค่าเริ่มต้นคือ 1
answer_end_position - ตำแหน่งอักษรสิ้นสุดของคำตอบ
article_id - รหัสบทความในคลัง thai wikipedia ที่กล่าวถึงในข้อที่ 1

ทั้งนี้ corpus นี้มีคู่คำถาม-คำตอบทั้งสิ้น 17,000 คู่คำถาม โดยมีรายละเอียดดังนี้

	Factoid	Yes/No	Total
corpus	15,000	2,000	17,000

การอ้างอิง

หากท่านใดต้องการอ้างอิงถึงคลังข้อมูลหรืองานวิจัยที่เกี่ยวข้องกับการทำคลังข้อมูลชุดนี้ สามารถอ้างอิงได้ตามนี้

@inproceedings{trakultaweekoon2019first,
title={The first wikipedia questions and factoid answers corpus in the thai language},
author={Trakultaweekoon, Kanokorn and Thaiprayoon, Santipong and Palingoon, Pornpimon and Rugchatjaroen,
Anocha},
booktitle={2019 14th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)},
pages={1--4},
year={2019},
organization={IEEE}
}

ติดต่อสอบถาม

chaianun.damrongrat@nectec.or.th

chatchawal.sangkeettrakarn@nectec.or.th