ข้อมูลทั่วไปเกี่ยวกับคลังข้อมูลคู่คำถามคำตอบภาษาไทยแบบ open domain (Thai QA corpus)
Corpus หรือคลังข้อมูล Thai Wiki QA ชุดนี้ เป็นคลังข้อมูลเกี่ยวกับคู่คำถาม-คำตอบแบบ open domain สร้างจากเอกสารบนไทยวิกิพีเดีย โดยอาศัยคนในการอ่านเนื้อหาและสร้างคู่คำถาม-คำตอบ เพื่อให้ได้คู่คำถามที่เป็นภาษาธรรมชาติ ทั้งนี้ผู้สร้างคู่คำถาม-คำตอบมาจากคนจากหลากหลายสาขาอาชีพและหลากหลายช่วงอายุ โดยที่ผ่านมาทางทีมวิจัย Speech and Text Understanding (STU) ได้สร้างและสะสมคลังข้อมูลดังกล่าวเรื่อยมา และนำคลังข้อมูลนี้ไปใช้เป็นคลังกลาง (benchmark) ในการแข่งขัน National Software Contest (NSC) ในปี 2561-2562 ตามลำดับ (https://copycatch.in.th/thai-qa-task.html) และในปี 2564 นี้ทางทีมวิจัยได้ทำการรวบรวบคู่คำถามเหล่านี้โดยไม่แยกปีให้ผู้สนใจได้นำไปต่อยอดงานวิจัยและพัฒนาระบบทางด้านการประมวลผลภาษาธรรมชาติ (NLP)
ตัวข้อมูลประกอบด้วยคู่คำถาม 2 ประเภทคือ
รายละเอียดของข้อมูล
คลังข้อมูล Thai Wiki QA ชุดนี้ สามารถดาวน์โหลดได้ที่เว็บ AI For Thai ( https://aiforthai.in.th/corpus.php) โดยจำเป็นต้องมีบัญชีการใช้งานก่อน ข้อมูลประกอบด้วย 2 ส่วนคือ
ทั้งนี้ corpus นี้มีคู่คำถาม-คำตอบทั้งสิ้น 17,000 คู่คำถาม โดยมีรายละเอียดดังนี้
Factoid Yes/No Total
corpus 15,000 2,000 17,000
การอ้างอิง
หากท่านใดต้องการอ้างอิงถึงคลังข้อมูลหรืองานวิจัยที่เกี่ยวข้องกับการทำคลังข้อมูลชุดนี้ สามารถอ้างอิงได้ตามนี้
@inproceedings{trakultaweekoon2019first,
title={The first wikipedia questions and factoid answers corpus in the thai language},
author={Trakultaweekoon, Kanokorn and Thaiprayoon, Santipong and Palingoon, Pornpimon and Rugchatjaroen,
Anocha},
booktitle={2019 14th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)},
pages={1--4},
year={2019},
organization={IEEE}
}
ติดต่อสอบถาม
chaianun.damrongrat@nectec.or.th
chatchawal.sangkeettrakarn@nectec.or.th