ข้อมูลทั่วไปเกี่ยวกับคลังข้อมูลคู่คำถามคำตอบภาษาไทยแบบ open domain
(Thai QA corpus)
Corpus หรือคลังข้อมูล Thai Wiki QA ชุดนี้
เป็นคลังข้อมูลเกี่ยวกับคู่คำถาม-คำตอบแบบ open domain
สร้างจากเอกสารบนไทยวิกิพีเดีย โดยอาศัยคนในการอ่านเนื้อหาและสร้างคู่คำถาม-คำตอบ
เพื่อให้ได้คู่คำถามที่เป็นภาษาธรรมชาติ
ทั้งนี้ผู้สร้างคู่คำถาม-คำตอบมาจากคนจากหลากหลายสาขาอาชีพและหลากหลายช่วงอายุ โดยที่ผ่านมาทางทีมวิจัย Speech and
Text Understanding (STU) ได้สร้างและสะสมคลังข้อมูลดังกล่าวเรื่อยมา และนำคลังข้อมูลนี้ไปใช้เป็นคลังกลาง
(benchmark) ในการแข่งขัน National Software Contest (NSC) ในปี 2561-2562 ตามลำดับ
(
https://copycatch.in.th/thai-qa-task.html) และในปี 2564
นี้ทางทีมวิจัยได้ทำการรวบรวบคู่คำถามเหล่านี้โดยไม่แยกปีให้ผู้สนใจได้นำไปต่อยอดงานวิจัยและพัฒนาระบบทางด้านการประมวลผลภาษาธรรมชาติ
(NLP)
ตัวข้อมูลประกอบด้วยคู่คำถาม 2 ประเภทคือ
- 1. คำถามที่เป็นข้อเท็จจริง (factoid) ได้แก่
คำถาม: กีฬาประจำชาติแห่งแดนอาทิตย์อุทัยที่มีประวัติยาวนานคือกีฬาอะไร
คำตอบ: ซูโม่
คำถาม: นายกรัฐมนตรีคนที่ 7 ของประเทศไทยคือใคร
คำตอบ: ปรีดี พนมยงค์
- 2. คำถามตอบรับหรือปฏิเสธ (yes/no) ได้แก่
คำถาม: เทพีจูโนเป็นเทพีในตำนานเทพปกรณัมโรมัน
ที่มีตำแหน่งเทียบเท่ากับเทพีเฮราในตำนานเทพปกรณัมกรีกใช่หรือไม่
คำตอบ: ใช่
คำถาม: หนอนคอมพิวเตอร์คือหน่วยย่อยลงมาจากไวรัสคอมพิวเตอร์
ซึ่งมักจะแพร่กระจายโดยผ่านการใช้งานของผู้ใช้จริงหรือไม่
คำตอบ: ไม่ใช่
รายละเอียดของข้อมูล
คลังข้อมูล Thai Wiki QA ชุดนี้ สามารถดาวน์โหลดได้ที่เว็บ AI For Thai (
https://aiforthai.in.th/corpus.php)
โดยจำเป็นต้องมีบัญชีการใช้งานก่อน ข้อมูลประกอบด้วย 2 ส่วนคือ
- 1. คลังข้อมูล thai wikipedia ที่เป็นต้นฉบับในการทำคู่คำถาม-คำตอบ
- 2. คลังข้อมูลคู่คำถาม-คำตอบ โดยมีรายละเอียดดังนี้
- question_id - รหัสคำถาม โดยค่ารหัสเริ่มต้นที่ 1
- question_type - ประเภทคำถาม (1=factoid, 2=yes/no)
- question - คำถาม
- answer - คำตอบ
- answer_begin_position - ตำแหน่งอักษรเริ่มต้นของคำตอบ โดยค่าเริ่มต้นคือ 1
- answer_end_position - ตำแหน่งอักษรสิ้นสุดของคำตอบ
- article_id - รหัสบทความในคลัง thai wikipedia ที่กล่าวถึงในข้อที่ 1
ทั้งนี้ corpus นี้มีคู่คำถาม-คำตอบทั้งสิ้น 17,000 คู่คำถาม โดยมีรายละเอียดดังนี้
|
Factoid |
Yes/No |
Total |
corpus |
15,000 |
2,000 |
17,000 |
การอ้างอิง
หากท่านใดต้องการอ้างอิงถึงคลังข้อมูลหรืองานวิจัยที่เกี่ยวข้องกับการทำคลังข้อมูลชุดนี้ สามารถอ้างอิงได้ตามนี้
@inproceedings{trakultaweekoon2019first,
title={The first wikipedia questions and factoid answers corpus in the thai language},
author={Trakultaweekoon, Kanokorn and Thaiprayoon, Santipong and Palingoon, Pornpimon and Rugchatjaroen,
Anocha},
booktitle={2019 14th International Joint Symposium on Artificial Intelligence and Natural Language Processing
(iSAI-NLP)},
pages={1--4},
year={2019},
organization={IEEE}
}
ติดต่อสอบถาม
chaianun.damrongrat@nectec.or.th
chatchawal.sangkeettrakarn@nectec.or.th