Skip to content

Latest commit

 

History

History
83 lines (54 loc) · 5.6 KB

README.md

File metadata and controls

83 lines (54 loc) · 5.6 KB

chaii - Hindi and Tamil Question Answering

  1. Problem Statement
  2. Methodology
    1. Datasets used
    2. Model
  3. Running the code
    1. Training
    2. Inference
  4. Authors

Problem Statement

The goal is to predict answers to real questions about Wikipedia articles using chaii-1 dataset.

chaii-1 is a question answering dataset in Hindi and Tamil (without the use of translation). Given a context and question, the goal of question answering is to predict the answer to the question by selecting a span from the context. Consider the following example from the dataset:

Example:

Context: मानव कंकाल शरीर की आन्तरिक संरचना होती है। यह जन्म के समय 300 हड्डियों से बना होता है और यवाव ु स्था में कुछ हड्डियों के संगलित होने से यह २०६ तक सीमित हो जाती है।[1] तंत्रिका में हड्डियों का द्रव्यमान ३० वर्ष की आयु के लगभग अपने अधिकतम घनत्व पर पहुँचती है। मानव कंकाल को अक्षीय कंकाल और उपांगी कंकाल में विभाजित किया जाता है। अक्षीय कंकाल मेरूदण्ड, पसली पिजर ं और खोपड़ी से मिलकर बना होता है। उपांगी कंकाल अक्षीय कंकाल से जड़ुा हुआ होता है तथा असं मेखला, श्रोणि मेखला और अधः पाद एवं ऊपरी पाद की हड्डियों से मिलकर बना होता है। मानव कंकाल निम्नलिखित छः कार्य करता है: उपजीवन, गति, रक्षण, रुधिर कणिकाओं का निर्माण, आयनों का भंडारण और अतं : स्रावी विनियमन। मानव कंकाल अन्य प्रजातियों के समान लगिैं क द्विरूपता नहीं रखता लेकिन मस्तिष्क, दंत विन्यास, लम्बी हड्डियों और श्रोणियों में आकीरिकी के अनसार ु अल्प अन्तर होता है। सामान्यतः महिला कंकाल के अवयवों उसी तरह के परुुषों की की तलना ु में कुछ मात्रा में छोटे और कम मजबतू होते हैं। अन्य प्राणियों से भिन्न, मानव परुुष का लिगं स्तंभास्थि रहित होता है।[2] सन्दर्भ श्रेणी:कंकाल तंत्र

Question: जन्म के समय शिशुके शरीर में कितनी हड्डियाँ होती है?

Answer: 300

This work is based on a Kaggle competition: chaii - Hindi and Tamil Question Answering

Methodology

Datasets used

  • official chaii-1 dataset [Link]
  • MLQA/XQuAD for Hindi [Link]
  • SQuAD translated to Tamil [Link]

All these datasets can be found in one place: [here]

Model

We finetuned XLM-RoBERTa for QuestionAnswering from alon-albalak/xlm-roberta-large-xquad checkpoint.

For hyperparameters, look at args in train.py.

Running the code

Training

To train yourself, use the following command:

python train.py

While running the training script, the files mentioned in Section 2.i have to be placed under dataset/ directory (relative to the training script).

Inference

For inference you can use inference.ipynb.

You can either fine-tune your own version of the model (by following the steps mentioned in the previous section) or use our version which is available [here].

Authors


This README uses texts from the assignment problem document provided in the course.