Cohere Aya Dataset: Exploring the Split-by-language Collection

A snapshot of the Aya collection (Bengali). Image taken from HuggingFace.

In February 2024, Cohere launched Aya, a multilingual Large Language Model (LLM). Alongside, a set of datasets used to train Aya has also been released. For example, the aya_dataset consists around 205K examples annotated by humans. On the other hand, the recently released aya_collection_language_split is a gigantic dataset with more than 500 million data points spread across more than 100 languages. As the name suggests, this dataset is split by language. For example, all data points in Bengali, irrespective of the underlying task, can be found in a single split. Apart from the original human-annotated examples from the aya_dataset, aya_collection_language_split also contains a lot of translated and templated data. The dataset is released using an Apache-2.0 license, allowing academic and commercial use.

The Bengali Language Split

Each language split in the Aya collection has three splits. The Bengali split, for example, contains:

3601287 examples in 'train'
274546 data points in 'validation'
276504 rows in 'test'

Let us take a look at this collection for the Bengali split, specifically focusing on the tasks and data sources.

All Task Types with Examples

There are 10 different task types. There are:

'summarization'
'paraphrasing'
'text-simplification'
'question-answering'
'-'
'dialogue'
'translation'
'generation'
'event-linking'
'paraphrase-identification'

An example for each task is provided below. For the sake of brevity, all texts in the following are truncated after 80 characters:

#1
> Task: summarization
inputs: সংরক্ষণের আগে যেকোন খাদ্যের অবশিষ্টাংশ বা দাগ অপসারণ করা প্রয়োজন কারণ এগুলি তাদ
targets: সংরক্ষণের আগে নিশ্চিত করুন যে আপনার কোয়েলটি পরিষ্কার। কোয়ার্টকে ভ্যাকুয়াম করো
template_id: 1
============================================================
#2
> Task: paraphrasing
inputs: ভিন্ন শব্দগুচ্ছ ব্যবহার করে নিচের বাক্যটি লেখ: "খবর পেয়ে পুলিশ ঘটনাস্থলে পৌঁছে
targets: "পুলিশ খবর পেয়ে ঘটনাস্থলে পৌঁছে আহতদের উদ্ধার করে স্থানীয় হাসপাতালে নিয়ে যায়।
template_id: 1
============================================================
#3
> Task: text-simplification
inputs: এই বাক্যটির আরো জটিল সংস্করণ তৈরি করুন'''এক ভাষা থেকে অন্য ভাষায় অনুবাদ করার সম
targets: অবশ্যই, বাক্যটির আরো জটিল সংস্করণ হল "''তিনি এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা
template_id: 1
============================================================
#4
> Task: question-answering
inputs: তুর্কি জনগণ (), বা তুর্কিরা (), যা আনাতোলিয়ান তুর্কি নামেও পরিচিত (), একটি তুর্
targets: ১। আনাতোলিয়ার গ্রামবাসী ২। না ৩। হ্যাঁ ৪. তুর্কি ৫। না ৬। পশ্চিম ইউরোপ ৭। টার্গ
template_id: 1
============================================================
#5
> Task: -
inputs: নিচের অনুচ্ছেদের বিষয় কি ?

টাঙ্গুয়ার হাওর (সিলেটি: ꠐꠣꠋꠉꠥꠀꠞ ꠀꠅꠞ) বাংলাদেশের বৃ
targets: টাঙ্গুয়ার হাওর |
template_id: 0
============================================================
#6
> Task: dialogue
inputs: নিম্নলিখিত বিষয়ের উপর ভিত্তি করে একটি সংক্ষিপ্ত বর্ণনা লিখুনঃ ব্যক্তি এক্স গির
targets: অবশ্যই, এখানে একটি সংক্ষিপ্ত অনুচ্ছেদ রয়েছে: ধর্মের প্রতি আগ্রহী হওয়ায় ভেদা গ
template_id: 1
============================================================
#7
> Task: translation
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "এই বোটের সাউন্ডবারটি এখনও সব স্পিকারের জন্য তারের সংযোগ। এইচডিএমআই পোর্ট সব ডিভ
template_id: 1
============================================================
#8
> Task: generation
inputs: নিম্নলিখিত দুটি বাক্য থেকে কোনটি সাধারণ জ্ঞানের বিরুদ্ধে? বিকল্পঃ - প্রথম বাক্য:
targets: কমলা রসের স্বাদ শস্যের সাথে ভাল হয় না। চূড়ান্ত উত্তর: A বাক্য।
template_id: 1
============================================================
#9
> Task: event-linking
inputs: নিম্নলিখিত বাক্যটি সম্পূর্ণ করুন: ১৯৩০ এর দশকে নাৎসি জার্মানির উত্থান অস্ট্রিয়া
targets: ১৯৩৭ সালে অস্ট্রিয়াকে সংযুক্ত করার সময় পরিবারকে তার ব্যাংকিং কার্যক্রম বিক্রি
template_id: 1
============================================================
#10
> Task: paraphrase-identification
inputs: বাক্য ১ঃ (১৮৯২-১৯৬২) ছিলেন ইয়ার একাডেমি জিমরিগের (ওয়েলশ একাডেমি) প্রথম সভাপতি।
targets: হ্যাঁ
template_id: 1
============================================================

Names of All Datasets with Examples

As noted earlier, the Aya collection has data from different sources. Overall, the Aya collection contains 23 distinct datasets. There are:

'WIKI QA (T)'
'Flan-GEM-wiki-lingua (T)'
'SODA-inst (T)'
'Joke-explaination-inst (T)'
'IndicSentiment-inst'
'Wiki-split-inst (T)'
'Dolly-v2 (T)'
'HotpotQA (T)'
'Mintaka-inst (T)'
'Xlel_wd-inst (T)'
'IndicXParaphrase-inst'
'Flan-lambada (T)'
'PAWS-Wiki (T)'
'CNN-Daily-Mail (T)'
'Flan-Coqa (T)'
'Xlel_wd-inst', 'NQ-Open (T)'
'Flan-CoT-submix (T)'
'Aya-Dataset'
'Adversarial QA (T)'
'PIQA (T)'
'Flan-unified-QA (T)'
'News-summary-instruct'

In the following, a sample Bengali data point from all the above 23 datasets is presented (all texts are truncated here):

#1
> Dataset: WIKI QA (T)
inputs: প্রশ্নটি কীঃ ""6 ফুট 7 ফুট" (এছাড়াও "6'7" হিসাবে স্টাইল করা হয়) আমেরিকান র্যাপ
targets: "৬ ফুট ৭ ফুট উচ্চতায় কোন গানটি গাওয়া হয়?"
template_id: 1
============================================================
#2
> Dataset: Flan-GEM-wiki-lingua (T)
inputs: সংরক্ষণের আগে যেকোন খাদ্যের অবশিষ্টাংশ বা দাগ অপসারণ করা প্রয়োজন কারণ এগুলি তাদ
targets: সংরক্ষণের আগে নিশ্চিত করুন যে আপনার কোয়েলটি পরিষ্কার। কোয়ার্টকে ভ্যাকুয়াম করো
template_id: 1
============================================================
#3
> Dataset: SODA-inst (T)
inputs: নিম্নলিখিত বিষয়ের উপর ভিত্তি করে একটি সংক্ষিপ্ত বর্ণনা লিখুনঃ ব্যক্তি এক্স গির
targets: অবশ্যই, এখানে একটি সংক্ষিপ্ত অনুচ্ছেদ রয়েছে: ধর্মের প্রতি আগ্রহী হওয়ায় ভেদা গ
template_id: 1
============================================================
#4
> Dataset: Joke-explaination-inst (T)
inputs: নিম্নলিখিত কৌতুকটি ব্যাখ্যা করুনঃ কম্পিউটার যখন ক্লান্ত হয় তখন কী করে? উঃ এটা ক
targets: ব্যাখ্যাঃ আপনার কম্পিউটার কি কখনও কাজ করা বন্ধ করে দেয় (ফ্রিজ) বা যখন আপনি এটি
template_id: 2
============================================================
#5
> Dataset: IndicSentiment-inst
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "এই বোটের সাউন্ডবারটি এখনও সব স্পিকারের জন্য তারের সংযোগ। এইচডিএমআই পোর্ট সব ডিভ
template_id: 1
============================================================
#6
> Dataset: Wiki-split-inst (T)
inputs: এই বাক্যটির আরো জটিল সংস্করণ তৈরি করুন'''এক ভাষা থেকে অন্য ভাষায় অনুবাদ করার সম
targets: অবশ্যই, বাক্যটির আরো জটিল সংস্করণ হল "''তিনি এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা
template_id: 1
============================================================
#7
> Dataset: Dolly-v2 (T)
inputs: ভার্জিন অস্ট্রেলিয়া কখন কাজ শুরু করে?
Context:ভার্জিন অস্ট্রেলিয়া, ভার্জিন অস্
targets: ভার্জিন অস্ট্রেলিয়া ৩১ আগস্ট ২০০০ সালে ভার্জিন ব্লু নামে একটি রুটে দুটি বিমান দ
template_id: 1
============================================================
#8
> Dataset: HotpotQA (T)
inputs: "এ নাইট আউট ইন লন্ডন" হল চতুর্থ পর্ব যেখানে ব্রিটিশ সিটকম সিমোন বার্ড অভিনীত?
targets: "ইনবিটুইনার্স"
template_id: 3
============================================================
#9
> Dataset: Mintaka-inst (T)
inputs: এই বিষয়শ্রেণীর মধ্যে একটি সাধারণ বিষয়ের উদাহরণ দাও: ভূগোল
targets: উত্তর আমেরিকার সপ্তম সর্বোচ্চ পর্বত কোনটি? মাউন্ট লুসানিয়া
template_id: 1
============================================================
#10
> Dataset: Xlel_wd-inst (T)
inputs: নিম্নলিখিত বাক্যটি সম্পূর্ণ করুন: ১৯৩০ এর দশকে নাৎসি জার্মানির উত্থান অস্ট্রিয়া
targets: ১৯৩৭ সালে অস্ট্রিয়াকে সংযুক্ত করার সময় পরিবারকে তার ব্যাংকিং কার্যক্রম বিক্রি
template_id: 1
============================================================
#11
> Dataset: IndicXParaphrase-inst
inputs: ভিন্ন শব্দগুচ্ছ ব্যবহার করে নিচের বাক্যটি লেখ: "খবর পেয়ে পুলিশ ঘটনাস্থলে পৌঁছে
targets: "পুলিশ খবর পেয়ে ঘটনাস্থলে পৌঁছে আহতদের উদ্ধার করে স্থানীয় হাসপাতালে নিয়ে যায়।
template_id: 1
============================================================
#12
> Dataset: Flan-lambada (T)
inputs: ` ` চমৎকার, আমি আশা করছিলাম তুমি করবে. আমার ক্ষমা চাওয়ার জন্য তোমাকে ভয় দেখানো
targets: আদম
template_id: 1
============================================================
#13
> Dataset: PAWS-Wiki (T)
inputs: বাক্য ১ঃ (১৮৯২-১৯৬২) ছিলেন ইয়ার একাডেমি জিমরিগের (ওয়েলশ একাডেমি) প্রথম সভাপতি।
targets: হ্যাঁ
template_id: 1
============================================================
#14
> Dataset: CNN-Daily-Mail (T)
inputs: নিবন্ধটি সংক্ষিপ্ত করে বলুন: পাকিস্তানের পেশোয়ারের একটি স্কুলের হলের ভেতর দিয়
targets: পাকিস্তানের প্রতিরক্ষা মন্ত্রী বলেন, সন্ত্রাসের বিরুদ্ধে যুদ্ধের প্রথম সারিতে শি
template_id: 1
============================================================
#15
> Dataset: Flan-Coqa (T)
inputs: তুর্কি জনগণ (), বা তুর্কিরা (), যা আনাতোলিয়ান তুর্কি নামেও পরিচিত (), একটি তুর্
targets: ১। আনাতোলিয়ার গ্রামবাসী ২। না ৩। হ্যাঁ ৪. তুর্কি ৫। না ৬। পশ্চিম ইউরোপ ৭। টার্গ
template_id: 1
============================================================
#16
> Dataset: Xlel_wd-inst
inputs: Complete the following phrase: দ্বিতীয় আবদুল হামিদ
targets: তরুণ তুর্কি বিপ্লব দ্বারা দ্বিতীয় সাংবিধানিক যুগের সূচনা করে সাংবিধানিক রাজতন্ত
template_id: 1
============================================================
#17
> Dataset: NQ-Open (T)
inputs: প্রশ্ন: তারা কোথায় গরম টব টাইম মেশিন ফিল্ম করেছে উত্তরঃ
targets: ফার্নি আল্পাইন রিসোর্ট
template_id: 2
============================================================
#18
> Dataset: Flan-CoT-submix (T)
inputs: নিম্নলিখিত দুটি বাক্য থেকে কোনটি সাধারণ জ্ঞানের বিরুদ্ধে? বিকল্পঃ - প্রথম বাক্য:
targets: কমলা রসের স্বাদ শস্যের সাথে ভাল হয় না। চূড়ান্ত উত্তর: A বাক্য।
template_id: 1
============================================================
#19
> Dataset: Aya-Dataset
inputs: নিচের অনুচ্ছেদের বিষয় কি ?

টাঙ্গুয়ার হাওর (সিলেটি: ꠐꠣꠋꠉꠥꠀꠞ ꠀꠅꠞ) বাংলাদেশের বৃ
targets: টাঙ্গুয়ার হাওর |
template_id: 0
============================================================
#20
> Dataset: Adversarial QA (T)
inputs: "ফিল্ড-ইফেক্ট" একটি লেবেল যা একটি ধরনের বর্ণনা করতে ব্যবহৃত হয়? পূর্ববর্তী প্রশ
targets: দুটি ধরণের ট্রানজিস্টর রয়েছে, যা একটি সার্কিটে কীভাবে ব্যবহৃত হয় তার সামান্য প
template_id: 1
============================================================
#21
> Dataset: PIQA (T)
inputs: নিম্নলিখিত বাক্যটি সর্বোত্তম বিকল্পের সাথে শেষ করুনঃ.কুকিনি শীর্ষগুলি দিয়ে কী ক
targets: তাদের লবণাক্ত পানিতে সাদা করুন এবং তাদের একটি স্ন্যাক হিসাবে পরিবেশন করুন
template_id: 1
============================================================
#22
> Dataset: Flan-unified-QA (T)
inputs: কোন বিবৃতি সঠিকভাবে বর্ণনা করে যে কেন এপ্রিলের প্রতিটি দিনে আলাস্কাতে ২৪ ঘণ্টারও
targets: (গ)
template_id: 1
============================================================
#23
> Dataset: News-summary-instruct
inputs: আরো কম শব্দে বাক্যটির মূলভাব বর্ণনা কর: স্ট্যান্ডার্ড চার্টার্ড ব্যাংকের নতুন প্
targets: বাক্যটির সংক্ষিপ্ত মূলভাব হলো, স্ট্যান্ডার্ড চার্টার্ডের নতুন সিইও আবরার।
template_id: 1
============================================================

Templates

There appears to be 16 different templates used by the templated data. To quote Cohere, "Templated data: We collaborated with fluent speakers to create templates that allowed for the automatic expansion of existing datasets into various languages."

Conclusion

Aya collection is a huge multilingual dataset. This can be quite useful for language-specific training and fine-tuning. How do you plan to use the Aya dataset/collection?

Further references:

Aya Dataset: An Open-Access Collection Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [Paper]
Aya collection language split [Colab Notebook; used by this blog post]

Barun Saha's blog on AI and Networks

Search This Blog