Skip to main content

Cohere Aya Dataset: Exploring the Split-by-language Collection

A snapshot of the Aya collection (Bengali). Image taken from HuggingFace.

In February 2024, Cohere launched Aya, a multilingual Large Language Model (LLM). Alongside, a set of datasets used to train Aya has also been released. For example, the aya_dataset consists around 205K examples annotated by humans. On the other hand, the recently released aya_collection_language_split is a gigantic dataset with more than 500 million data points spread across more than 100 languages. As the name suggests, this dataset is split by language. For example, all data points in Bengali, irrespective of the underlying task, can be found in a single split. Apart from the original human-annotated examples from the aya_dataset, aya_collection_language_split also contains a lot of translated and templated data. The dataset is released using an Apache-2.0 license, allowing academic and commercial use.

The Bengali Language Split

Each language split in the Aya collection has three splits. The Bengali split, for example, contains:

  •     3601287 examples in 'train'
  •     274546 data points in 'validation'
  •     276504 rows in 'test'

Let us take a look at this collection for the Bengali split, specifically focusing on the tasks and data sources.

All Task Types with Examples

 There are 10 different task types. There are:

  •     'summarization'
  •     'paraphrasing'
  •     'text-simplification'
  •      'question-answering'
  •      '-'
  •      'dialogue'
  •      'translation'
  •     'generation'
  •     'event-linking'
  •     'paraphrase-identification'

An example for each task is provided below. For the sake of brevity, all texts in the following are truncated after 80 characters:

#1
> Task: summarization
inputs: সংরক্ষণের আগে যেকোন খাদ্যের অবশিষ্টাংশ বা দাগ অপসারণ করা প্রয়োজন কারণ এগুলি তাদ
targets: সংরক্ষণের আগে নিশ্চিত করুন যে আপনার কোয়েলটি পরিষ্কার। কোয়ার্টকে ভ্যাকুয়াম করো
template_id: 1
============================================================
#2
> Task: paraphrasing
inputs: ভিন্ন শব্দগুচ্ছ ব্যবহার করে নিচের বাক্যটি লেখ: "খবর পেয়ে পুলিশ ঘটনাস্থলে পৌঁছে
targets: "পুলিশ খবর পেয়ে ঘটনাস্থলে পৌঁছে আহতদের উদ্ধার করে স্থানীয় হাসপাতালে নিয়ে যায়।
template_id: 1
============================================================
#3
> Task: text-simplification
inputs: এই বাক্যটির আরো জটিল সংস্করণ তৈরি করুন'''এক ভাষা থেকে অন্য ভাষায় অনুবাদ করার সম
targets: অবশ্যই, বাক্যটির আরো জটিল সংস্করণ হল "''তিনি এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা
template_id: 1
============================================================
#4
> Task: question-answering
inputs: তুর্কি জনগণ (), বা তুর্কিরা (), যা আনাতোলিয়ান তুর্কি নামেও পরিচিত (), একটি তুর্
targets: ১। আনাতোলিয়ার গ্রামবাসী ২। না ৩। হ্যাঁ ৪. তুর্কি ৫। না ৬। পশ্চিম ইউরোপ ৭। টার্গ
template_id: 1
============================================================
#5
> Task: -
inputs: নিচের অনুচ্ছেদের বিষয় কি ?

টাঙ্গুয়ার হাওর (সিলেটি: ꠐꠣꠋꠉꠥꠀꠞ ꠀꠅꠞ) বাংলাদেশের বৃ
targets: টাঙ্গুয়ার হাওর |
template_id: 0
============================================================
#6
> Task: dialogue
inputs: নিম্নলিখিত বিষয়ের উপর ভিত্তি করে একটি সংক্ষিপ্ত বর্ণনা লিখুনঃ  ব্যক্তি এক্স গির
targets: অবশ্যই, এখানে একটি সংক্ষিপ্ত অনুচ্ছেদ রয়েছে: ধর্মের প্রতি আগ্রহী হওয়ায় ভেদা গ
template_id: 1
============================================================
#7
> Task: translation
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "এই বোটের সাউন্ডবারটি এখনও সব স্পিকারের জন্য তারের সংযোগ। এইচডিএমআই পোর্ট সব ডিভ
template_id: 1
============================================================
#8
> Task: generation
inputs: নিম্নলিখিত দুটি বাক্য থেকে কোনটি সাধারণ জ্ঞানের বিরুদ্ধে? বিকল্পঃ - প্রথম বাক্য:
targets: কমলা রসের স্বাদ শস্যের সাথে ভাল হয় না। চূড়ান্ত উত্তর: A বাক্য।
template_id: 1
============================================================
#9
> Task: event-linking
inputs: নিম্নলিখিত বাক্যটি সম্পূর্ণ করুন: ১৯৩০ এর দশকে নাৎসি জার্মানির উত্থান অস্ট্রিয়া
targets: ১৯৩৭ সালে অস্ট্রিয়াকে সংযুক্ত করার সময় পরিবারকে তার ব্যাংকিং কার্যক্রম বিক্রি
template_id: 1
============================================================
#10
> Task: paraphrase-identification
inputs: বাক্য ১ঃ (১৮৯২-১৯৬২) ছিলেন ইয়ার একাডেমি জিমরিগের (ওয়েলশ একাডেমি) প্রথম সভাপতি।
targets: হ্যাঁ
template_id: 1
============================================================

Names of All Datasets with Examples

As noted earlier, the Aya collection has data from different sources. Overall, the Aya collection contains 23 distinct datasets. There are:

  •     'WIKI QA (T)'
  •      'Flan-GEM-wiki-lingua (T)'
  •     'SODA-inst (T)'
  •     'Joke-explaination-inst (T)'
  •     'IndicSentiment-inst'
  •     'Wiki-split-inst (T)'
  •      'Dolly-v2 (T)'
  •     'HotpotQA (T)'
  •      'Mintaka-inst (T)'
  •     'Xlel_wd-inst (T)'
  •      'IndicXParaphrase-inst'
  •     'Flan-lambada (T)'
  •     'PAWS-Wiki (T)'
  •     'CNN-Daily-Mail (T)'
  •     'Flan-Coqa (T)'
  •     'Xlel_wd-inst', 'NQ-Open (T)'
  •      'Flan-CoT-submix (T)'
  •     'Aya-Dataset'
  •     'Adversarial QA (T)'
  •     'PIQA (T)'
  •     'Flan-unified-QA (T)'
  •     'News-summary-instruct'

In the following, a sample Bengali data point from all the above 23 datasets is presented (all texts are truncated here):

#1
> Dataset: WIKI QA (T)
inputs: প্রশ্নটি কীঃ ""6 ফুট 7 ফুট" (এছাড়াও "6'7" হিসাবে স্টাইল করা হয়) আমেরিকান র্যাপ
targets: "৬ ফুট ৭ ফুট উচ্চতায় কোন গানটি গাওয়া হয়?"
template_id: 1
============================================================
#2
> Dataset: Flan-GEM-wiki-lingua (T)
inputs: সংরক্ষণের আগে যেকোন খাদ্যের অবশিষ্টাংশ বা দাগ অপসারণ করা প্রয়োজন কারণ এগুলি তাদ
targets: সংরক্ষণের আগে নিশ্চিত করুন যে আপনার কোয়েলটি পরিষ্কার। কোয়ার্টকে ভ্যাকুয়াম করো
template_id: 1
============================================================
#3
> Dataset: SODA-inst (T)
inputs: নিম্নলিখিত বিষয়ের উপর ভিত্তি করে একটি সংক্ষিপ্ত বর্ণনা লিখুনঃ  ব্যক্তি এক্স গির
targets: অবশ্যই, এখানে একটি সংক্ষিপ্ত অনুচ্ছেদ রয়েছে: ধর্মের প্রতি আগ্রহী হওয়ায় ভেদা গ
template_id: 1
============================================================
#4
> Dataset: Joke-explaination-inst (T)
inputs: নিম্নলিখিত কৌতুকটি ব্যাখ্যা করুনঃ কম্পিউটার যখন ক্লান্ত হয় তখন কী করে? উঃ এটা ক
targets: ব্যাখ্যাঃ আপনার কম্পিউটার কি কখনও কাজ করা বন্ধ করে দেয় (ফ্রিজ) বা যখন আপনি এটি
template_id: 2
============================================================
#5
> Dataset: IndicSentiment-inst
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "এই বোটের সাউন্ডবারটি এখনও সব স্পিকারের জন্য তারের সংযোগ। এইচডিএমআই পোর্ট সব ডিভ
template_id: 1
============================================================
#6
> Dataset: Wiki-split-inst (T)
inputs: এই বাক্যটির আরো জটিল সংস্করণ তৈরি করুন'''এক ভাষা থেকে অন্য ভাষায় অনুবাদ করার সম
targets: অবশ্যই, বাক্যটির আরো জটিল সংস্করণ হল "''তিনি এক ভাষা থেকে অন্য ভাষায় অনুবাদ করা
template_id: 1
============================================================
#7
> Dataset: Dolly-v2 (T)
inputs: ভার্জিন অস্ট্রেলিয়া কখন কাজ শুরু করে?
Context:ভার্জিন অস্ট্রেলিয়া, ভার্জিন অস্
targets: ভার্জিন অস্ট্রেলিয়া ৩১ আগস্ট ২০০০ সালে ভার্জিন ব্লু নামে একটি রুটে দুটি বিমান দ
template_id: 1
============================================================
#8
> Dataset: HotpotQA (T)
inputs: "এ নাইট আউট ইন লন্ডন" হল চতুর্থ পর্ব যেখানে ব্রিটিশ সিটকম সিমোন বার্ড অভিনীত?
targets: "ইনবিটুইনার্স"
template_id: 3
============================================================
#9
> Dataset: Mintaka-inst (T)
inputs: এই বিষয়শ্রেণীর মধ্যে একটি সাধারণ বিষয়ের উদাহরণ দাও: ভূগোল
targets: উত্তর আমেরিকার সপ্তম সর্বোচ্চ পর্বত কোনটি? মাউন্ট লুসানিয়া
template_id: 1
============================================================
#10
> Dataset: Xlel_wd-inst (T)
inputs: নিম্নলিখিত বাক্যটি সম্পূর্ণ করুন: ১৯৩০ এর দশকে নাৎসি জার্মানির উত্থান অস্ট্রিয়া
targets: ১৯৩৭ সালে অস্ট্রিয়াকে সংযুক্ত করার সময় পরিবারকে তার ব্যাংকিং কার্যক্রম বিক্রি
template_id: 1
============================================================
#11
> Dataset: IndicXParaphrase-inst
inputs: ভিন্ন শব্দগুচ্ছ ব্যবহার করে নিচের বাক্যটি লেখ: "খবর পেয়ে পুলিশ ঘটনাস্থলে পৌঁছে
targets: "পুলিশ খবর পেয়ে ঘটনাস্থলে পৌঁছে আহতদের উদ্ধার করে স্থানীয় হাসপাতালে নিয়ে যায়।
template_id: 1
============================================================
#12
> Dataset: Flan-lambada (T)
inputs: ` ` চমৎকার, আমি আশা করছিলাম তুমি করবে. আমার ক্ষমা চাওয়ার জন্য তোমাকে ভয় দেখানো
targets: আদম
template_id: 1
============================================================
#13
> Dataset: PAWS-Wiki (T)
inputs: বাক্য ১ঃ (১৮৯২-১৯৬২) ছিলেন ইয়ার একাডেমি জিমরিগের (ওয়েলশ একাডেমি) প্রথম সভাপতি।
targets: হ্যাঁ
template_id: 1
============================================================
#14
> Dataset: CNN-Daily-Mail (T)
inputs: নিবন্ধটি সংক্ষিপ্ত করে বলুন:  পাকিস্তানের পেশোয়ারের একটি স্কুলের হলের ভেতর দিয়
targets: পাকিস্তানের প্রতিরক্ষা মন্ত্রী বলেন, সন্ত্রাসের বিরুদ্ধে যুদ্ধের প্রথম সারিতে শি
template_id: 1
============================================================
#15
> Dataset: Flan-Coqa (T)
inputs: তুর্কি জনগণ (), বা তুর্কিরা (), যা আনাতোলিয়ান তুর্কি নামেও পরিচিত (), একটি তুর্
targets: ১। আনাতোলিয়ার গ্রামবাসী ২। না ৩। হ্যাঁ ৪. তুর্কি ৫। না ৬। পশ্চিম ইউরোপ ৭। টার্গ
template_id: 1
============================================================
#16
> Dataset: Xlel_wd-inst
inputs: Complete the following phrase:  দ্বিতীয় আবদুল হামিদ
targets: তরুণ তুর্কি বিপ্লব দ্বারা দ্বিতীয় সাংবিধানিক যুগের সূচনা করে সাংবিধানিক রাজতন্ত
template_id: 1
============================================================
#17
> Dataset: NQ-Open (T)
inputs: প্রশ্ন: তারা কোথায় গরম টব টাইম মেশিন ফিল্ম করেছে উত্তরঃ
targets: ফার্নি আল্পাইন রিসোর্ট
template_id: 2
============================================================
#18
> Dataset: Flan-CoT-submix (T)
inputs: নিম্নলিখিত দুটি বাক্য থেকে কোনটি সাধারণ জ্ঞানের বিরুদ্ধে? বিকল্পঃ - প্রথম বাক্য:
targets: কমলা রসের স্বাদ শস্যের সাথে ভাল হয় না। চূড়ান্ত উত্তর: A বাক্য।
template_id: 1
============================================================
#19
> Dataset: Aya-Dataset
inputs: নিচের অনুচ্ছেদের বিষয় কি ?

টাঙ্গুয়ার হাওর (সিলেটি: ꠐꠣꠋꠉꠥꠀꠞ ꠀꠅꠞ) বাংলাদেশের বৃ
targets: টাঙ্গুয়ার হাওর |
template_id: 0
============================================================
#20
> Dataset: Adversarial QA (T)
inputs: "ফিল্ড-ইফেক্ট" একটি লেবেল যা একটি ধরনের বর্ণনা করতে ব্যবহৃত হয়? পূর্ববর্তী প্রশ
targets: দুটি ধরণের ট্রানজিস্টর রয়েছে, যা একটি সার্কিটে কীভাবে ব্যবহৃত হয় তার সামান্য প
template_id: 1
============================================================
#21
> Dataset: PIQA (T)
inputs: নিম্নলিখিত বাক্যটি সর্বোত্তম বিকল্পের সাথে শেষ করুনঃ.কুকিনি শীর্ষগুলি দিয়ে কী ক
targets: তাদের লবণাক্ত পানিতে সাদা করুন এবং তাদের একটি স্ন্যাক হিসাবে পরিবেশন করুন
template_id: 1
============================================================
#22
> Dataset: Flan-unified-QA (T)
inputs: কোন বিবৃতি সঠিকভাবে বর্ণনা করে যে কেন এপ্রিলের প্রতিটি দিনে আলাস্কাতে ২৪ ঘণ্টারও
targets: (গ)
template_id: 1
============================================================
#23
> Dataset: News-summary-instruct
inputs: আরো কম শব্দে বাক্যটির মূলভাব বর্ণনা কর: স্ট্যান্ডার্ড চার্টার্ড ব্যাংকের নতুন প্
targets: বাক্যটির সংক্ষিপ্ত মূলভাব হলো, স্ট্যান্ডার্ড চার্টার্ডের নতুন সিইও আবরার।
template_id: 1
============================================================

Templates

There appears to be 16 different templates used by the templated data. To quote Cohere, "Templated data: We collaborated with fluent speakers to create templates that allowed for the automatic expansion of existing datasets into various languages."

Conclusion

Aya collection is a huge multilingual dataset. This can be quite useful for language-specific training and fine-tuning. How do you plan to use the Aya dataset/collection?

Further references:

Comments

Popular posts from this blog

Text Highlighting in Latex

While preparing a manuscript with Latex, it is often useful to highlight the changes made in the current revision with a different color. This can be achieved using the \ textcolor command provided by Latex. For example, \textcolor {red}{Hello World} would display the string "Hello World" in red color. However, the final/published copy of the manuscript does not contain any highlighted text. Therefore, if a large volume of changes were made, it becomes tiresome at the end to find and remove all the individual portions of highlighted text. This can be circumvented by defining a utility command to switch highlighting on and off as desired. In the following, we define a new Latex command, highlighttext , for this purpose. The command takes only a single argument—the text to be highlighted.     \usepackage {color}    % For highlighting changes in this version with red color   \newcommand { \highlighttext }[1] { \textcolor {red}{#1}}   % Remove all text highlighting

Specifying Source and Destination of Messages

One of the frequently asked questions in the community is how to specify which particular nodes would act as source(s) and destination(s) of the messages created in the ONE simulator. The simulator, in fact, provides a pair of settings (shown below in bold face) aimed for this particular purpose. Let us consider that there are $n + 1$ nodes in an OMN.  Further, let the nodes with addresses from $x$ to $y$, both inclusive, would create messages. The nodes in the range $w$ to $z$, both inclusive, would be the destinations of those messages, where $0 \le x \le y \le n$, and $0 \le w \le z \le n$. Then, the corresponding simulation scenario can be configured as follows. ## Message creation parameters # How many event generators Events.nrof = 1 # Class of the first event generator Events1.class = MessageEventGenerator # (Following settings are specific for the MessageEventGenerator class) # Creation interval in seconds (one new message every 25 to 35 seconds) Events1.interval = 25

The ONE KB has a new home

The ONE Knowledge Base is now hosted at http://theonekb.pythonanywhere.com/ If you are unaware, the ONE KB allows you to search the old email archives of the simulator's community. Therefore, if you have any question related to simulation, you may query the existing database at the above link. Chances are good that your question might already have been answered previously. If not, you can still post an email to the community's mailing list. Have you tried the ONE KB already? How was your experience? Was it helpful? Let me know in the comments!