A snapshot of the Aya collection (Bengali). Image taken from HuggingFace. |
In February 2024, Cohere launched Aya, a multilingual Large Language Model (LLM). Alongside, a set of datasets used to train Aya has also been released. For example, the aya_dataset consists around 205K examples annotated by humans. On the other hand, the recently released aya_collection_language_split is a gigantic dataset with more than 500 million data points spread across more than 100 languages. As the name suggests, this dataset is split by language. For example, all data points in Bengali, irrespective of the underlying task, can be found in a single split. Apart from the original human-annotated examples from the aya_dataset, aya_collection_language_split also contains a lot of translated and templated data. The dataset is released using an Apache-2.0 license, allowing academic and commercial use.
The Bengali Language Split
Each language split in the Aya collection has three splits. The Bengali split, for example, contains:
- 3601287 examples in 'train'
- 274546 data points in 'validation'
- 276504 rows in 'test'
Let us take a look at this collection for the Bengali split, specifically focusing on the tasks and data sources.
All Task Types with Examples
There are 10 different task types. There are:
- 'summarization'
- 'paraphrasing'
- 'text-simplification'
- 'question-answering'
- '-'
- 'dialogue'
- 'translation'
- 'generation'
- 'event-linking'
- 'paraphrase-identification'
An example for each task is provided below. For the sake of brevity, all texts in the following are truncated after 80 characters:
#1
> Task: summarization
inputs: āĻ¸ংāĻ°āĻ্āĻˇāĻŖেāĻ° āĻāĻে āĻ¯েāĻোāĻ¨ āĻাāĻĻ্āĻ¯েāĻ° āĻ
āĻŦāĻļিāĻˇ্āĻাংāĻļ āĻŦা āĻĻাāĻ āĻ
āĻĒāĻ¸াāĻ°āĻŖ āĻāĻ°া āĻĒ্āĻ°āĻ¯়োāĻāĻ¨ āĻাāĻ°āĻŖ āĻāĻুāĻ˛ি āĻ¤াāĻĻ
targets: āĻ¸ংāĻ°āĻ্āĻˇāĻŖেāĻ° āĻāĻে āĻ¨িāĻļ্āĻিāĻ¤ āĻāĻ°ুāĻ¨ āĻ¯ে āĻāĻĒāĻ¨াāĻ° āĻোāĻ¯়েāĻ˛āĻি āĻĒāĻ°িāĻˇ্āĻাāĻ°। āĻোāĻ¯়াāĻ°্āĻāĻে āĻ্āĻ¯াāĻুāĻ¯়াāĻŽ āĻāĻ°ো
template_id: 1
============================================================
#2
> Task: paraphrasing
inputs: āĻিāĻ¨্āĻ¨ āĻļāĻŦ্āĻĻāĻুāĻ্āĻ āĻŦ্āĻ¯āĻŦāĻšাāĻ° āĻāĻ°ে āĻ¨িāĻেāĻ° āĻŦাāĻ্āĻ¯āĻি āĻ˛েāĻ: "āĻāĻŦāĻ° āĻĒেāĻ¯়ে āĻĒুāĻ˛িāĻļ āĻāĻāĻ¨াāĻ¸্āĻĨāĻ˛ে āĻĒৌঁāĻে
targets: "āĻĒুāĻ˛িāĻļ āĻāĻŦāĻ° āĻĒেā§ে āĻāĻāĻ¨াāĻ¸্āĻĨāĻ˛ে āĻĒৌঁāĻে āĻāĻšāĻ¤āĻĻেāĻ° āĻāĻĻ্āĻ§াāĻ° āĻāĻ°ে āĻ¸্āĻĨাāĻ¨ীāĻ¯় āĻšাāĻ¸āĻĒাāĻ¤াāĻ˛ে āĻ¨িāĻ¯়ে āĻ¯াāĻ¯়।
template_id: 1
============================================================
#3
> Task: text-simplification
inputs: āĻāĻ āĻŦাāĻ্āĻ¯āĻিāĻ° āĻāĻ°ো āĻāĻিāĻ˛ āĻ¸ংāĻ¸্āĻāĻ°āĻŖ āĻ¤ৈāĻ°ি āĻāĻ°ুāĻ¨'''āĻāĻ āĻাāĻˇা āĻĨেāĻে āĻ
āĻ¨্āĻ¯ āĻাāĻˇাāĻ¯় āĻ
āĻ¨ুāĻŦাāĻĻ āĻāĻ°াāĻ° āĻ¸āĻŽ
targets: āĻ
āĻŦāĻļ্āĻ¯āĻ, āĻŦাāĻ্āĻ¯āĻিāĻ° āĻāĻ°ো āĻāĻিāĻ˛ āĻ¸ংāĻ¸্āĻāĻ°āĻŖ āĻšāĻ˛ "''āĻ¤িāĻ¨ি āĻāĻ āĻাāĻˇা āĻĨেāĻে āĻ
āĻ¨্āĻ¯ āĻাāĻˇাāĻ¯় āĻ
āĻ¨ুāĻŦাāĻĻ āĻāĻ°া
template_id: 1
============================================================
#4
> Task: question-answering
inputs: āĻ¤ুāĻ°্āĻি āĻāĻ¨āĻāĻŖ (), āĻŦা āĻ¤ুāĻ°্āĻিāĻ°া (), āĻ¯া āĻāĻ¨াāĻ¤োāĻ˛িāĻ¯়াāĻ¨ āĻ¤ুāĻ°্āĻি āĻ¨াāĻŽেāĻ āĻĒāĻ°িāĻিāĻ¤ (), āĻāĻāĻি āĻ¤ুāĻ°্
targets: ā§§। āĻāĻ¨াāĻ¤োāĻ˛িāĻ¯়াāĻ° āĻ্āĻ°াāĻŽāĻŦাāĻ¸ী ā§¨। āĻ¨া ā§Š। āĻš্āĻ¯াঁ ā§Ē. āĻ¤ুāĻ°্āĻি ā§Ģ। āĻ¨া ā§Ŧ। āĻĒāĻļ্āĻিāĻŽ āĻāĻāĻ°োāĻĒ ā§। āĻাāĻ°্āĻ
template_id: 1
============================================================
#5
> Task: -
inputs: āĻ¨িāĻেāĻ° āĻ
āĻ¨ুāĻ্āĻেāĻĻেāĻ° āĻŦিāĻˇāĻ¯় āĻি ?
āĻাāĻ্āĻুāĻ¯়াāĻ° āĻšাāĻāĻ° (āĻ¸িāĻ˛েāĻি: ę ꠣꠋę ꠥę ę ę ę
ę ) āĻŦাংāĻ˛াāĻĻেāĻļেāĻ° āĻŦৃ
targets: āĻাāĻ্āĻুāĻ¯়াāĻ° āĻšাāĻāĻ° |
template_id: 0
============================================================
#6
> Task: dialogue
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻŦিāĻˇāĻ¯়েāĻ° āĻāĻĒāĻ° āĻিāĻ¤্āĻ¤ি āĻāĻ°ে āĻāĻāĻি āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻŦāĻ°্āĻŖāĻ¨া āĻ˛িāĻুāĻ¨ঃ āĻŦ্āĻ¯āĻ্āĻ¤ি āĻāĻ্āĻ¸ āĻিāĻ°
targets: āĻ
āĻŦāĻļ্āĻ¯āĻ, āĻāĻাāĻ¨ে āĻāĻāĻি āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻ
āĻ¨ুāĻ্āĻেāĻĻ āĻ°āĻ¯়েāĻে: āĻ§āĻ°্āĻŽেāĻ° āĻĒ্āĻ°āĻ¤ি āĻāĻ্āĻ°āĻšী āĻšāĻāĻ¯়াāĻ¯় āĻেāĻĻা āĻ
template_id: 1
============================================================
#7
> Task: translation
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "āĻāĻ āĻŦোāĻেāĻ° āĻ¸াāĻāĻ¨্āĻĄāĻŦাāĻ°āĻি āĻāĻāĻ¨āĻ āĻ¸āĻŦ āĻ¸্āĻĒিāĻাāĻ°েāĻ° āĻāĻ¨্āĻ¯ āĻ¤াāĻ°েāĻ° āĻ¸ংāĻ¯োāĻ। āĻāĻāĻāĻĄিāĻāĻŽāĻāĻ āĻĒোāĻ°্āĻ āĻ¸āĻŦ āĻĄিāĻ
template_id: 1
============================================================
#8
> Task: generation
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻĻুāĻি āĻŦাāĻ্āĻ¯ āĻĨেāĻে āĻোāĻ¨āĻি āĻ¸াāĻ§াāĻ°āĻŖ āĻ্āĻাāĻ¨েāĻ° āĻŦিāĻ°ুāĻĻ্āĻ§ে? āĻŦিāĻāĻ˛্āĻĒঃ - āĻĒ্āĻ°āĻĨāĻŽ āĻŦাāĻ্āĻ¯:
targets: āĻāĻŽāĻ˛া āĻ°āĻ¸েāĻ° āĻ¸্āĻŦাāĻĻ āĻļāĻ¸্āĻ¯েāĻ° āĻ¸াāĻĨে āĻাāĻ˛ āĻšāĻ¯় āĻ¨া। āĻূāĻĄ়াāĻ¨্āĻ¤ āĻāĻ¤্āĻ¤āĻ°: A āĻŦাāĻ্āĻ¯।
template_id: 1
============================================================
#9
> Task: event-linking
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻŦাāĻ্āĻ¯āĻি āĻ¸āĻŽ্āĻĒূāĻ°্āĻŖ āĻāĻ°ুāĻ¨: ā§§ā§¯ā§Šā§Ļ āĻāĻ° āĻĻāĻļāĻে āĻ¨াā§āĻ¸ি āĻাāĻ°্āĻŽাāĻ¨িāĻ° āĻāĻ¤্āĻĨাāĻ¨ āĻ
āĻ¸্āĻ্āĻ°িāĻ¯়া
targets: ā§§ā§¯ā§Šā§ āĻ¸াāĻ˛ে āĻ
āĻ¸্āĻ্āĻ°িāĻ¯়াāĻে āĻ¸ংāĻ¯ুāĻ্āĻ¤ āĻāĻ°াāĻ° āĻ¸āĻŽāĻ¯় āĻĒāĻ°িāĻŦাāĻ°āĻে āĻ¤াāĻ° āĻŦ্āĻ¯াংāĻিং āĻাāĻ°্āĻ¯āĻ্āĻ°āĻŽ āĻŦিāĻ্āĻ°ি
template_id: 1
============================================================
#10
> Task: paraphrase-identification
inputs: āĻŦাāĻ্āĻ¯ ā§§ঃ (ā§§ā§Žā§¯ā§¨-ā§§ā§¯ā§Ŧā§¨) āĻিāĻ˛েāĻ¨ āĻāĻ¯়াāĻ° āĻāĻাāĻĄেāĻŽি āĻিāĻŽāĻ°িāĻেāĻ° (āĻāĻ¯়েāĻ˛āĻļ āĻāĻাāĻĄেāĻŽি) āĻĒ্āĻ°āĻĨāĻŽ āĻ¸āĻাāĻĒāĻ¤ি।
targets: āĻš্āĻ¯াঁ
template_id: 1
============================================================
Names of All Datasets with Examples
As noted earlier, the Aya collection has data from different sources. Overall, the Aya collection contains 23 distinct datasets. There are:
- 'WIKI QA (T)'
- 'Flan-GEM-wiki-lingua (T)'
- 'SODA-inst (T)'
- 'Joke-explaination-inst (T)'
- 'IndicSentiment-inst'
- 'Wiki-split-inst (T)'
- 'Dolly-v2 (T)'
- 'HotpotQA (T)'
- 'Mintaka-inst (T)'
- 'Xlel_wd-inst (T)'
- 'IndicXParaphrase-inst'
- 'Flan-lambada (T)'
- 'PAWS-Wiki (T)'
- 'CNN-Daily-Mail (T)'
- 'Flan-Coqa (T)'
- 'Xlel_wd-inst', 'NQ-Open (T)'
- 'Flan-CoT-submix (T)'
- 'Aya-Dataset'
- 'Adversarial QA (T)'
- 'PIQA (T)'
- 'Flan-unified-QA (T)'
- 'News-summary-instruct'
In the following, a sample Bengali data point from all the above 23 datasets is presented (all texts are truncated here):
#1
> Dataset: WIKI QA (T)
inputs: āĻĒ্āĻ°āĻļ্āĻ¨āĻি āĻীঃ ""6 āĻĢুāĻ 7 āĻĢুāĻ" (āĻāĻাāĻĄ়াāĻ "6'7" āĻšিāĻ¸াāĻŦে āĻ¸্āĻাāĻāĻ˛ āĻāĻ°া āĻšāĻ¯়) āĻāĻŽেāĻ°িāĻাāĻ¨ āĻ°্āĻ¯াāĻĒ
targets: "ā§Ŧ āĻĢুāĻ ā§ āĻĢুāĻ āĻāĻ্āĻāĻ¤াāĻ¯় āĻোāĻ¨ āĻাāĻ¨āĻি āĻাāĻāĻ¯়া āĻšāĻ¯়?"
template_id: 1
============================================================
#2
> Dataset: Flan-GEM-wiki-lingua (T)
inputs: āĻ¸ংāĻ°āĻ্āĻˇāĻŖেāĻ° āĻāĻে āĻ¯েāĻোāĻ¨ āĻাāĻĻ্āĻ¯েāĻ° āĻ
āĻŦāĻļিāĻˇ্āĻাংāĻļ āĻŦা āĻĻাāĻ āĻ
āĻĒāĻ¸াāĻ°āĻŖ āĻāĻ°া āĻĒ্āĻ°āĻ¯়োāĻāĻ¨ āĻাāĻ°āĻŖ āĻāĻুāĻ˛ি āĻ¤াāĻĻ
targets: āĻ¸ংāĻ°āĻ্āĻˇāĻŖেāĻ° āĻāĻে āĻ¨িāĻļ্āĻিāĻ¤ āĻāĻ°ুāĻ¨ āĻ¯ে āĻāĻĒāĻ¨াāĻ° āĻোāĻ¯়েāĻ˛āĻি āĻĒāĻ°িāĻˇ্āĻাāĻ°। āĻোāĻ¯়াāĻ°্āĻāĻে āĻ্āĻ¯াāĻুāĻ¯়াāĻŽ āĻāĻ°ো
template_id: 1
============================================================
#3
> Dataset: SODA-inst (T)
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻŦিāĻˇāĻ¯়েāĻ° āĻāĻĒāĻ° āĻিāĻ¤্āĻ¤ি āĻāĻ°ে āĻāĻāĻি āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻŦāĻ°্āĻŖāĻ¨া āĻ˛িāĻুāĻ¨ঃ āĻŦ্āĻ¯āĻ্āĻ¤ি āĻāĻ্āĻ¸ āĻিāĻ°
targets: āĻ
āĻŦāĻļ্āĻ¯āĻ, āĻāĻাāĻ¨ে āĻāĻāĻি āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻ
āĻ¨ুāĻ্āĻেāĻĻ āĻ°āĻ¯়েāĻে: āĻ§āĻ°্āĻŽেāĻ° āĻĒ্āĻ°āĻ¤ি āĻāĻ্āĻ°āĻšী āĻšāĻāĻ¯়াāĻ¯় āĻেāĻĻা āĻ
template_id: 1
============================================================
#4
> Dataset: Joke-explaination-inst (T)
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻৌāĻ¤ুāĻāĻি āĻŦ্āĻ¯াāĻ্āĻ¯া āĻāĻ°ুāĻ¨ঃ āĻāĻŽ্āĻĒিāĻāĻাāĻ° āĻ¯āĻāĻ¨ āĻ্āĻ˛াāĻ¨্āĻ¤ āĻšāĻ¯় āĻ¤āĻāĻ¨ āĻী āĻāĻ°ে? āĻঃ āĻāĻা āĻ
targets: āĻŦ্āĻ¯াāĻ্āĻ¯াঃ āĻāĻĒāĻ¨াāĻ° āĻāĻŽ্āĻĒিāĻāĻাāĻ° āĻি āĻāĻāĻ¨āĻ āĻাāĻ āĻāĻ°া āĻŦāĻ¨্āĻ§ āĻāĻ°ে āĻĻেāĻ¯় (āĻĢ্āĻ°িāĻ) āĻŦা āĻ¯āĻāĻ¨ āĻāĻĒāĻ¨ি āĻāĻি
template_id: 2
============================================================
#5
> Dataset: IndicSentiment-inst
inputs: Translate from English to Bengali: "This boat's soundbar is still wire-connectiv
targets: "āĻāĻ āĻŦোāĻেāĻ° āĻ¸াāĻāĻ¨্āĻĄāĻŦাāĻ°āĻি āĻāĻāĻ¨āĻ āĻ¸āĻŦ āĻ¸্āĻĒিāĻাāĻ°েāĻ° āĻāĻ¨্āĻ¯ āĻ¤াāĻ°েāĻ° āĻ¸ংāĻ¯োāĻ। āĻāĻāĻāĻĄিāĻāĻŽāĻāĻ āĻĒোāĻ°্āĻ āĻ¸āĻŦ āĻĄিāĻ
template_id: 1
============================================================
#6
> Dataset: Wiki-split-inst (T)
inputs: āĻāĻ āĻŦাāĻ্āĻ¯āĻিāĻ° āĻāĻ°ো āĻāĻিāĻ˛ āĻ¸ংāĻ¸্āĻāĻ°āĻŖ āĻ¤ৈāĻ°ি āĻāĻ°ুāĻ¨'''āĻāĻ āĻাāĻˇা āĻĨেāĻে āĻ
āĻ¨্āĻ¯ āĻাāĻˇাāĻ¯় āĻ
āĻ¨ুāĻŦাāĻĻ āĻāĻ°াāĻ° āĻ¸āĻŽ
targets: āĻ
āĻŦāĻļ্āĻ¯āĻ, āĻŦাāĻ্āĻ¯āĻিāĻ° āĻāĻ°ো āĻāĻিāĻ˛ āĻ¸ংāĻ¸্āĻāĻ°āĻŖ āĻšāĻ˛ "''āĻ¤িāĻ¨ি āĻāĻ āĻাāĻˇা āĻĨেāĻে āĻ
āĻ¨্āĻ¯ āĻাāĻˇাāĻ¯় āĻ
āĻ¨ুāĻŦাāĻĻ āĻāĻ°া
template_id: 1
============================================================
#7
> Dataset: Dolly-v2 (T)
inputs: āĻাāĻ°্āĻিāĻ¨ āĻ
āĻ¸্āĻ্āĻ°েāĻ˛িāĻ¯়া āĻāĻāĻ¨ āĻাāĻ āĻļুāĻ°ু āĻāĻ°ে?
Context:āĻাāĻ°্āĻিāĻ¨ āĻ
āĻ¸্āĻ্āĻ°েāĻ˛িāĻ¯়া, āĻাāĻ°্āĻিāĻ¨ āĻ
āĻ¸্
targets: āĻাāĻ°্āĻিāĻ¨ āĻ
āĻ¸্āĻ্āĻ°েāĻ˛িāĻ¯়া ā§Šā§§ āĻāĻāĻ¸্āĻ ā§¨ā§Ļā§Ļā§Ļ āĻ¸াāĻ˛ে āĻাāĻ°্āĻিāĻ¨ āĻŦ্āĻ˛ু āĻ¨াāĻŽে āĻāĻāĻি āĻ°ুāĻে āĻĻুāĻি āĻŦিāĻŽাāĻ¨ āĻĻ
template_id: 1
============================================================
#8
> Dataset: HotpotQA (T)
inputs: "āĻ āĻ¨াāĻāĻ āĻāĻāĻ āĻāĻ¨ āĻ˛āĻ¨্āĻĄāĻ¨" āĻšāĻ˛ āĻāĻ¤ুāĻ°্āĻĨ āĻĒāĻ°্āĻŦ āĻ¯েāĻাāĻ¨ে āĻŦ্āĻ°িāĻিāĻļ āĻ¸িāĻāĻāĻŽ āĻ¸িāĻŽোāĻ¨ āĻŦাāĻ°্āĻĄ āĻ
āĻিāĻ¨ীāĻ¤?
targets: "āĻāĻ¨āĻŦিāĻুāĻāĻ¨াāĻ°্āĻ¸"
template_id: 3
============================================================
#9
> Dataset: Mintaka-inst (T)
inputs: āĻāĻ āĻŦিāĻˇāĻ¯়āĻļ্āĻ°েāĻŖীāĻ° āĻŽāĻ§্āĻ¯ে āĻāĻāĻি āĻ¸াāĻ§াāĻ°āĻŖ āĻŦিāĻˇāĻ¯়েāĻ° āĻāĻĻাāĻšāĻ°āĻŖ āĻĻাāĻ: āĻূāĻোāĻ˛
targets: āĻāĻ¤্āĻ¤āĻ° āĻāĻŽেāĻ°িāĻাāĻ° āĻ¸āĻĒ্āĻ¤āĻŽ āĻ¸āĻ°্āĻŦোāĻ্āĻ āĻĒāĻ°্āĻŦāĻ¤ āĻোāĻ¨āĻি? āĻŽাāĻāĻ¨্āĻ āĻ˛ুāĻ¸াāĻ¨িāĻ¯়া
template_id: 1
============================================================
#10
> Dataset: Xlel_wd-inst (T)
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻŦাāĻ্āĻ¯āĻি āĻ¸āĻŽ্āĻĒূāĻ°্āĻŖ āĻāĻ°ুāĻ¨: ā§§ā§¯ā§Šā§Ļ āĻāĻ° āĻĻāĻļāĻে āĻ¨াā§āĻ¸ি āĻাāĻ°্āĻŽাāĻ¨িāĻ° āĻāĻ¤্āĻĨাāĻ¨ āĻ
āĻ¸্āĻ্āĻ°িāĻ¯়া
targets: ā§§ā§¯ā§Šā§ āĻ¸াāĻ˛ে āĻ
āĻ¸্āĻ্āĻ°িāĻ¯়াāĻে āĻ¸ংāĻ¯ুāĻ্āĻ¤ āĻāĻ°াāĻ° āĻ¸āĻŽāĻ¯় āĻĒāĻ°িāĻŦাāĻ°āĻে āĻ¤াāĻ° āĻŦ্āĻ¯াংāĻিং āĻাāĻ°্āĻ¯āĻ্āĻ°āĻŽ āĻŦিāĻ্āĻ°ি
template_id: 1
============================================================
#11
> Dataset: IndicXParaphrase-inst
inputs: āĻিāĻ¨্āĻ¨ āĻļāĻŦ্āĻĻāĻুāĻ্āĻ āĻŦ্āĻ¯āĻŦāĻšাāĻ° āĻāĻ°ে āĻ¨িāĻেāĻ° āĻŦাāĻ্āĻ¯āĻি āĻ˛েāĻ: "āĻāĻŦāĻ° āĻĒেāĻ¯়ে āĻĒুāĻ˛িāĻļ āĻāĻāĻ¨াāĻ¸্āĻĨāĻ˛ে āĻĒৌঁāĻে
targets: "āĻĒুāĻ˛িāĻļ āĻāĻŦāĻ° āĻĒেā§ে āĻāĻāĻ¨াāĻ¸্āĻĨāĻ˛ে āĻĒৌঁāĻে āĻāĻšāĻ¤āĻĻেāĻ° āĻāĻĻ্āĻ§াāĻ° āĻāĻ°ে āĻ¸্āĻĨাāĻ¨ীāĻ¯় āĻšাāĻ¸āĻĒাāĻ¤াāĻ˛ে āĻ¨িāĻ¯়ে āĻ¯াāĻ¯়।
template_id: 1
============================================================
#12
> Dataset: Flan-lambada (T)
inputs: ` ` āĻāĻŽā§āĻাāĻ°, āĻāĻŽি āĻāĻļা āĻāĻ°āĻিāĻ˛াāĻŽ āĻ¤ুāĻŽি āĻāĻ°āĻŦে. āĻāĻŽাāĻ° āĻ্āĻˇāĻŽা āĻাāĻāĻ¯়াāĻ° āĻāĻ¨্āĻ¯ āĻ¤োāĻŽাāĻে āĻāĻ¯় āĻĻেāĻাāĻ¨ো
targets: āĻāĻĻāĻŽ
template_id: 1
============================================================
#13
> Dataset: PAWS-Wiki (T)
inputs: āĻŦাāĻ্āĻ¯ ā§§ঃ (ā§§ā§Žā§¯ā§¨-ā§§ā§¯ā§Ŧā§¨) āĻিāĻ˛েāĻ¨ āĻāĻ¯়াāĻ° āĻāĻাāĻĄেāĻŽি āĻিāĻŽāĻ°িāĻেāĻ° (āĻāĻ¯়েāĻ˛āĻļ āĻāĻাāĻĄেāĻŽি) āĻĒ্āĻ°āĻĨāĻŽ āĻ¸āĻাāĻĒāĻ¤ি।
targets: āĻš্āĻ¯াঁ
template_id: 1
============================================================
#14
> Dataset: CNN-Daily-Mail (T)
inputs: āĻ¨িāĻŦāĻ¨্āĻ§āĻি āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻāĻ°ে āĻŦāĻ˛ুāĻ¨: āĻĒাāĻিāĻ¸্āĻ¤াāĻ¨েāĻ° āĻĒেāĻļোāĻ¯়াāĻ°েāĻ° āĻāĻāĻি āĻ¸্āĻুāĻ˛েāĻ° āĻšāĻ˛েāĻ° āĻেāĻ¤āĻ° āĻĻিāĻ¯়
targets: āĻĒাāĻিāĻ¸্āĻ¤াāĻ¨েāĻ° āĻĒ্āĻ°āĻ¤িāĻ°āĻ্āĻˇা āĻŽāĻ¨্āĻ¤্āĻ°ী āĻŦāĻ˛েāĻ¨, āĻ¸āĻ¨্āĻ¤্āĻ°াāĻ¸েāĻ° āĻŦিāĻ°ুāĻĻ্āĻ§ে āĻ¯ুāĻĻ্āĻ§েāĻ° āĻĒ্āĻ°āĻĨāĻŽ āĻ¸াāĻ°িāĻ¤ে āĻļি
template_id: 1
============================================================
#15
> Dataset: Flan-Coqa (T)
inputs: āĻ¤ুāĻ°্āĻি āĻāĻ¨āĻāĻŖ (), āĻŦা āĻ¤ুāĻ°্āĻিāĻ°া (), āĻ¯া āĻāĻ¨াāĻ¤োāĻ˛িāĻ¯়াāĻ¨ āĻ¤ুāĻ°্āĻি āĻ¨াāĻŽেāĻ āĻĒāĻ°িāĻিāĻ¤ (), āĻāĻāĻি āĻ¤ুāĻ°্
targets: ā§§। āĻāĻ¨াāĻ¤োāĻ˛িāĻ¯়াāĻ° āĻ্āĻ°াāĻŽāĻŦাāĻ¸ী ā§¨। āĻ¨া ā§Š। āĻš্āĻ¯াঁ ā§Ē. āĻ¤ুāĻ°্āĻি ā§Ģ। āĻ¨া ā§Ŧ। āĻĒāĻļ্āĻিāĻŽ āĻāĻāĻ°োāĻĒ ā§। āĻাāĻ°্āĻ
template_id: 1
============================================================
#16
> Dataset: Xlel_wd-inst
inputs: Complete the following phrase: āĻĻ্āĻŦিāĻ¤ীāĻ¯় āĻāĻŦāĻĻুāĻ˛ āĻšাāĻŽিāĻĻ
targets: āĻ¤āĻ°ুāĻŖ āĻ¤ুāĻ°্āĻি āĻŦিāĻĒ্āĻ˛āĻŦ āĻĻ্āĻŦাāĻ°া āĻĻ্āĻŦিāĻ¤ীāĻ¯় āĻ¸াংāĻŦিāĻ§াāĻ¨িāĻ āĻ¯ুāĻেāĻ° āĻ¸ূāĻāĻ¨া āĻāĻ°ে āĻ¸াংāĻŦিāĻ§াāĻ¨িāĻ āĻ°াāĻāĻ¤āĻ¨্āĻ¤
template_id: 1
============================================================
#17
> Dataset: NQ-Open (T)
inputs: āĻĒ্āĻ°āĻļ্āĻ¨: āĻ¤াāĻ°া āĻোāĻĨাāĻ¯় āĻāĻ°āĻŽ āĻāĻŦ āĻাāĻāĻŽ āĻŽেāĻļিāĻ¨ āĻĢিāĻ˛্āĻŽ āĻāĻ°েāĻে āĻāĻ¤্āĻ¤āĻ°ঃ
targets: āĻĢাāĻ°্āĻ¨ি āĻāĻ˛্āĻĒাāĻāĻ¨ āĻ°িāĻ¸োāĻ°্āĻ
template_id: 2
============================================================
#18
> Dataset: Flan-CoT-submix (T)
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻĻুāĻি āĻŦাāĻ্āĻ¯ āĻĨেāĻে āĻোāĻ¨āĻি āĻ¸াāĻ§াāĻ°āĻŖ āĻ্āĻাāĻ¨েāĻ° āĻŦিāĻ°ুāĻĻ্āĻ§ে? āĻŦিāĻāĻ˛্āĻĒঃ - āĻĒ্āĻ°āĻĨāĻŽ āĻŦাāĻ্āĻ¯:
targets: āĻāĻŽāĻ˛া āĻ°āĻ¸েāĻ° āĻ¸্āĻŦাāĻĻ āĻļāĻ¸্āĻ¯েāĻ° āĻ¸াāĻĨে āĻাāĻ˛ āĻšāĻ¯় āĻ¨া। āĻূāĻĄ়াāĻ¨্āĻ¤ āĻāĻ¤্āĻ¤āĻ°: A āĻŦাāĻ্āĻ¯।
template_id: 1
============================================================
#19
> Dataset: Aya-Dataset
inputs: āĻ¨িāĻেāĻ° āĻ
āĻ¨ুāĻ্āĻেāĻĻেāĻ° āĻŦিāĻˇāĻ¯় āĻি ?
āĻাāĻ্āĻুāĻ¯়াāĻ° āĻšাāĻāĻ° (āĻ¸িāĻ˛েāĻি: ę ꠣꠋę ꠥę ę ę ę
ę ) āĻŦাংāĻ˛াāĻĻেāĻļেāĻ° āĻŦৃ
targets: āĻাāĻ্āĻুāĻ¯়াāĻ° āĻšাāĻāĻ° |
template_id: 0
============================================================
#20
> Dataset: Adversarial QA (T)
inputs: "āĻĢিāĻ˛্āĻĄ-āĻāĻĢেāĻ্āĻ" āĻāĻāĻি āĻ˛েāĻŦেāĻ˛ āĻ¯া āĻāĻāĻি āĻ§āĻ°āĻ¨েāĻ° āĻŦāĻ°্āĻŖāĻ¨া āĻāĻ°āĻ¤ে āĻŦ্āĻ¯āĻŦāĻšৃāĻ¤ āĻšāĻ¯়? āĻĒূāĻ°্āĻŦāĻŦāĻ°্āĻ¤ী āĻĒ্āĻ°āĻļ
targets: āĻĻুāĻি āĻ§āĻ°āĻŖেāĻ° āĻ্āĻ°াāĻ¨āĻিāĻ¸্āĻāĻ° āĻ°āĻ¯়েāĻে, āĻ¯া āĻāĻāĻি āĻ¸াāĻ°্āĻিāĻে āĻীāĻাāĻŦে āĻŦ্āĻ¯āĻŦāĻšৃāĻ¤ āĻšāĻ¯় āĻ¤াāĻ° āĻ¸াāĻŽাāĻ¨্āĻ¯ āĻĒ
template_id: 1
============================================================
#21
> Dataset: PIQA (T)
inputs: āĻ¨িāĻŽ্āĻ¨āĻ˛িāĻিāĻ¤ āĻŦাāĻ্āĻ¯āĻি āĻ¸āĻ°্āĻŦোāĻ¤্āĻ¤āĻŽ āĻŦিāĻāĻ˛্āĻĒেāĻ° āĻ¸াāĻĨে āĻļেāĻˇ āĻāĻ°ুāĻ¨ঃ.āĻুāĻিāĻ¨ি āĻļীāĻ°্āĻˇāĻুāĻ˛ি āĻĻিāĻ¯়ে āĻী āĻ
targets: āĻ¤াāĻĻেāĻ° āĻ˛āĻŦāĻŖাāĻ্āĻ¤ āĻĒাāĻ¨িāĻ¤ে āĻ¸াāĻĻা āĻāĻ°ুāĻ¨ āĻāĻŦং āĻ¤াāĻĻেāĻ° āĻāĻāĻি āĻ¸্āĻ¨্āĻ¯াāĻ āĻšিāĻ¸াāĻŦে āĻĒāĻ°িāĻŦেāĻļāĻ¨ āĻāĻ°ুāĻ¨
template_id: 1
============================================================
#22
> Dataset: Flan-unified-QA (T)
inputs: āĻোāĻ¨ āĻŦিāĻŦৃāĻ¤ি āĻ¸āĻ িāĻāĻাāĻŦে āĻŦāĻ°্āĻŖāĻ¨া āĻāĻ°ে āĻ¯ে āĻেāĻ¨ āĻāĻĒ্āĻ°িāĻ˛েāĻ° āĻĒ্āĻ°āĻ¤িāĻি āĻĻিāĻ¨ে āĻāĻ˛াāĻ¸্āĻাāĻ¤ে ā§¨ā§Ē āĻāĻŖ্āĻাāĻ°āĻ
targets: (āĻ)
template_id: 1
============================================================
#23
> Dataset: News-summary-instruct
inputs: āĻāĻ°ো āĻāĻŽ āĻļāĻŦ্āĻĻে āĻŦাāĻ্āĻ¯āĻিāĻ° āĻŽূāĻ˛āĻাāĻŦ āĻŦāĻ°্āĻŖāĻ¨া āĻāĻ°: āĻ¸্āĻ্āĻ¯াāĻ¨্āĻĄাāĻ°্āĻĄ āĻাāĻ°্āĻাāĻ°্āĻĄ āĻŦ্āĻ¯াংāĻেāĻ° āĻ¨āĻ¤ুāĻ¨ āĻĒ্
targets: āĻŦাāĻ্āĻ¯āĻিāĻ° āĻ¸ংāĻ্āĻˇিāĻĒ্āĻ¤ āĻŽূāĻ˛āĻাāĻŦ āĻšāĻ˛ো, āĻ¸্āĻ্āĻ¯াāĻ¨্āĻĄাāĻ°্āĻĄ āĻাāĻ°্āĻাāĻ°্āĻĄেāĻ° āĻ¨āĻ¤ুāĻ¨ āĻ¸িāĻāĻ āĻāĻŦāĻ°াāĻ°।
template_id: 1
============================================================
Templates
There appears to be 16 different templates used by the templated data. To quote Cohere, "Templated data: We collaborated with fluent speakers to create templates that allowed for the automatic expansion of existing datasets into various languages."
Conclusion
Aya collection is a huge multilingual dataset. This can be quite useful for language-specific training and fine-tuning. How do you plan to use the Aya dataset/collection?
Further references:
- Aya Dataset: An Open-Access Collection Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [Paper]
- Aya collection language split [Colab Notebook; used by this blog post]
Comments
Post a Comment