Auf dieser Website finden Sie eine Übersicht von Datenbanken und Korpora.
Nutzen Sie auch gerne die Sortier- und Suchfunktion der Tabelle für eine bessere Übersichtlichkeit.
| DATENSATZ | DATENMODALITÄT | AUFGABENTYP | UNTERSTÜTZTE SPRACHEN |
|---|---|---|---|
| IMDb Movie Reviews | Text | Sentimentanalyse, natürliche Sprachverarbeitung, Textanalyse | Englisch |
| Penn Treebank | Text | Parsing, syntaktische Struktur | Englisch |
| MRPC (Microsoft Research Paraphrase Corpus) | Text | Semantische Beziehung, Paraphrasen | Englisch |
| CoLA (Corpus of Linguistic Acceptability) | Text | Grammatikalitätsbewertungen, Akzeptanzbewertungen | Englisch |
| VoxCeleb2 | Audio, Text, Video, Bild | Sprechererkennung | Multilingual |
| CNN/Daily Mail | Text | Textzusammenfassungen, Nachrichtenartikel | Englisch |
| DailyDialog | Text | Dialoge, Emotionserkennung | Englisch |
| RCV1 (Reuters Corpus Volume 1) | Text | Textkategorisierung, Nachrichtenartikel | Englisch, Multilingual |
| MultiWOZ (Multi-domain Wizard-of-Oz) | Text | Dialoge | Englisch |
| MSVD (Microsoft Research Video Description Corpus) | Video, Text | Paraphrasen, Evaluation, Videobeschreibungen | Englisch, Multilingual |
| MPQA Opinion Corpus (Multi-Perspective Question Answering) | Text | Emotionserkennung, Sentimentanalyse | Englisch |
| LJSpeech (The LJ Speech Dataset) | Audio, Text | Sprachaufzeichnung | Englisch |
| MELD (Multimodal EmotionLines Dataset) | Video, Text | Emotionserkennung, Multimodal | Englisch, Chinesisch, Russisch |
| New York Times Annotated Corpus | Text | Nachrichtenartikel, annotiert | Englisch |
| OntoNotes 5.0 | Text | Genre, annotiert, Parsing, Semantische Beziehung | Englisch, Chinesisch, Arabisch |
| WikiSQL | Text | SQL-Abfragen | NA |
| NarrativeQA | Text | Leseverständnis, Textzusammenfassungen | Englisch |
| OpenWebText | Text | Webdaten | Englisch |
| Hate Speech | Text | Twitter, Hate Speech, Kategorisierung | Englisch |
| S2ORC | Text | Text mining, Textanalyse, natürliche Sprachverarbeitung, wissenschaftliche Arbeiten | Englisch |
| Wizard of Wikipedia | Text | Dialoge | Englisch |
| Europarl (European Parliament Proceedings Parallel Corpus) | Text | Paralleles Korpus | Multilingual |
| LIAR | Text | Fake news | Englisch |
| GoEmotions | Text | Emotionsanalyse, Reddit | Englisch |
| WikiHow | Text | Textzusammenfassungen | Englisch |
| Multi-News | Text | Textzusammenfassungen, Nachrichtenartikel | Englisch |
| CC100 | Text | Webdaten | Multilingual |
| LRS2 (Lip Reading Sentences 2) | Text, Audio, Video | gesprochene Sprache | Englisch |
| RotoWire | Text | Paralleles Korpus, Sport | Englisch, Deutsch |
| EmpatheticDialogues | Text | Dialoge, Emotionserkennung | Englisch |
| WikiSum | Text | Textzusammenfassungen | Englisch |
| OCNLI (Original Chinese Natural Language Inference) | Text | Annotiertes Korpus | Chinesisch |
| TweepFake | Text | Soziale Medien, Twitter, Deepfake | Englisch |
| CJPE (Court Judgment Prediction and Explanation) | Text | Rechtssprache | Englisch, Multilingual |
| SMHD (Self-reported Mental Health Diagnoses) | Text | Reddit, mentale Gesundheit, psychische Störungen | Englisch |
| MMHS150k (Multimodal Hate Speech) | Text, Bild | Hate speech, Twitter, Multimodal | Englisch |
| EmoContext | Text | Emotionsanalyse | Englisch |
| UR-FUNNY | Text, Audio, Bild | Humor, Multimodal | Englisch |
| Amazon Product Data | Text, Bild | Produkte, Rezensionen | Englisch |
| How2Sign (A Large-scale Multimodal Dataset for Continuous American Sign Language) | Text, Video, Bild | Gebärdensprache, Multimodal | American Sign Language |
| Tatoeba | Text | Paralleles Korpus, Übersetzungen | Multilingual |
| FakeNewsNet | Text | Fake news, Soziale Median | Englisch |
| IndicCorp | Text | Korpus, Word Embeddings | Englisch, Bengali, Tamil, Marathi, Hindi, Punjabi, Oriya, Malayalam, Kannada, Telugu, Assamese, Gujarati |
| PMIndia | Text | Paralleles Korpus, Nachrichten | Multilingual, English |
| 20 Newsgroups | Text | Nachrichten, Textanalyse, Clustering | Englisch |
| Natural Stories | Text | Sprachverarbeitung, Psycholinguistik, self-paced reading | Englisch |
| MCTest | Text | Leseverständnis | Englisch |
| MOROCO (MOldavian and ROmanian Dialectal COrpus) | Text | Nachrichten, Dialekte | Rumänisch |
| PIT (Paraphrase and Semantic Similarity in Twitter) | Text | Semantische Beziehungen, Paraphrasen, Twitter | Englisch |
| Moral Stories | Text | Erzählungen, Normen, Moral | Englisch |
| CrisisMMD | Text, Bild | Annotiert, Multimodal, Twitter | Englisch |
| MUStARD++ | Text, Video | Sarkasmuserkennung, multimodal | Englisch |
| Acronym Identification | Text | Akronyme | Englisch |
| Business Scene Dialogue | Text | Business-Konversationen | Englisch, Japanisch |
| HappyDB | Text | Emotionsanalyse, text-basierte Reflektionen | Englisch |
| UA-GEC (UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language) | Text | Annotiertes Korpus, Fehlererkennung | Ukrainisch |
| GVFC (Gun Violence Frame Corpus) | Text, Bild | Nachrichten | Englisch |
| KaMed | Text | Dialoge, Medizin | Chinesisch |
| Video Storytelling | Video, Text | Erzählungen, multimodal | Englisch |
| Gumar Corpus | Text | Internet, Romane | Arabisch |
| PDNC (Project Dialogism Novel Corpus) | Text | Romane, annotiertes Korpus | Englisch |
| RefSeer | Text | Zitatsempfehlungen | Englisch |
| Text | Soziale Median | Englisch | |
| AMI Meeting Corpus | Video, Text | Multimodal, Transkription, annotiertes Korpus | Englisch |
| ArCOV-19 | Text | Twitter, Covid-19 | Arabisch |
| ArmanEmo | Text | Emotionsanalyse | Persisch |
| DogWhistle | Text | Jargon | Chinesisch |
| HurricaneEmo | Text | Emotionsanalyse, Twitter | Englisch |
| Species-800 | Text | Korpus, Taxonomie | Englisch |
| Broad Twitter Corpus | Text | Twitter, named-entity recognition | Englisch |
| TED Gesture Dataset | Video, Text, Audio | Gebärden | Englisch |
| Amazon Beauty (Amazon Beauty 5-core) | Text, Bild | Rezensionen, Produkte | Englisch |
| ChatHaruhi (ChatHaruhi: Reviving Anime Character in Reality via Large Language Model) | Text | Dialoge, Anime | Englisch, Chinesisch |
| JESC (Japanese-English Subtitle Corpus) | Text | Korpus, Untertitel | Japanisch, Englisch |
| United Nations Parallel Corpus | Text | paralleles Korpus, UN | Englisch, Französisch, Spanisch, Chinesisch, Russisch, Arabisch |
| iSarcasm | Text | Sarkasmuserkennung, Twitter | Englisch |
| Humicroedit | Text | Humor, Überschriften | Englisch |
| MMHS150k (Multimodal Hate Speech) | Text, Bild | Hate speech, multimodal | Englisch |
| Opusparcus | Text | Korpus, Paraphrasen, Untertitel | Englisch, Deutsch, Französisch, Russisch, Finnish, Schwedisch |
| TVC (TV show Captions) | Text, Video | Untertitel, multimodal | Englisch |
| CoVaxLies v1 | Text | Misinformation, Fake News, Twitter | Englisch |
| Hate Counter | Text | Hate speech, Dialoge | Englisch |
| OGTD (Offensive Greek Tweet Dataset) | Text | Twitter, Hate speech | Griechisch |
| Secim2023 | Text | Soziale Medien | Türkisch |
| Amazon Toys & Games (Amazon Toys & Games 5-core) | Image, Text | Rezensionen, Produkte | Englisch |
| Sarcasm Corpus V2 | Text | Sarkasmus | Englisch |
| Twitter Abusive Behavior | Text | Hate speech, Twitter | Englisch |
| YACLC (Yet Another Chinese Learner Corpus) | Text | Korpus, L2 | Chinesisch |
| word2word | Text | Übersetzungen, Untertitel | Multilingual |
| CODA-19 | Text | Akademische Texte, Covid-19 | Englisch |
| Cambridge Law Corpus (The Cambridge Law Corpus: A Dataset for Legal AI Research) | Text | Rechtssprache, historisch | Englisch |
| MultiSubs (MultiSubs: A Large-scale Multimodal and Multilingual Dataset) | Text, Bild | Untertitel, multimodal | Englisch, Spanisch, Deutsch, Französisch, Portugiesisch |
| ToLD-Br (Toxic Language Detection for Brazilian Portuguese) | Text | Hate speech | Portugiesisch |
| ArzEn (Corpus of Egyptian Arabic-English Code-switching) | Text | Codeswitching | Arabisch, English |
| ReINTEL | Text | Soziale Medien | Vietnamesisch |
| Reddit Conversation Corpus | Text | Reddit, Kommentare, Gespräche | Spanisch |
| Distress Analysis Interview Corpus/Wizard-of-Oz set (DAIC-WOZ) | Video, Text, Audio | Interviews, psychische Belastungen und Erkrankungen | Englisch |
| Common Crawl | Text | Web crawling | Englisch |
| CC-News (CommonCrawl News dataset) | Text | Nachrichten | Englisch, Multilingual |
| GermEval | Text | Natural Language Processing | Deutsch |
| LEAFTOP | Text | low-resource-Sprachen | Multilingual |
| MentSum (Mental Health Summarization Dataset) | Text | Zusammenfassungen, mentale Gesundheit | Englisch |
| Trending YouTube Video Statistics | Text | Trends, Youtube | Englisch |
| AraCOVID19-MFH | Text | Fake news, Hate speech, Covid-19 | Arabisch |
| ACL Anthology Corpus with Full Text | Text | Konferenz, Abstracts | Englisch |
| PoKi | Text | Kindersprache | Englisch |