Daten und Korpora

Auf dieser Website finden Sie eine Übersicht von Datenbanken und Korpora. 

Nutzen Sie auch gerne die Sortier- und Suchfunktion der Tabelle für eine bessere Übersichtlichkeit. 

DATENSATZDATENMODALITÄTAUFGABENTYPUNTERSTÜTZTE SPRACHEN
IMDb Movie ReviewsTextSentimentanalyse, natürliche Sprachverarbeitung, TextanalyseEnglisch
Penn TreebankTextParsing, syntaktische StrukturEnglisch
MRPC (Microsoft Research Paraphrase Corpus)TextSemantische Beziehung, ParaphrasenEnglisch
CoLA (Corpus of Linguistic Acceptability)TextGrammatikalitätsbewertungen, AkzeptanzbewertungenEnglisch
VoxCeleb2Audio, Text, Video, BildSprechererkennungMultilingual
CNN/Daily MailTextTextzusammenfassungen, NachrichtenartikelEnglisch
DailyDialogTextDialoge, EmotionserkennungEnglisch
RCV1 (Reuters Corpus Volume 1)TextTextkategorisierung, NachrichtenartikelEnglisch, Multilingual
MultiWOZ (Multi-domain Wizard-of-Oz)TextDialogeEnglisch
MSVD (Microsoft Research Video Description Corpus)Video, TextParaphrasen, Evaluation, VideobeschreibungenEnglisch, Multilingual
MPQA Opinion Corpus (Multi-Perspective Question Answering)TextEmotionserkennung, SentimentanalyseEnglisch
LJSpeech (The LJ Speech Dataset)Audio, TextSprachaufzeichnungEnglisch
MELD (Multimodal EmotionLines Dataset)Video, TextEmotionserkennung, MultimodalEnglisch, Chinesisch, Russisch
New York Times Annotated CorpusTextNachrichtenartikel, annotiertEnglisch
OntoNotes 5.0TextGenre, annotiert, Parsing, Semantische BeziehungEnglisch, Chinesisch, Arabisch
WikiSQLTextSQL-AbfragenNA
NarrativeQATextLeseverständnis, TextzusammenfassungenEnglisch
OpenWebTextTextWebdatenEnglisch
Hate SpeechTextTwitter, Hate Speech, KategorisierungEnglisch
S2ORCTextText mining, Textanalyse, natürliche Sprachverarbeitung, wissenschaftliche ArbeitenEnglisch
Wizard of WikipediaTextDialogeEnglisch
Europarl (European Parliament Proceedings Parallel Corpus)TextParalleles KorpusMultilingual
LIARTextFake newsEnglisch
GoEmotionsTextEmotionsanalyse, RedditEnglisch
WikiHowTextTextzusammenfassungenEnglisch
Multi-NewsTextTextzusammenfassungen, NachrichtenartikelEnglisch
CC100TextWebdatenMultilingual
LRS2 (Lip Reading Sentences 2)Text, Audio, Videogesprochene SpracheEnglisch
RotoWireTextParalleles Korpus, SportEnglisch, Deutsch
EmpatheticDialoguesTextDialoge, EmotionserkennungEnglisch
WikiSumTextTextzusammenfassungenEnglisch
OCNLI (Original Chinese Natural Language Inference)TextAnnotiertes KorpusChinesisch
TweepFakeTextSoziale Medien, Twitter, DeepfakeEnglisch
CJPE (Court Judgment Prediction and Explanation)TextRechtsspracheEnglisch, Multilingual
SMHD (Self-reported Mental Health Diagnoses)TextReddit, mentale Gesundheit, psychische StörungenEnglisch
MMHS150k (Multimodal Hate Speech)Text, BildHate speech, Twitter, MultimodalEnglisch
EmoContextTextEmotionsanalyseEnglisch
UR-FUNNYText, Audio, BildHumor, MultimodalEnglisch
Amazon Product DataText, BildProdukte, RezensionenEnglisch
How2Sign (A Large-scale Multimodal Dataset for Continuous American Sign Language)Text, Video, BildGebärdensprache, MultimodalAmerican Sign Language
TatoebaTextParalleles Korpus, ÜbersetzungenMultilingual
FakeNewsNetTextFake news, Soziale MedianEnglisch
IndicCorpTextKorpus, Word EmbeddingsEnglisch, Bengali, Tamil, Marathi, Hindi, Punjabi, Oriya, Malayalam, Kannada, Telugu, Assamese, Gujarati
PMIndiaTextParalleles Korpus, NachrichtenMultilingual, English
20 NewsgroupsTextNachrichten, Textanalyse, ClusteringEnglisch
Natural StoriesTextSprachverarbeitung, Psycholinguistik, self-paced readingEnglisch
MCTestTextLeseverständnisEnglisch
MOROCO (MOldavian and ROmanian Dialectal COrpus)TextNachrichten, DialekteRumänisch
PIT (Paraphrase and Semantic Similarity in Twitter)TextSemantische Beziehungen, Paraphrasen, TwitterEnglisch
Moral StoriesTextErzählungen, Normen, MoralEnglisch
CrisisMMDText, BildAnnotiert, Multimodal, TwitterEnglisch
MUStARD++Text, VideoSarkasmuserkennung, multimodalEnglisch
Acronym IdentificationTextAkronymeEnglisch
Business Scene DialogueTextBusiness-KonversationenEnglisch, Japanisch
HappyDBTextEmotionsanalyse, text-basierte ReflektionenEnglisch
UA-GEC (UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language)TextAnnotiertes Korpus, FehlererkennungUkrainisch
GVFC (Gun Violence Frame Corpus)Text, BildNachrichtenEnglisch
KaMedTextDialoge, MedizinChinesisch
Video StorytellingVideo, TextErzählungen, multimodalEnglisch
Gumar CorpusTextInternet, RomaneArabisch
PDNC (Project Dialogism Novel Corpus)TextRomane, annotiertes KorpusEnglisch
RefSeerTextZitatsempfehlungenEnglisch
WeChatTextSoziale MedianEnglisch
AMI Meeting CorpusVideo, TextMultimodal, Transkription, annotiertes KorpusEnglisch
ArCOV-19TextTwitter, Covid-19Arabisch
ArmanEmoTextEmotionsanalysePersisch
DogWhistleTextJargonChinesisch
HurricaneEmoTextEmotionsanalyse, TwitterEnglisch
Species-800TextKorpus, TaxonomieEnglisch
Broad Twitter CorpusTextTwitter, named-entity recognitionEnglisch
TED Gesture DatasetVideo, Text, AudioGebärdenEnglisch
Amazon Beauty (Amazon Beauty 5-core)Text, BildRezensionen, ProdukteEnglisch
ChatHaruhi (ChatHaruhi: Reviving Anime Character in Reality via Large Language Model)TextDialoge, AnimeEnglisch, Chinesisch
JESC (Japanese-English Subtitle Corpus)TextKorpus, UntertitelJapanisch, Englisch
United Nations Parallel CorpusTextparalleles Korpus, UNEnglisch, Französisch, Spanisch, Chinesisch, Russisch, Arabisch
iSarcasmTextSarkasmuserkennung, TwitterEnglisch
HumicroeditTextHumor, ÜberschriftenEnglisch
MMHS150k (Multimodal Hate Speech)Text, BildHate speech, multimodalEnglisch
OpusparcusTextKorpus, Paraphrasen, UntertitelEnglisch, Deutsch, Französisch, Russisch, Finnish, Schwedisch
TVC (TV show Captions)Text, VideoUntertitel, multimodalEnglisch
CoVaxLies v1TextMisinformation, Fake News, TwitterEnglisch
Hate CounterTextHate speech, DialogeEnglisch
OGTD (Offensive Greek Tweet Dataset)TextTwitter, Hate speechGriechisch
Secim2023TextSoziale MedienTürkisch
Amazon Toys & Games (Amazon Toys & Games 5-core)Image, TextRezensionen, ProdukteEnglisch
Sarcasm Corpus V2TextSarkasmusEnglisch
Twitter Abusive BehaviorTextHate speech, TwitterEnglisch
YACLC (Yet Another Chinese Learner Corpus)TextKorpus, L2Chinesisch
word2wordTextÜbersetzungen, UntertitelMultilingual
CODA-19TextAkademische Texte, Covid-19Englisch
Cambridge Law Corpus (The Cambridge Law Corpus: A Dataset for Legal AI Research)TextRechtssprache, historischEnglisch
MultiSubs (MultiSubs: A Large-scale Multimodal and Multilingual Dataset)Text, BildUntertitel, multimodalEnglisch, Spanisch, Deutsch, Französisch, Portugiesisch
ToLD-Br (Toxic Language Detection for Brazilian Portuguese)TextHate speechPortugiesisch
ArzEn (Corpus of Egyptian Arabic-English Code-switching)TextCodeswitchingArabisch, English
ReINTELTextSoziale MedienVietnamesisch
Reddit Conversation CorpusTextReddit, Kommentare, GesprächeSpanisch
Distress Analysis Interview Corpus/Wizard-of-Oz set (DAIC-WOZ)Video, Text, AudioInterviews, psychische Belastungen und ErkrankungenEnglisch
Common CrawlTextWeb crawlingEnglisch
CC-News (CommonCrawl News dataset)TextNachrichtenEnglisch, Multilingual
GermEvalTextNatural Language ProcessingDeutsch
LEAFTOPTextlow-resource-SprachenMultilingual
MentSum (Mental Health Summarization Dataset)TextZusammenfassungen, mentale GesundheitEnglisch
Trending YouTube Video StatisticsTextTrends, YoutubeEnglisch
AraCOVID19-MFHTextFake news, Hate speech, Covid-19Arabisch
ACL Anthology Corpus with Full TextTextKonferenz, AbstractsEnglisch
PoKiTextKinderspracheEnglisch