Chinese instruction set sentence corpus

Name: Chinese instruction set sentence corpus
SKU: f90f2aca5c64
Availability: InStock

Dataset successfully added to the Quote List

Dataset ID:

ZLJ_corpus_CN

Dataset Name:

Chinese instruction set sentence corpus

Common Use Cases:

LLM training

Language:

Chinese

Country:

China

Language Code:

chn

Country Code:

CHN

Product Type

Text

Detailed Product Type

LLM training

Unit

200000 sentences

Recording Device

N/A

Recording Condition

N/A

Contributors

N/A

Utterances

N/A

Unique Words

N/A

Sample Rate (kHz):

N/A

Channels

N/A

Data Format

txt

Source

Appen China

Additional Info:

Sentence corpus containing 10 sections:
Question and answer class instruction set ( ZLCWD_corpus_CN);
Multi-turn dialogue instruction set prompt-response pairs (ZLCDH_corpus_CN);
Logical reasoning instruction set prompt (Topic) - response (Reasoning) pairs (ZLCLJ_corpus_CN);
Programming code language instruction set prompt-response pairs, e.g. python (ZLCDM_corpus_CN);
Brainstorming instruction set question-answer pairs (ZLCTN_corpus_CN);
Text rewriting-instruction set original-rewritten pairs (ZLCGX_corpus_CN);
Text to reply to security - command set (ZLCAQ_corpus_CN);
Roleplay instruction set prompt-response pairs (ZLCJS_corpus_CN);
Long text-instruction set prompt-response pairs (ZLCCWB_corpus_CN);
Text generation instruction set prompt-response pairs (ZLCWB_corpus_CN)

Year of Collection

2023

Get Started with Off-the-Shelf AI Training Datasets

Appen’s extensive catalog of off-the-shelf (OTS) datasets spans multiple data types and industries, providing comprehensive coverage for various AI applications. These datasets are crafted to the highest standards of quality and accuracy, ensuring reliable training data for AI models.

Talk to an expert