大規模中文自然語言處理 nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP. Contribute to brightmart/nlp_chinese_corpus development by creating an account on GitHub.

語料庫將會不斷擴充。。。

一期目標：10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)

二期目標：30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料（2019年12月31日）

Update：增加高質量社區問答json版(webtext2019zh)，可用於訓練超大規模NLP模型；添加520萬翻譯語料(translation2019zh)。

1.維基百科(wiki2019zh)，100萬個結構良好的中文詞條

2.新聞語料(news2016zh)，250萬篇新聞，含關鍵詞、描述

3.百科問答(baike2018qa)，150萬個帶問題類型的問答

4.社區問答json版(webtext2019zh)，410萬個高質量社區問答，適合訓練超大模型

5.翻譯語料(translation2019zh)，520萬個中英文句子對

為什麼需要這個項目

中文的信息無處不在，但如果想要獲得大量的中文語料，卻是不太容易，有時甚至非常困難。在2019年初這個時點上，

普通的從業者、研究人員或學生，並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量，

在百度和github上上搜索了好久，收穫卻很少：要麼語料的量級太小，要麼數據過於成舊，或需要的處理太複雜。

不知道你是否也遇到了這樣的問題？

我們這個項目，就是為瞭解決這一問題貢獻微薄之力。