大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP. Contribute to brightmart/nlp_chinese_corpus development by creating an account on GitHub.
語料庫將會不斷擴充。。。
一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)
二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)
Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。
1.維基百科(wiki2019zh),100萬個結構良好的中文詞條
2.新聞語料(news2016zh),250萬篇新聞,含關鍵詞、描述
3.百科問答(baike2018qa),150萬個帶問題類型的問答
4.社區問答json版(webtext2019zh),410萬個高質量社區問答,適合訓練超大模型
5.翻譯語料(translation2019zh),520萬個中英文句子對
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,
普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,
在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。
不知道你是否也遇到了這樣的問題?
我們這個項目,就是為瞭解決這一問題貢獻微薄之力。