GitHub 中文社区
回车: Github搜索    Shift+回车: Google搜索
论坛
排行榜
趋势
登录

©2025 GitHub中文社区论坛GitHub官网网站地图GitHub官方翻译

  • X iconGitHub on X
  • Facebook iconGitHub on Facebook
  • Linkedin iconGitHub on LinkedIn
  • YouTube iconGitHub on YouTube
  • Twitch iconGitHub on Twitch
  • TikTok iconGitHub on TikTok
  • GitHub markGitHub’s organization on GitHub
集合主题趋势排行榜
#

corpus-data

Website
Wikipedia
https://static.github-zh.com/github_avatars/esbatmop?size=40
esbatmop / MNBVC

#自然语言处理#MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

中文chinese-languagechinese-nlpchinese-simplifiedcorpus-data自然语言处理
3.88 k
7 天前
https://static.github-zh.com/github_avatars/PlexPt?size=40
PlexPt / chatgpt-corpus

ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

corpusAwesome Listscorpus-dataquestion-answering
904
1 年前
https://static.github-zh.com/github_avatars/shijiebei2009?size=40
shijiebei2009 / CEC-Corpus

📚中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室

corpus-data
711
6 年前
https://static.github-zh.com/github_avatars/sheepzh?size=40
sheepzh / poetry

#自然语言处理#地球上最全的华语现代诗歌语料库,3k+诗人,80K+诗歌,15M+字

poetryliterature自然语言处理corpus-datachinese-corpus
Python 690
5 个月前
https://static.github-zh.com/github_avatars/gkiril?size=40
gkiril / oie-resources

#自然语言处理#A curated list of Open Information Extraction (OIE) resources: papers, code, data, etc.

information-extraction自然语言处理papersnatural-language-understandingnluextract-informationrelation-extractiondataset数据科学datascience人工智能big-datacorpus-data
496
3 年前
https://static.github-zh.com/github_avatars/guhhhhaa?size=40
guhhhhaa / 4675-scifi

#自然语言处理#chinese NLP corpus of chinese science fiction,chinese science fiction corpus : About 4675 Chinese science fiction novels 大约有4675本科幻小说,中文科幻小说自然语言处理语料库,中文科幻小说文本语料库,中文科幻小说文本数据库,科幻小说语料

scificorpuscorpus-data自然语言处理science-fictionchinese-nlp数据集
414
3 年前
https://static.github-zh.com/github_avatars/grammarly?size=40
grammarly / ua-gec

#自然语言处理#UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language

datasetcorpuscorpus-datacorpus-tools自然语言处理
Macaulay2 261
1 年前
https://static.github-zh.com/github_avatars/guhhhhaa?size=40
guhhhhaa / wula-scifi

#自然语言处理#chinese NLP corpus of chinese science fiction, chinese science fiction corpus: Archive of the Ark Plan of Ula Science Fiction Website 乌拉科幻小说网方舟计划存档,中文科幻小说自然语言处理语料库,中文科幻小说文本语料库,中文科幻小说文本数据库,科幻小说语料

corpuscorpus-data自然语言处理science-fictionscifichinese-nlp数据集
117
3 年前
https://static.github-zh.com/github_avatars/aplmikex?size=40
aplmikex / deduplication_mnbvc

#自然语言处理#文本去重

中文chinese-languagechinese-nlpchinese-simplifiedcorpus-data自然语言处理
Python 72
1 年前
https://static.github-zh.com/github_avatars/NathanDuran?size=40
NathanDuran / Switchboard-Corpus

Utilities for Processing the Switchboard Dialogue Act Corpus

corpuscorpus-processingcorpus-datacorpus-toolsdialogue
Python 70
4 年前
https://static.github-zh.com/github_avatars/dataset-vn?size=40
dataset-vn / DANeS

#自然语言处理#DANeS is an open-source E-newspaper dataset by collaboration between DATASET JSC (dataset.vn) and AIV Group (aivgroup.vn)

dataset人工智能corpus-datacorpus自然语言处理Open Source机器学习
Python 67
3 年前
https://static.github-zh.com/github_avatars/LemonAttn?size=40
LemonAttn / bilibili_comment_crawl

#网络爬虫#爬取bilibili视频下的评论,最新出品!!!⚠本代码只适用于学习,做其他事情概不负责!!!

Python爬虫requestsspider哔哩哔哩corpus-data
Python 63
5 个月前
https://static.github-zh.com/github_avatars/zonghui0228?size=40
zonghui0228 / BioMedical-NLP-corpus

#自然语言处理#Biomedical NLP Corpus or Datasets.

自然语言处理Bioinformaticsmedical-informaticscorpus-datadatasetnamed-entity-recognitiontext-mining
62
3 年前
https://static.github-zh.com/github_avatars/clarin-eric?size=40
clarin-eric / ParlaMint

ParlaMint: Comparable Parliamentary Corpora

corpus-datamultilingual
XSLT 61
4 天前
https://static.github-zh.com/github_avatars/johentsch?size=40
johentsch / ms3

A parser for annotated MuseScore 3 files.

corpuscorpus-datacorpus-processingcorpus-toolsmusescoreParsersheet-musictsvtsv-filesxml-parserxml-parser-libraryxml-parsing
Python 49
3 个月前
https://static.github-zh.com/github_avatars/shijiebei2009?size=40
shijiebei2009 / CEEC-Corpus

📚中文环境突发事件语料库(Chinese Environment Emergency Corpus)-上海大学-语义智能实验室

corpus-data
46
10 年前
https://static.github-zh.com/github_avatars/KehaoWu?size=40
KehaoWu / Jinyong-Corpus

#自然语言处理#金庸15部小说字典

corpus-data自然语言处理
44
7 年前
https://static.github-zh.com/github_avatars/hailiang-wang?size=40
hailiang-wang / egret-wenda-corpus

A Public Corpus for Machine Learning

corpuscorpus-dataqa
JavaScript 44
7 年前
https://static.github-zh.com/github_avatars/CanCLID?size=40
CanCLID / canto-filter

#自然语言处理#粵文語料篩選器 Cantonese text filter

cantonesecantonese-languagecorpuscorpus-datadata自然语言处理
Python 40
3 个月前
https://static.github-zh.com/github_avatars/jaaack-wang?size=40
jaaack-wang / ccnc

CCNC: A Comprehensive Chinese Name Corpus (3.65M name samples). 大型中文姓名语料库 (内含365万姓名语例)。

corpus-datawebscrapingnames中文
Jupyter Notebook 40
4 年前
loading...