大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
2019-02-08
是
2024-05-23T02:31:31Z
#自然语言处理#all kinds of text classification models and more with deep learning
A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
RoBERTa中文预训练模型: RoBERTa for Chinese
Open-Sora: 完全开源的高效复现类Sora视频生成方案
#自然语言处理#MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
#大语言模型#Scalable data pre processing and curation toolkit for LLMs
中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。
#大语言模型#本项目旨在分享大模型相关技术原理以及实战经验(大模型工程化、大模型应用落地)
100+ Chinese Word Vectors 上百种预训练中文词向量
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
#自然语言处理#通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型
#算法刷题#《Hello 算法》:动画图解、一键运行的数据结构与算法教程。支持 Python, Java, C++, C, C#, JS, Go, Swift, Rust, Ruby, Kotlin, TS, Dart 代码。简体版和繁体版同步更新,English version in translation
结巴中文分词
#自然语言处理#Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
#自然语言处理#A curated list of resources for Chinese NLP 中文自然语言处理相关资料