site stats
!!真正的全过程开源的中英文双语大模型。1. 4.7T tokens 的中英文清洗后语料,配比挺合理。2. 扫描PDF 转 Markdown 的工作流,可以识别图片、表格和公式!!!3. 中英文的预训练数据处理 Pipeline,拿来即用~4. 最终的 7B…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多