-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于数据集的问题 #1
Comments
Youggls,你好: |
非常感谢您的解释和分享!祝您科研工作顺利~ |
XL2248,您好: |
czq1999,你好, |
感谢您的回复,祝您科研顺利!
…------------------ 原始邮件 ------------------
发件人: "XL2248/VHM" ***@***.***>;
发送时间: 2022年9月5日(星期一) 中午11:34
***@***.***>;
***@***.******@***.***>;
主题: Re: [XL2248/VHM] 关于数据集的问题 (Issue #1)
czq1999,你好,
感谢你的关注。目前我们没有这个版权去散播这些数据集,你可以从原文那里下载下来,比如LCSTS和对应的英文,后续我会尽快把我处理数据的脚本开源出来。
希望能对你有所帮助。
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
Hi,提取数据时可参考preprocessing_scripts里的脚本,之后按照上面说的方式this进行处理即可。 |
尊敬的作者您好,
非常感谢您分享您的代码,您的研究工作对我的科研工作有很大的帮助。
关于您的训练数据我有一些问题,看到代码中
run_config/train-enzh-self.json
文件有/path/to/CLS_src/train_zh.text.wordseg.norm.bpe
和/path/to/CLS_tgt/train_en.sum.norm.tok.lowercase.bpe
这样的文件。我的理解是这里给出的应该是分词后的中英文文件。想问一下您,具体分词的细节是怎么实现的,使用了什么分词器(是Google的sentencepiece吗)。能否给出更详细的数据处理流程呢?
非常感谢您在百忙之中解答我的问题!
再次感谢您的分享。
The text was updated successfully, but these errors were encountered: