2024-03-26 这个计算正确吗?

预训练 Tiny-llamma 1.1B 模型需要 90天时间,16块A-100 (40显存) 的显卡。数据量3 trillion个tokens。

这些训练数据,每个tokens如果按照每个占4字节来计算,则需要12TB的硬盘。

gpufuwuqi的价格是每个月1550。(这么便宜?)1550 * 16 *3 = 74400元。[1]

查它的网站备案是厦门同力合创公司。这家公司有被投诉的记录。

胖哒云游 客服联系不上 不给予退款相关的服务厦门同力合创网络科技有限 公司深圳分公司客服不处理,不予退款,服务不到位,联系不到客服

另外一个计算

TinyLlama is only a 1.1B parameter model. Yet, the project had to use 16 A100-40G GPUs over almost 3 months. Even on a very cheap cloud, e.g. $1 per A100-40G per hour, it would cost around $35,000.7 Feb 2024


  1. https://www.reddit.com/r/LocalLLaMA/comments/1abzhg5/llama_2_models_smaller_than_1b/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容