红星资本局9月7日消息,大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构Epoch AI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。
数据在一定程度上决定了智能的上限,这使得大模型的技术越突破,数据技术越要与其“对齐”。
2024外滩大会期间,复旦大学教授、上海市数据科学重点实验室主任肖仰华接受红星资本局等媒体采访时表示,将来可能有两个路径去解决数据耗尽的问题。第一个是合成数据,另一个则是往私域走。