感知器正在将空闲带宽转化为人工智能训练数据

人工智能领域目前正面临着严重的训练数据瓶颈，特别是中心化技术垄断将早期开发人员排除在高质量信息管道之外。去中心化数据基础设施平台 Perceptron 正在尝试通过部署去中心化基础设施层来解决这一结构性瓶颈，该基础设施层通过日常用户设备众包网络信息。

摘要

Perceptron 正在利用闲置的消费者带宽来收集公开可用的网络数据并提供成本更低的 AI 训练数据集。
该平台表示，其网络覆盖 150 多个国家/地区，并会奖励贡献者，同时在将数据提供给企业客户之前验证数据质量。
Perceptron 推出了 1000 万美元的 AI 数据基金，帮助开发者访问数据基础设施并加速 AI 模型的开发。

现代媒体完全专注于强调人工智能领域的领先企业如何不断部署下一代硬件系统以增强其原始计算能力。但最少被提及的操作限制之一是训练数据的质量，它构成了任何功能性人工智能模型的核心基础。

问题在于，随着绝大多数开放网络内容已经被彻底收获，企业对公共应用程序编程接口的积极控制已将数据集收集的剩余基础锁定在数百万美元的高昂付费墙后面。它本质上已成为少数大型科技垄断企业的一项昂贵得令人望而却步的专有特权。

对于目前在人工智能竞赛中处于领先地位的科技巨头来说，确保这些高成本的信息管道的安全并不是什么太大的财务挑战，但资金不足的创新者呢？如果没有必要的预算，早期初创公司将难以打造有竞争力的产品。

“OpenAI 每年向 Reddit 和 Twitter 等公司支付大约 6000 万至 1 亿美元，以便能够通过 API 访问数据，”Perceptron 联合创始人兼首席执行官 Peter Anthony 在最近的一次采访中告诉 crypto.news。

“许多新的人工智能项目没有预算来花费 6000 万到 1 亿美元来访问数据。即使你构建了世界上最好的模型，如果无法访问高质量的数据，它也是毫无用处的。你可能是学校里最聪明的孩子，但如果你无法访问任何书籍，那么你实际上就没有太多信息可以展示。”

安东尼意识到，这种市场不对称性为服务于独立细分市场的替代基础设施留下了空间，这最终促使他共同创立了 Perceptron，该平台计划利用闲置的消费者带宽来解决人工智能目前面临的“数据瓶颈问题”。

“世界上大部分数据已经被访问和抓取，但有很多数据隐藏在不同的地方，目前还无法访问，因此我们正在收集数据并定位自己，以便能够以更低的成本为人工智能公司提供数据，”安东尼解释道。

收集空闲带宽

但是 Perceptron 计划利用的空闲带宽是多少？安东尼解释说，这是日常用户通过日常数字浏览不断产生的未被认可的经济资产，只是为了看着大公司从中提取并从中获利。

“现在，每次你我在手机、电脑上使用互联网时，我们都会生成数据。这些数据被 Google 等公司收集并打包成海量数据集，并以数百万甚至数十亿美元的价格出售。然而你和我却从未看到过其中的一分钱价值。”

Perceptron 所做的就是彻底颠覆这种提取模型。他们建立了一个横跨 150 多个国家/地区的网络，包含大约 800,000 个节点，这些节点由个人用户提供支持，这些用户只需在 Chrome 上运行浏览器扩展程序或在 Android 设备上运行应用程序即可。

虽然这些端点安装不会抓取私人数字文件或为公司提供敏感的个人遥测数据，但它可以确保本地化的地理视角，安东尼将其描述为开放网络上的“不同有利位置”，然后可以将其分成小块并组合成一个有意义的数据集。

“非常重要的是，我们要关注这样一个事实：它不使用个人数据，不会利用您自己的个人数据和信息，但假设您现在在马拉维。当您查看某个特定网站时，我可以去查看同一个网站，但很可能，因为我在迪拜，我们将看到一组不同的结果。我们从这种情况中获得的所有好处是能够使用您的计算机查看某些内容就像一个普通的网页，或者其他任何东西。”

为了说明这一点，Anthony 指出，如果企业客户需要来自美国的医疗保健相关社交媒体帖子数据集，Perceptron 可以在其全球节点网格中进行协调，以提取单个公共帖子，而无需与限制性企业 API 交互。

由于公众已经可以通过任何标准网络浏览器免费访问这些数据，因此通过各个终端节点路由收集可以合法地避开商业付费墙。一旦检索到这些次要数据包，网络就会将未精炼的数据传输回集中式服务器，在该服务器上，专门的人工智能模型会清理和审核信息以进行质量控制。

“通过这样做，我们可以显着降低目前许多大型中心化公司（例如 Google）收取的成本。

由激励优质网络参与者的经济循环提供支持

下一个问题是为什么有人会自愿将他们的硬件加入这样的网络，答案很简单，共享价值循环确保这些节点通过其被动连接赚取积分，这些积分计划在未来转换为本机加密代币。

根据安东尼的说法，这种分布式模型“将使他们能够赚取积分”，作为其网络贡献的直接衡量标准，因此“只要公司产生收入，代币就会反馈到生态系统中”以维持循环经济循环。

“还将预留一些代币用于回购代币，”他补充道。

但是，并不是每个运行节点的人都本质上有资格获得一致的奖励，因为质量控制始终存在挑战，如果不加以控制，可能会损害数据集的完整性。

感知器通过将收集的数据包路由回集中式服务器来解决此问题，在发布任何补偿之前，自动化算法会根据目标基准系统地评估输入。

此外，安东尼表示，该初创公司最近收购了一家专门从事交易和支付验证软件的公司，以在结构上实现此验证过程的自动化。

为了进一步吸引网络参与者，同时推动数据集的创建，Perceptron 还计划推出一个结构化数据探索平台，该平台将允许贡献者将积极的人力投入转化为独特的培训输入。

“我们的目标是能够有效地构建数据集并创建目前无法通过集中流程获得的数据集，”安东尼补充道。

最终目标

从长远来看，安东尼表示，他希望看到网络过渡到以商业智能为中心的模型，能够为企业客户提供深层分析。

“不同之处在于传统数据集是静态的，它们只收集一次，很快就会过时。但是，每次与在线事物交互时都会生成大量数据，而现在，其中大部分数据都将被浪费掉，”安东尼说。

“试图监控所有这些不同用户的单个服务器无法真正收集如此规模的有意义的情报。我们需要的是向分布式商业智能的转变，这样我们才能真正改善电子商务、交易等领域的服务。”

Perceptron 还推出了 1000 万美元的人工智能数据基金，该平台预计将通过该基金资助独立开发者并支持“提供真实服务的实际项目”的部署。根据该计划条款，选定的工程团队将免费获得五周的专用数据基础设施援助和最多 5 TB 的真实数据，以加速早期人工智能模型的优化。

“我们的目标是随着项目的发展和数据需求的增加来支持项目。我们可以成为他们的首选供应商之一，这既是对更广泛生态系统的投资，也是我们建立持续、长期收入的一种方式，”安东尼指出。

截至发稿时，Anthony 表示 Perceptron 已经积极向各种商业企业提供多样化的数据产品。该网络向文本到视频生成平台（包括一家名为 Everlyn AI 的公司）提供广泛的图像数据集，以训练模型准确合成视觉内容。

除此之外，该项目还超越了标准图像编译，因为该平台通过跟踪 Twitter、YouTube 和数字资产市场上的公共话语进入了情绪分析领域。分析这种公众情绪有助于加密货币公司和交易所构建跟踪工具，提供早期信号以预防突然的价格波动。