欢迎,来自IP地址为:117.168.153.46 的朋友
当 有人在人工智能和机器学习领域提到”Hugging Face”时,即使我们不知道它是什么,我们也会顺着它说。
我们可能只知道可以在 Hugging Face 上找到 AI 模型。仅此而已。
但是,就这些吗?为什么要使用这个平台?它是如何运作的?需要 Hugging Face 进行简要介绍。
首先:
Hugging Face 是一个可以上传、下载和查找海量预训练 AI 模型(各种许可证)的网站。
从更广阔的角度来看,Hugging Face 可以想象成 GitHub/GitLab,只不过源代码被数据集和 AI 模型所取代。也可以将 Hugging Face 视为相当于 AI 界的 DockerHub。DockerHub 向全球发布 Docker 镜像,而 HugginFace 则提供 AI 模型。
换句话说,对于机器学习和生成式 AI 爱好者来说,Hugging Face 简直就是天堂一般的存在。
平台上有超过 90 万个模型,可以根据它们的使用说明和许可证要求,轻松地在用户系统上使用它们。
同时,Hugging Face 究竟有何特别之处?让我们来仔细探究一下。
Hugging Face 的历史
将聊天机器人项目转化为人工智能模型数据库需要付出很多努力。
Hugging Face 正是这么做的。一切始于 2016 年,Hugging Face 最初的目标是为青少年打造一款人工智能互动聊天机器人。
但当公司决定将其机器人开源时,他们的未来方向发生了改变。他们决心成为人工智能社区的驱动力,并将自己定位为人工智能模型的中心枢纽。
2023 年,该公司的估值达到 45 亿美元,亚马逊、谷歌和高通等巨头也参与其中。
现在,提到大多数人工智能模型,Hugging Face 都是必不可少的。
Hugging Face 改变游戏规则的原因
由于市面上存在各种模型,协作并为机器学习项目做出贡献变得极具挑战性。
Hugging Face 的出现,让人工智能模型变得人人可用,无论是初学者还是经验丰富的老手。这一次,它不仅能够提取他们的服务,还能深入研究模型的后端。
Hugging Face 使人工智能在本质上更加开放(即使并非所有模型都是开源的)。当大型公司还在讨论其模型问题时,社区已经找到了解决方案。
但这远不止于此,Hugging Face 还允许人们托管他们的人工智能模型。这使得与他人的协作更加便捷,从而产生了更高效的模型。此外,还可以使用推理 API 运行模型进行快速演示,并在扩展规模时进行更多操作。
除此之外,用户还可以构建自己的作品集,展示其在人工智能模型方面的贡献和活动。
同时,Hugging Face 还通过灵活的小时定价计划,帮助各种规模的公司轻松部署他们的人工智能模型。
现在我们已经足够了解 Hugging Face 在行业中的巨大影响力,那么它究竟能用来做什么呢?
Hugging Face 提供的模型
虽然平台上有无数可用的模型,下面只列出了最突出和最有用的类型。
1、Transformer 模型
这是一种深度学习模型,是自然语言处理 (NLP) 的基础。这类模型可以在现实生活中翻译文本和语音,使其在人工智能领域极其有用。
Transformer 模型必须先在大量文本数据集上进行训练才能使用。值得庆幸的是,Hugging Face 提供了一个预先训练好的模型。于是,我们就可以将训练好的模型用于各种自然语言处理任务。
例如,Transformer 模型可用于创建文本、对文本进行分类或响应查询。
2、图像分析类模型
从处理核磁共振扫描片到在网页搜索结果中进行图像搜索,我们肯定在某些地方用过图像分类模型。这些模型几乎在各个领域都有应用。
这类模型的算法就是将图像分类到预先设定的组别或类别中,以进行分析使用。
3、图像生成类模型
无论是专业人士,还是仅仅为了好玩而使用人工智能模型,几乎每个人都听说过像 Stable Diffusion 这样的项目。它是一个图像生成模型,可以根据提供的提示生成图像。
我们可以在 Hugging Face 上看到类似的专注于图像生成的 AI 模型。
4、时间序列预测模型
预测模型或许是金融和工业应用中使用最广泛的模型之一,甚至可以说是最广泛的。这些模型能够根据历史数据预测未来。
这些模型对于追踪市场趋势和满足客户需求至关重要。虽然它们非常有用,但设置这些模型需要大量数据,而且实时设置起来比较困难。值得庆幸的是,Hugging Face 让我们的生活变得轻松了一些。
Hugging Face 上下载次数最多的模型之一是 Chronos T5,它就是一个时间序列预测模型。
5、语音活动检测模型
不是您是否想过,Google Assistant 或 Siri 究竟使用了什么样的算法来识别和区分声音?这其中一半的功劳归功于语音活动检测模型(简称 VAD)。
这些模型的主要目的是区分音频中存在语音和不存在语音的部分。这有助于提高语音识别的准确性,并预处理原始音频数据。
Hugging Face 为我们提供了创建各种 AI 模型的能力。借助其数据库,我们可以创建自己喜欢的项目,或助力自己的业务运营。
乍一看,Hugging Face 似乎是一个完美的想法,但当深入了解其工作原理时,可能会发现一些值得担忧的地方。
Hugging Face 并非完美
早些时候,云安全公司 Wiz 发现 Hugging Face 存在两个严重的架构问题。
第一个问题是,有人可能会上传恶意的 AI 模型,该模型可能被用于未经授权访问其他客户的数据。
第二个令人担忧的问题是,一些 AI 即服务平台被发现存在易受攻击的容器注册表。通常,容器注册表用于存储和控制容器镜像。攻击者可以利用易受攻击的容器注册表篡改他人的模型,并可能插入有害代码。
此外:
- JFrog 在 Hugging Face 上发现了 100 个恶意 PyTorch 和 Tensorflow Keras 模型
- 一个名为”baller423″的 PyTorch 模型被发现利用 Python 的 pickle 模块远程执行代码
有了 Hugging Face 这样的服务,网络攻击者难免会趁机试图破坏安全机制并窃取用户数据。然而,该组织正在竭尽全力提升安全性,保护用户数据。
Hugging Face 已部署恶意软件扫描程序和其他措施来防范此类攻击。这些功能会扫描代码库中的每个文件,查找恶意代码、不安全的反序列化或敏感信息,并相应地向用户或管理员发出警报。
然而,攻击者能够突破部分安全措施这一事实,首先就告诉我们,在未经适当验证的情况下,下载 Hugging Face 的模型或信任其所有内容时,务必谨慎。