在 Mozilla Firefox 130 每夜构建版中,火狐浏览器开发团队在 PDF 编辑器中测试此功能,这将包含一个小型的 Transformer 机器学习模型来生成替代文本。
这个小型模型的参数为 0.2B 同时只占用不到 200MB 的磁盘空间,可以在几秒钟内读取图片并生成描述,并且该模型擅长描述图像而不会产生太高的负载,即便在性能较差的设备上也可以使用。
现阶段该功能仅在 PDF 文件中进行测试,即用户打开 PDF 文档并使用屏幕阅读器时,Firefox 会自动调用模型生成图片描述,在读出文档时一起将图片描述读出来,方便视力障碍用户理解图片内容。
而使用本地模型的好处在于有更好的隐私保护,即图片不会被发送到服务器上进行识别,同时还可以获得更好的资源效率提高响应速度,这比发送到网络、处理、描述再发回客户端要快得多。
后续如果这个功能完成验证,火狐浏览器应该会将其用于普通网页的 Alt 描述中,到时候如果网站的图片不含 Alt 属性那么就可以由 Firefox 自动描述了。