Phi-3-Vision-128K-Instruct 是这个项目的核心,它是一种轻量级的、最先进的多模态模型。它是 Phi-3 模型家族的一部分,支持最长达 128,000 个 token 的上下文长度。该模型在一个多样化的数据集上进行训练,该数据集包括合成数据和精心筛选的公开网站,重点是高质量、需要推理的内容。训练过程包括监督微调和直接偏好优化,以确保精确遵循指令,并采用了强大的安全措施。
-
测试:样本数据允许你在各种场景下测试应用程序而不影响真实数据。这在开发和预发布阶段尤为重要。
-
性能调优:通过模拟真实数据规模和复杂度的样本数据,可以识别性能瓶颈并相应地优化应用程序。
-
原型设计:样本数据可以用来创建原型和模型,有助于理解用户需求并获得反馈。
-
数据分析:在数据科学中,样本数据通常用于探索性数据分析、模型训练和算法测试。
-
安全:在开发和测试环境中使用样本数据可以防止敏感真实数据的意外泄露。
-
学习:如果你正在学习一项新技术或工具,使用样本数据可以提供一个实用的方式来应用所学知识。
记住,样本数据的质量会显著影响这些活动。它在结构和变异性方面应尽可能接近真实数据。
一个好的样本数据集例子是 DBQ/Burberry.Product.prices.United.States dataset(在 Huggingface 上可用)。 Burberry 产品的样本数据集包括产品类别、价格和标题的元数据,总共有 3,040 行,每行代表一个独特的产品。这个数据集让我们测试模型理解和解释视觉数据的能力,生成捕捉复杂视觉细节和品牌特征的描述性文本。
注意: 你可以使用任何包含图像的数据集。
模型需要在仅给定图像的情况下推理价格和命名。这要求模型不仅要识别视觉特征,还要理解它们在产品价值和品牌方面的意义。通过从图像中合成准确的文本描述,项目展示了将视觉数据整合以增强模型在现实应用中性能和多功能性的潜力。
模型架构是 Phi-3 的多模态版本。它处理文本和图像数据,将这些输入整合成一个统一的序列,以进行全面的理解和生成任务。模型为文本和图像使用单独的嵌入层。文本 token 被转换为密集向量,而图像通过 CLIP 视觉模型处理以提取特征嵌入。然后将这些图像嵌入投影以匹配文本嵌入的维度,确保它们可以无缝整合。
文本序列中的特殊 token 指示图像嵌入应插入的位置。在处理过程中,这些特殊 token 被相应的图像嵌入取代,使模型能够将文本和图像作为一个单一的序列处理。我们数据集的提示使用特殊的 <|image|> token 格式如下:
text = f"<|user|>\n<|image_1|>What is shown in this image?<|end|><|assistant|>\nProduct: {row['title']}, Category: {row['category3_code']}, Full Price: {row['full_price']}<|end|>"
免责声明: 本文档使用基于机器的AI翻译服务进行翻译。虽然我们力求准确,但请注意,自动翻译可能包含错误或不准确之处。应将原始语言的文档视为权威来源。对于关键信息,建议使用专业的人类翻译。我们不对使用此翻译所产生的任何误解或误读负责。