Вытаскиваем Бренд товаров из названий с помощью AI
27 сен 13:30
Q-Parser умеет парсить бренды товаров как отдельное, что вполне логично и обыденно. Но, к сожалению, бренд не всегда указан на сайте в виде отдельного значения, а в таком случае парсить просто нечего и бренда у товаров не будет.
Что делать, если бренд указан только в названии товаров, но постоянно в разных местах и его никак не выделить регулярными вырежениями или простой работой с текстом? В этом случае можно воспользоваться AI обработкой товаров - рассказываем как и покажем пример.
Определяем проблему
Возьмем небольшой список товаров для примера:
- Светодиодный модуль QIANGLI, Q4-PRO(320*160),indoor
- Видео процессор MCTRL R5
- Контроллер Novastar KU20
- Оцинковка 45*10*0,8
Чисто логически, как человек, мы понимаем, что бренды здесь: QIANGLI, MCTRL и Novastar. Последний товар не имеет бренда в названии.
При этом бренд не имеет конкретного местоположения в названии. Позиция всегда скачет, сами бренды разные, их могут быть сотни разных (это только в примере их три).
AI - для поиска брендов
Опробуем AI для этой задачи. На странице нашего парсинга нажимаем кнопку AI Генерация. Параметры оставляем по умолчанию, сейчас здесь ничего менять не требуется. В запрос и так включено название товара, а большего нам и не нужно.
Составляем запрос для GPT:
Определи бренд товара по его названию
И нажимаем кнопку "Проверить". Получаем следующие результаты:
- Бренд товара - QIANGLI.
- Бренд товара - MCTRL.
- Новастар (Novastar)
В принципе, это уже неплохо. Даже на очень простом запросе бренды определились, но мы видим какие-то лишние данные: фраза "Бренд товара" нам не нужна, написание Novastar на русском тоже как-то некорретно.
Уточним наш запрос:
Определи бренд товара по его названию. Напиши только сам бренд, без подписей вроде "Ответ" или "Бренд товара". Оставь бренд как есть, без перевода или транслита.
Снова нажимаем "Проверить". Получаем следующее:
- QIANGLI
- MCTRL
- Бренд не найден
Уже очень хорошо, но для товара без бренда AI вернул "Бренд не найден", что в целом правильно, но нам это не нужно. К тому же фраза может быть каждый раз разной и заменить ее потом будет проблемно. Еще немного уточним запрос:
Определи бренд товара по его названию. Напиши только сам бренд, без подписей вроде "Ответ" или "Бренд товара". Оставь бренд как есть, без перевода или транслита. Если бренд не указан или не найден, верни пустую строку.
На этот раз результаты обработки корректные. Товар без бренда просто останется без бренда, как и положено.
Обратите внимание, что мы не использовали дорогие модели вроде OpenAI gpt-4o или Claude Sonnet. Всю обработку удалось выполнить на очень дешевой LLAMA-3.1. Обработка таким образом тысяч товаров будет стоить буквально копейки.
Вы можете продолжать уточнять запрос в зависимости от ваших результатов обработки. Иногда все же может потребоваться использование "дорогих" моделей, но мы все же рекомендуем более точный запрос вместо дорогой модели, если товаров у вас действительно много.
Бонус
Если вы знаете точный список брендов, ими можно уточнить запрос еще больше, чтобы сделать обработку более точной. Просто так и укажите в конце запроса:
... Возможный список брендов: Acura, Macubisi, Tui, Race, Sansumg. Не сочиняй и не придумывай бренды, используй только бренды из списка.
На Q-Parser появилась возможность обрабатывать товары с помощью AI. Можно переписать названия товаров другими словами или составить новое описание на основе всех характеристик
Ускорили AI обработку товаров и сделали тарификацию более очевидной
Что такое регулярные выражения и как их использовать на Q-Parser
Реальный пример составления CSS селекторов для парсинга на Q-Parser
О парсинге сайтов простыми словами. С примерами о Q-Parser
Ведем каталоги СП с самыми серьезными намерениями
Рассказываем что такое совместные покупки и как начать свою карьеру организатора СП
Поймайте посещаемость за хвост!