Перейти к содержимому


Нужен парсинг сайта + начальная настройка

та с

  • Вы не можете ответить в тему
В теме одно сообщение

#1 vladimirsh

    Новичок

  • Пользователи
  • Pip
  • 3 сообщений
Репутация: 0
Начинающий

Отправлено 02 March 2015 - 09:17 AM

Здравствуйте.
Нужно спарсить сайт www.lentabel.by/products...., где var это диапазон от 1 до 111
с систематизацией размеров и единиц измерений.
Для каждой страницы из диапазона надо сделать свой csv

Есть определенные особенности, которые я бы хотел описать подробнее:
Существуют свойства товара:

Наименование товара:
Находится в верхней части от картинке. Содержит наименование товара. В наименовании товара может присутствовать, а может отсутствовать артикул.
Например: "штора для гостинной 1298Р/250" или "штора для гостинной" или ""штора"
Хотелось бы отделить этот код от наименования

Описание товара:
Если нажать на наименование товара(находится сверху картинки), то появится всплывающее окно с текстом.
Описание товара может содержать либо просто наименование, либо наименование и область использования товара.
Например: "салфетка для комода" или "штора для гостинной" или "штора для гостинной 1298Р/250"

Изображение:
Существует маленькое и большое. Маленькое судя по ссылкам, имеет именя файла *_sm.jpg или *_sml.jpg.
Большая картинка такой приписки не имеет. Но для точности надо всё уточнить.

Артикул. Он и в африке артикул :)

Размер:
Наименование и единицы измерения в результате парсинга надо выявить и систематизировать, приведя к единой системе.
В некоторых местах значение поля размер может отсутсвовать. Могут встречаться разные сокращения высоты, ширины, диаметра и возможно другие сокращения наименования размеров.
Единицы измерения тоже бывают разные:
Например для штор – это метры, а для шнурков – сантиметры.
Бывает что размер пишут так:
Размер: 1.25*0.75 м. Это значит что 1.25 – ширина, 0.75 – длина, единица измерения – метры.
Размер: Ш:0.36м ;Д:0.88м; – это значит что Ш – ширина, Д – длина.
Размер: D:0.24м ; – D диаметр 0.24 метра
Вобщем надо выяснить какие существуют единицы измерений, какие сокращения наименований, объеденить их и систематизировать и согласовать некий вывод о дальнейшем их использовании и наименовании.

Цвет:
Может существовать в виде картинки с цветом и наименованием цвета при наведении на пикторграмму. Цвет не всегда присутствует.
Т.е. либо отсутствует, либо больше или равно 1
Я не понимаю как это реализуется в shopcms

+ есть готовые прайслисты в формате excel которые надо совместить с результатом парсинга с сайта.
В прайс листах есть цены, их надо тоже поместить в csv и сделать отображаемым только то что есть в прайс листах из excel.

В итоге надо всё это подготовить для заливки в shopcms 3.1.3 со ссылками на картинки в новом домене.

Код php должен быть совместим с php 5.2
Сам код php парсера надо предоставить мне для дальнейшего самостоятельного изучения.
Код парсера необходимо запускать либо локально(localhost), либо на моём домене. Т.е. чтобы был переносим.

Я прошу прощение, за возможно не совсем корректную формулировку техзадания, в силу того, что некоторые моменты хоту обсудить лично, в роцессе работы. Возможно вы дадите некоторый совет и предложите наиболее оптимальное решение в моём задании.
Спасибо.

Связь возможна по
skype: vladimirsh78
телефон: +7девить175симь698чтыре два (г. Москва, МТС)
  • 0

#2 vladimirsh

    Новичок

  • Пользователи
  • Pip
  • 3 сообщений
Репутация: 0
Начинающий

Отправлено 07 March 2015 - 02:34 PM

Тема актуальная. Но ТЗ изменилось.
Код парсера на php не нужен.
Мне нужно исключительно файл импорта в shopcms с разбивкой по категорями как это сделано на сайте.
Спасибо.
Жду предложений.
  • 0