Перейти к содержимому


Парсер товаров интернет-магазинов v.8.1


  • Закрытая тема Тема закрыта
Сообщений в теме: 117

#1 vsupport

    Продвинутый пользователь

  • Администраторы
  • 758 сообщений
Репутация: 31
Ассистент

Отправлено 26 October 2011 - 05:35 PM




Для чего нужен скрипт:

Для парсинга товаров с торговых площадок с последующим экспортом в практически любую CMS для создания сателлитов или своих интернет-магазинов, на которых можно заработать продавая ссылки, размещая рекламу, продавая созданные магазины или получая прибыль с партнёрских продаж!

Что вы получаете:
  • Многофункциональный парсер-комбайн.
  • Инструкцию по установке и использованию парсера.
  • Скрипт импорта товаров в Joomla + VirtueMart + настройки.
  • Бесплатную помощь в установке\настройке\работе с парсером.
  • Бесплатные обновления раз в месяц.
Для парсинга доступны торговые площадки:
  • Яндекс.Маркет
  • МаркетГид
  • Озон
  • Торг.Маил
  • ВикиМарт
  • Auto.ru
  • Hotline.ua
Особенности парсинга:
  • Парсинг по заданному ключевому слову.
  • Парсинг по списку из тхт файла.
  • Выбор парсинга только с картинками или без.
  • Использование прокси.
  • Установка задержки при парсинге.
  • Выбор количества товаров для парсинга.
  • Простановка случайной цены.
  • Если описание меньше, заданного, то товар не будет спарсен.
  • Если товар уже есть в базе, то он не будет заново добавлен.
  • Если у товара вообще отсутствует описание, то не будет спарсен.
Поддерживаются следующие форматы экспорта:
  • Экспорт в csv для 1С-Битрикс
  • Экспорт в tkx для TextKit
  • Экспорт в csv для VirtueMart
  • Экспорт в csv для VamShop
  • Экспорт в csv для ShopCMS
  • Экспорт в csv для PHPShop
  • Экспорт в csv для ShopScript
  • Экспорт в csv для ShopScript Free
  • Экспорт в csv для WebAsyst
  • Экспорт в csv для WebAsyst с характеристиками
  • Экспорт в csv с разбиением на характеристики
  • Экспорт в csv c разбиением + картинки
  • Экспорт с разбиением на хар-ки
  • Экспорт в ТХТ
Скачать Парсер товаров для интернет-магазинов версии 6.2, 7.7, 8.0, 8.1
  • 0

#2 Cheshir

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 212 сообщений
Репутация: 48
Ассистент

Отправлено 27 October 2011 - 12:01 PM

не врубился каким образом можно получить необходимый урл для яндес маркета (плана который указан в примере)

В примере запрос должен выглядеть так
Спойлер


А получается так

Спойлер

  • 0

#3 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 27 October 2011 - 05:00 PM

Не очень удобно, что нет чистки базы, приходится запускать отдельный самописный скриптик. Или я не нашел нужной кнопочки :).
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#4 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 28 October 2011 - 08:50 PM

Для себя переделал под UTF-8 интерфейс и экспорт в ShopCMS (header.php, parse.php и export_csv_shopcms.php), а то надоело постоянно принудительно переключать Эксплорер в Win1251. Нифига не специалист (переделка - первый опыт общения с PHP), но подозреваю, что автор пишучи в win-1251 забыл указать кодовую страницу или как оно там в PHP обзывается.

---------- Сообщение объединено ----------

Также есть подозрение (мои извинения, если это не так), что для Яндекс.Маркета цены с пробелом-разделителем типа "4 567" воспринимаются как "4". Судя по CSV-файлу. Неспешно поищу и поправлю, если сумею :). С МаркеГайда цены берутся нормально, тютелька в тютельку.

PS. Сразу говорю - это я так, играюсь. Изучаю новую тему, интернет-магазин, PHP и прочее. Если оно вдруг станет бизнес-темой - парсер будет куплен, это справедливо, нормально, да и не дорог он.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#5 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 30 October 2011 - 02:47 AM

Также есть подозрение (мои извинения, если это не так), что для Яндекс.Маркета цены с пробелом-разделителем типа "4 567" воспринимаются как "4". Судя по CSV-файлу. Неспешно поищу и поправлю, если сумею :).

В модуле includes.php в районе ~1200-й строки после
$price = iconv("utf-8","cp1251",$price[1]);
надо добавить
$price = str_replace(chr(160),"",$price);

  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#6 Фирдавс

    Пользователь

  • Пользователи
  • PipPip
  • 11 сообщений
Репутация: 0
Начинающий

Отправлено 30 October 2011 - 02:42 PM

всем доброе время суток! а у мея в описаниях появляется такая надпись "так называемое" примером описание выглядит так и еще полное описание почему то не парсит :( Тип экрана так называемое: ЖК так называемое(LED-подсветка) так называемое. Кто пользуется помогите плиз избавится от этого и сделать так чтоб парсил полное описание, спасибо заранее
  • 0

#7 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 30 October 2011 - 04:57 PM

Мой вопрос на столько примитивен? Или все таки кто пользуется поможет?

Не очень понятно, что на это можно ответить даже при желании помочь. У меня вполне парсит даже такое: http://market.yandex...=10&hid=2417247
Не вижу проблемы. Захожу на маркет.яндекс.ру, выбираю нужный тип товара, выбираю набор нужных прроизводителей (или одного производителя). Все. Сую ссылку в парсер. То, что у Вас там в ссылке search.xml, а не guru.xml - ну кто ж и откуда может знать, как вы получили эту свою ссылку?

PS. Имею подозрение, что search.xml это товары не из базы Яндекса, выдаваемые в формате яндекса, который парсер понимает и разбирает, а ссылки прямиком на сайты продавцов, где каждый сайт выдает товар в своем фомате. Естественно, парсер эти страницы не может разобрать.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#8 linuzzz

    Пользователь

  • Пользователи
  • PipPip
  • 20 сообщений
Репутация: 0
Начинающий

Отправлено 30 October 2011 - 09:38 PM

Яндекс пашет на ура, а вот с Товары@Mail.Ru работает у меня в "2-а захода". Сперва обрабатывает первую страницу, потом пишет что на других товары все дублируются :( приходиться забивать ссылку 2-й страницы, тогда нормально все сосет до самого конца.
  • 0

#9 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 31 October 2011 - 10:09 PM

Яндекс пашет на ура, а вот с Товары@Mail.Ru работает у меня в "2-а захода". Сперва обрабатывает первую страницу, потом пишет что на других товары все дублируются :( приходиться забивать ссылку 2-й страницы, тогда нормально все сосет до самого конца.

Я извернулся по другому. Например, URL первой страницы torg.mail.ru/cartriges/hp/ и парсинг идет с описанной ошибкой. Если перейти на вторую страницу, то URL будет уже torg.mail.ru/cartriges/hp/?p3%5Bpage%5D=2. Меняем двойку (номер страницы) на единицу и получаем URL, который замечательно отпарсится в один заход без воплей о дублях :).

PS. Поискал нормальное решение. Надо примерно в 521-й строке модуля includes.php заменить
$page = $this->get_page($url."?p3[page]=$i");
на
if(!substr_count($url,"?")) $page = $this->get_page($url."?p3[page]=$i");
else $page = $this->get_page($url."&p3[page]=$i");
Ну и до кучи примерно в 600-й строке заменить
$price = $price[1];
на
$price = str_replace(" ","",$price[1]);
чтобы цены со знаком пробела между тысячами и сотнями нормально парсились.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#10 Cheshir

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 212 сообщений
Репутация: 48
Ассистент

Отправлено 01 November 2011 - 08:25 AM

PS. Имею подозрение, что search.xml это товары не из базы Яндекса, выдаваемые в формате яндекса, который парсер понимает и разбирает, а ссылки прямиком на сайты продавцов


Ага, прямиком... Только вот делаю тоже самое! Захожу на маркет, захожу в категорию, фильтрую по ТМ... и вот такая вот фигня)
  • 0

#11 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 01 November 2011 - 12:45 PM

Ага, прямиком... Только вот делаю тоже самое! Захожу на маркет, захожу в категорию, фильтрую по ТМ... и вот такая вот фигня)


Как я понимаю, какие-то категории товаров Яндекс перетаскивает к себе (ноутбуки, расходка - довольно много всего) и они нормально парсятся в силу единообразия формата страницы, а какие-то перетаскивает только "ссылочно". Видимо, в этом присутствует какая-то логика. Кстати, на торг.мэйл.ру ровно то же самое, но еще ярче выражено. Например, "расходка/картриджи HP" выдаются самим мэйлру, а "расходка/картриджи ProfiLine" - ссылочно на сайты продавцов.

---------- Сообщение объединено ----------

Наверное, ничего страшного не случится, если я таки выложу дешифровщик. Ну а случится - модератор удалит :).
<?php
$file = $argv[1];
$handle=fopen($file,'rb');
fgets($handle);
$code = fgets($handle);
$code = str_replace("__FILE__","\$file",$code);
$code = str_replace("__LINE__","2",$code);
for ($i = 1; $i <= 3; $i++)
eval(str_replace("eval","\$code=",$code));
echo ("<?php\n".$code."\nreturn;\n?>\n");
?>

  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#12 linuzzz

    Пользователь

  • Пользователи
  • PipPip
  • 20 сообщений
Репутация: 0
Начинающий

Отправлено 01 November 2011 - 02:04 PM

Может кто подскажет универсальное средство?
P.S. Из тех что успел посмотреть Web Content Extractor, понравился больше всего.
  • 0

#13 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 03 November 2011 - 02:46 AM

Яндекс.Маркет опять чуть сменил формат и перестал парситься. В модуле includes.php примерно в 1050-й строке находится код
preg_match("/(.*?)\s(.*?)<\/span>/",$page,$items_col);

В нем надо поменять регексп соответственно новому представлению количества страниц в выборке (

выбрано моделей — nnn

в сам низу странички Яндекс.Маркета). Свой вариант регекспа не предлагаю, т.к. не очень в них пока разобрался. Оно работает, но врядли оптимально.

---------- Сообщение объединено ----------

Может кто подскажет универсальное средство?
P.S. Из тех что успел посмотреть Web Content Extractor, понравился больше всего.

ИМХО, универсальное средство тут только одно - писать самому.
Как компромисс - переписывать по мере надобности чью-нибудь устаревшую версию.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#14 shamal_d

    Новичок

  • Пользователи
  • Pip
  • 3 сообщений
Репутация: 0
Начинающий

Отправлено 12 November 2011 - 01:44 PM

Bitrix

Народ у кто-нибудь выгружал в Bitrix?
  • 0

#15 Droid

    Продвинутый пользователь

  • Пользователи
  • PipPipPip
  • 60 сообщений
Репутация: 0
Начинающий

Отправлено 13 November 2011 - 12:19 PM

подскажите, а чем файлы ридми открыть? (описание установки)? у меня в системе не видит чем открыть.
  • 0

#16 linuzzz

    Пользователь

  • Пользователи
  • PipPip
  • 20 сообщений
Репутация: 0
Начинающий

Отправлено 13 November 2011 - 12:43 PM

Как вариант Notepad++
Notepad++ v5.9.6.1 - Current Version
Он синтаксис подсвечивает, и вообще очень помогает в нашем деле )
  • 0

#17 shamal_d

    Новичок

  • Пользователи
  • Pip
  • 3 сообщений
Репутация: 0
Начинающий

Отправлено 13 November 2011 - 01:43 PM

Установил, запустил, начал парсить, ничего не выдает ... Может не правильно настроил ? или что-то блокирует :
  • 0

#18 Droid

    Продвинутый пользователь

  • Пользователи
  • PipPipPip
  • 60 сообщений
Репутация: 0
Начинающий

Отправлено 13 November 2011 - 02:14 PM

Как вариант Notepad++
Notepad++ v5.9.6.1 - Current Version
Он синтаксис подсвечивает, и вообще очень помогает в нашем деле )

Нотепадом первым делом попробывал. Не то. Не отрывает. (точнее открывает, но такое чувство, что открываешь зазенденный файл)
  • 0

#19 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 13 November 2011 - 05:12 PM

Установил, запустил, начал парсить, ничего не выдает ... Может не правильно настроил ? или что-то блокирует :

Пробуйте парсить приведенную примером ссылку для torg.mail.ru (про ювелирные изделия которая), должно работать, только что проверил. Данные об "отпарсенном" начнут появляться в окошке весьма не сразу, зависит от быстродействия сервера. У меня проходит минута-две. Пытаться парсить Яндекс.Маркет без упоминавшегося тут исправления парсера бессмысленно, т.к. Яндекс в районе 1-го ноября чуть сменил формат.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#20 gsm-group

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 101 сообщений
Репутация: 6
Начинающий

Отправлено 14 November 2011 - 01:23 AM

Наверное, ничего страшного не случится, если я таки выложу дешифровщик. Ну а случится - модератор удалит :).

<?php
$file = $argv[1];
$handle=fopen($file,'rb');
fgets($handle);
$code = fgets($handle);
$code = str_replace("__FILE__","\$file",$code);
$code = str_replace("__LINE__","2",$code);
for ($i = 1; $i <= 3; $i++)
eval(str_replace("eval","\$code=",$code));
echo ("<?php\n".$code."\nreturn;\n?>\n");
?>


А как это применить на практике? Спасибо...
  • 0