Перейти к содержимому


Парсер товаров интернет-магазинов v.8.1


  • Закрытая тема Тема закрыта
Сообщений в теме: 117

#21 gsm-group

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 101 сообщений
Репутация: 6
Начинающий

Отправлено 14 November 2011 - 04:03 AM

Яндекс.Маркет опять чуть сменил формат и перестал парситься. В модуле includes.php примерно в 1050-й строке находится код

preg_match("/(.*?)\s(.*?)<\/span>/",$page,$items_col);

В нем надо поменять регексп соответственно новому представлению количества страниц в выборке (
выбрано моделей — nnn
в сам низу странички Яндекс.Маркета). Свой вариант регекспа не предлагаю, т.к. не очень в них пока разобрался. Оно работает, но врядли оптимально.


Может все таки покажешь изминения с которыми Яндекс работает. Заранее, Спасибо!
  • 0

#22 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 14 November 2011 - 01:16 PM

А как это применить на практике? Спасибо...

Т.е. не только ложку дать, а еще и пожевать? :)
На практике применить просто - запустить, задав параметром имя закодированного файла и получить в stdout раскодированный.

---------- Сообщение объединено ----------

Может все таки покажешь изминения с которыми Яндекс работает. Заранее, Спасибо!

Нет, не покажу. Декодер это моя первая программа на PHP, но мне за нее не стыдно, она в вполне корректна и красива. А вот про свой регексп я точно знаю, что он и не оптимален, и не красив. Выкладывать такое в общий доступ - себя не уважать. Посмотрите HTML-код странички Яндекс.Маркета, прочитайте на википедии про регеспы. Этого достаточно, чтобы следать кривой, но работающий вариант.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#23 gsm-group

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 101 сообщений
Репутация: 6
Начинающий

Отправлено 14 November 2011 - 03:58 PM

Т.е. не только ложку дать, а еще и пожевать? :)
На практике применить просто - запустить, задав параметром имя закодированного файла и получить в stdout раскодированный.

---------- Сообщение объединено ----------


Нет, не покажу. Декодер это моя первая программа на PHP, но мне за нее не стыдно, она в вполне корректна и красива. А вот про свой регексп я точно знаю, что он и не оптимален, и не красив. Выкладывать такое в общий доступ - себя не уважать. Посмотрите HTML-код странички Яндекс.Маркета, прочитайте на википедии про регеспы. Этого достаточно, чтобы следать кривой, но работающий вариант.


Уважаемый! Вы зачем здесь зарегистрировались?! Блистать своим мышлением?! или получить помощь в тех вещах в которых мало что понимаете, за скромный обмен своим опытом?! Стыдно должно быть не за данные, про которые идет речь, а за ваше отношение к участникам данного форума. Я думаю меня поддержат....
Я думаю вы были в ситуации когда убиваешь ни одни бессонные сутки, и не можешь найти верного решения. И единственной надеждой остается форум....
Спасибо за внимание.
  • 0

#24 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 14 November 2011 - 06:54 PM

Уважаемый! Вы зачем здесь зарегистрировались?! Блистать своим мышлением?! или получить помощь в тех вещах в которых мало что понимаете, за скромный обмен своим опытом?! Стыдно должно быть не за данные, про которые идет речь, а за ваше отношение к участникам данного форума. Я думаю меня поддержат....

А я думаю, что нет. Нигде не любят лентяев. Помочь человеку - запросто. Этот довольно очевидно из остальных моих писем. Но не лентяю, который в ЭТОМ форуме спрашивает "что с этим надо делать?" про PHP-код в десять строчек.

Я думаю вы были в ситуации когда убиваешь ни одни бессонные сутки, и не можешь найти верного решения. И единственной надеждой остается форум.... Спасибо за внимание.

Я не верю, что убиты "не одни бессонные сутки" на эту мизерную проблему. Мне хватило четырех-пяти часов начиная с википедии "про регекспы", про которые я знать не знал. Знающему человеку хватит минуты. Я не собираюсь позориться своим кривым регекспом (который еще и критичен к кодировке сайта парсера - utf8 или win1251) из-за одного лентяя.

PS. Как мне кажется, мало где помогают "в вещах, в которых мало что понимаешь". Как правило, надо хоть что-то понимать. Или хотя бы пытаться понять.

PPS. "запустить, задав параметром имя закодированного файла и получить в stdout раскодированный" - это не глум, а абсолютно полная и достаточная инструкция, что нужно сделать с теми десятью строчками на PHP. Не верите мне - пусть модератор подтвердит :).
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#25 linuzzz

    Пользователь

  • Пользователи
  • PipPip
  • 20 сообщений
Репутация: 0
Начинающий

Отправлено 14 November 2011 - 07:42 PM

Не всем дано в код вникнуть. Как человек создававший инструкции, для "домохозяей" по настройке КПК в прошлом, поддерживаю, что если не сложно, то пишите плиз как можно подробнее, пусть лучше люди вам будут благодарны, чем возникнет еще больше вопросов. А то я бы ЧПУ и не победил, если бы не нашел достойную инструкцию.
  • 0

#26 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 14 November 2011 - 07:53 PM

Не всем дано в код вникнуть. Как человек создававший инструкции, для "домохозяей" по настройке КПК в прошлом, поддерживаю, что если не сложно, то пишите плиз как можно подробнее, пусть лучше люди вам будут благодарны, чем возникнет еще больше вопросов. А то я бы ЧПУ и не победил, если бы не нашел достойную инструкцию.

Чего не стыжусь - делюсь. Не по поводу ли выложенного были вопросы? Да и по части регекспа - вот имя модуля, вот номер строки, вот сама строка, вот измененное Яндексом ключевое слово. Разбирайся и редактируй, чего еще надо-то? Но вот не понял я пока регекспов и не хочу выкладывать свой убогий и кривой. Не-хо-чу! Ибо кривой. Не очень понимаю, что в этом странного. Вы ведь врядли выкладывали для домохозяек предбеты инструкций, разве нет?
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#27 linuzzz

    Пользователь

  • Пользователи
  • PipPip
  • 20 сообщений
Репутация: 0
Начинающий

Отправлено 14 November 2011 - 08:11 PM

Я старался описать им как можно подробнее (просто мне было проще им выложить инструкцию на сайт с картинками чем по 30-40 минут по телефону объяснять как настроить GPRS к примеру), но я по одному понимаю, они по другому. Потом правил, те места, которые им были не понятны. И инструкция в первоначальном варианте, отличалась от конечного.
P.S. Просто возможно твой код, натолкнет, того кто лучше в этом разбирается, переписать его в более подходящем виде/функционале (Я не имею ввиду себя)
  • 0

#28 shamal_d

    Новичок

  • Пользователи
  • Pip
  • 3 сообщений
Репутация: 0
Начинающий

Отправлено 15 November 2011 - 09:13 AM

Не получается импортироватьв Bitrix, не то что бы не получается... картинки не прикрепляются ... с разными настройкми пробывал,все одинаково ...
  • 0

#29 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 15 November 2011 - 05:03 PM

Не получается импортироватьв Bitrix, не то что бы не получается... картинки не прикрепляются ... с разными настройкми пробывал,все одинаково ...

Картинки не могут "прилепляться" к CSV-файлу, это ведь просто текстовый файл, где указаны параметры товара. Картинки в этом файле присутствуют в виде имен файлов, а сами файлы надо САМОСТОЯТЕЛЬНО взять из подкаталога /export парсера и положить в соответствующий подкаталог Битрикса. Думаю, что имя этого подкаталога в/export парсера и в Битриксе совпадает, т.е. /images.

С другой стороны, версий Битриксов вагон и тележка. Вовсе не факт, что у всех один и тот же формат CSV-файла, а под какой Битрикс выводит парсер, увы, не написано.Можно попробовать выгрузить что-нибудь из Битрикса в CSV и сравнить форматы.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#30 Gorand

    Новичок

  • Пользователи
  • Pip
  • 2 сообщений
Репутация: 0
Начинающий

Отправлено 26 November 2011 - 12:24 PM

Как я понимаю, какие-то категории товаров Яндекс перетаскивает к себе (ноутбуки, расходка - довольно много всего) и они нормально парсятся в силу единообразия формата страницы, а какие-то перетаскивает только "ссылочно". Видимо, в этом присутствует какая-то логика. Кстати, на торг.мэйл.ру ровно то же самое, но еще ярче выражено. Например, "расходка/картриджи HP" выдаются самим мэйлру, а "расходка/картриджи ProfiLine" - ссылочно на сайты продавцов.

---------- Сообщение объединено ----------

Наверное, ничего страшного не случится, если я таки выложу дешифровщик. Ну а случится - модератор удалит :).

<?php
$file = $argv[1];
$handle=fopen($file,'rb');
fgets($handle);
$code = fgets($handle);
$code = str_replace("__FILE__","\$file",$code);
$code = str_replace("__LINE__","2",$code);
for ($i = 1; $i <= 3; $i++)
eval(str_replace("eval","\$code=",$code));
echo ("<?php\n".$code."\nreturn;\n?>\n");
?>


Подскажите пожалуйста,как этим пользоваться?:)
  • 0

#31 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 27 November 2011 - 02:02 PM

Подскажите пожалуйста,как этим пользоваться?:)

Очень хочется ответить: "Если Вы задали такой вопрос, значит эта тема, уж извините, но не для Вас".

Цитирую из этой же ветки, этак пять сообщений назад: "Применить просто - запустить, задав параметром имя закодированного файла и получить в stdout раскодированный". В большинстве случаев "в stdout" это на экран. Если хочется в файл (а обычно хочется), то перенаправить вывод путем "> filename.php".

Более подробно (повторюсь - не представляю, зачем это человеку, не знающему, что делать с текстом на PHP):

Текст из окошка "PHP код" нужно сохранить в файл с именем, скажем, decode.php. Затем запустить путем задания команды "php decode.php include.php > include_new.php". Таким образом из закодированного файла include.php будет получен декодированный файл include_new.php.

PS. Следующий спросивший "как этим пользоваться" будет превращен в пупырчатую жабу :).

---------- Сообщение объединено ----------

Я новичок,как установить этот скрипт?

Да так же, как Вы ставили сам ShopCMS. Просто надо понять, что это не скрипт в довесок к имеющемуся сайту, а совершенно отдельный и самостоятельный сайт со своей SQL-базой, где хранятся отпарсенные данные. Вот и ставьте как "отдельный и самостоятельный".
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#32 dgimmibos

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 126 сообщений
Репутация: 12
Начинающий

Отправлено 02 December 2011 - 10:33 AM

Вот предпоследняя версия работат на 100%.
Единственное когда товаров несколько тысяч то чтобы получить товары необходимо скачивать с сервера.

Прикрепленный файл  Парсер товаров 7.7.zip   646.78К   1 Количество загрузок:
  • 0

#33 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 02 December 2011 - 07:59 PM

Вот предпоследняя версия работат на 100%.

Эта "стопроцентно работающая" по факту работы сильно хуже более старой версии после исправлений. Как минимум, в том, что весь список отпарсенного вываливается на экран только по окончании парсинга. Код не смотрел, оно мне в данном случае незачем. Но таки да, оно парсит в состоянии "как есть", не требуя исправлений. Надо только конца парсинга дождаться и все на экран вывалится :). Для ссылки
http://market.yandex...=10&hid=2417247
это около пяти минут, а ведь там всего 17 товаров. Более старая версия парсера справлялась куда лучше. И выводила потоварно, и быстрее оно было. Вроде бы.

Ну и ПОЛНОЕ отсутствие чего-нибудь типа readme.txt тоже говорит о стиле автора. С одной стороны догадаться несложно, что setup.php это именно о том. С другой - а хренли надо догадываться? Особеннно когда в предыдущих версиях был base.txt (или как его там) cо стартовым пустым дампом SQL-базы. Правда, вроде бы (не помню, привык уже), там тоже надо было догадываться, что делать с этим файлом. Но был какой-то минимальный ридми.

PS. дурацкое впечатление, что кто-то сделал парсер (работающий на момент написания) и отдал исходники в свободное плавание. А дальше какие-то полуграмотные индусы подтачивают эти исходники под текущий запрос патежеспособного клиента. Ну и продают, ясен пень.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#34 badisoft

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 5075 сообщений
Репутация: 786
Мастер

Отправлено 03 December 2011 - 03:10 AM

Эта "стопроцентно работающая" по факту работы сильно хуже более старой версии после исправлений. Как минимум, в том, что весь список отпарсенного вываливается на экран только по окончании парсинга.

Проверил. Был неправ. На большом количестве товара таки периодически происходит вываливание строчек из буфера на экран. Возможно, это просто субъективное ощущение, что на старом оно чаще было. Появились новые фишечки. Наверное, удобные - мне не пригодились. В общем, со "второго взгляда" оно мне понравилось куда больше, а кому сложно что-то в коде искать/исправлять и вообще в радость будет, т.к. на текущий момент работает сразу, не требуя переделок.

дурацкое впечатление, что кто-то сделал парсер (работающий на момент написания) и отдал исходники в свободное плавание. А дальше какие-то полуграмотные индусы подтачивают эти исходники под текущий запрос патежеспособного клиента. Ну и продают, ясен пень.

Тут я, пожалуй, совсем неправ. Того же авторства парсер, что и 6.2.
  • 0
http://cpu.badisoft.ru (тестовый сайт), http://badisoft.ru (модули)

#35 o2-store.ru

    Новичок

  • Пользователи
  • Pip
  • 4 сообщений
Репутация: 0
Начинающий

Отправлено 08 December 2011 - 05:00 AM

Не допойму

Установил, все по инструкции, все персит.. но при выгрузке в файл вышибает.
Соединение закрыто удалённым сервером
подскажите люди добрые ... че делать ламеру.
  • 0

#36 dgimmibos

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 126 сообщений
Репутация: 12
Начинающий

Отправлено 08 December 2011 - 08:54 AM

Да есть такая тема, просто зайди на хостинг в папку экспорт, там будут лежать эти файлы которые ты спарсил.
  • 0

#37 o2-store.ru

    Новичок

  • Пользователи
  • Pip
  • 4 сообщений
Репутация: 0
Начинающий

Отправлено 08 December 2011 - 10:03 AM

беда в том, что по непонятной причине в файле на хосте то же не все чисто. Персил 800 товаров а в файле их всего 20 причем они повторяются. Уникальных файлов 10.
  • 0

#38 narlikar

    Новичок

  • Пользователи
  • Pip
  • 7 сообщений
Репутация: 0
Начинающий

Отправлено 08 December 2011 - 03:18 PM

У меня работает парсер.Но неподскажите теперь,вот как заработать с партнерской комисии тут?..Или ето невозможно?
  • 0

#39 o2-store.ru

    Новичок

  • Пользователи
  • Pip
  • 4 сообщений
Репутация: 0
Начинающий

Отправлено 08 December 2011 - 10:11 PM

беда в том, что по непонятной причине в файле на хосте то же не все чисто. Персил 800 товаров а в файле их всего 20 причем они повторяются. Уникальных файлов 10.


подскажите как исправить плиз!
Немогу понять, по какой причине денвер разрывает соединение? Где искать проблему?
  • 0

#40 dgimmibos

    Продвинутый пользователь

  • Assistent vsupport.club
  • PipPipPip
  • 126 сообщений
Репутация: 12
Начинающий

Отправлено 15 December 2011 - 08:48 AM

Пользуйтесь инструкцией по установке.

Прикрепленный файл  Инструкция.zip   21.34К   0 Количество загрузок:
  • 0