adsl club

Справочник

Форум

Программы

Фильмы

Ресурсы

Файлообмен

Хостинг

Ростелеком
Парсинг Nix.ru
Ответить на тему    Форум АДСЛ КлубаЦИФРОВОЙ ФЛЕЙМ :)ПРОГРАММИРОВАНИЕ
Автор Сообщение
noobas
Эксперт
СообщениеДобавлено: Вт 2-03-10 : 13-20    Заголовок сообщения: Парсинг Nix.ru Ответить с цитатой

суть задачи: есть 2 прайс листа в экселе, 2 таблицы в базе мускул,
уже написанный импортер из экселя в мускул, есть скрипт для очистки базы от мусора(аля пустые позиции и так далее).
надо каким то макаром сделать сопоставление таблиц товаров из прайсов для дальнейшего парсинга _nix.ru
вчера попытался сделать скрипт для сопоставления но чет не хватило мозгов для хорошего запроса ибо LIKE %$v% не помогает в моём случае, слишком большое расхождение позиций в прайсах =(
если надо могу скинуть кусок кода который я настрочил =)
если можно то скньте пример, если вломы то хотя бы пните в какую сторону курить =)
пример позиции из прайса:
Цитата:
Жёсткий диск 500 Gb SATA II Western Digital GP (IntelliPower) WD5000AADS (cache 32Mb)
это из моего прайса
а вот из никса
Цитата:
HDD 500 Gb SATA-II 300 Western Digital Caviar Green <WD5000AADS> 32Mb
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
Richard Ferlow
Гуру
Предупреждений : 2
СообщениеДобавлено: Вт 2-03-10 : 13-24    Заголовок сообщения: Ответить с цитатой

А как тут привяжешься, только если у них для каждого типа товаров стандартизированна форма наименования.

так если кэша нет, то не будет в конце этого - 32мб. - с конца не привяжешься к артикулу, допустим.

хз, хз...
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение   Номер ICQ
dipp
Эксперт
СообщениеДобавлено: Вт 2-03-10 : 15-11    Заголовок сообщения: Ответить с цитатой

Сравнивать стринги и ответ выдавать в процентах. Существует несколько разных алгоритмов. Вот что-то даже есть встроенное в пхп. http://www.php.net/manual/en/function.levenshtein.php

Покопайте в эту сторону, думаю че-нить, да получится.
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
AlexRock
Гуру
СообщениеДобавлено: Вт 2-03-10 : 19-33    Заголовок сообщения: Ответить с цитатой

Richard Ferlow писал(а):
А как тут привяжешься, только если у них для каждого типа товаров стандартизированна форма наименования.

noobas писал(а):
пните в какую сторону курить =)

Для каждого типа товаров искать совпадающие детали и смотреть в сторону регулярных выражений. Например, если строка начинается на "HDD" и в ней есть подстрока "WD5000AADS", то в твоём прайсе для этой строки нужно искать сопоставление в строках, начинающихся на "Жёсткий диск" и тоже имеющих подстроку "WD5000AADS". Если такое совпадение найдено, то устанавливается сопоставление.
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
noobas
Эксперт
СообщениеДобавлено: Вт 2-03-10 : 23-44    Заголовок сообщения: Ответить с цитатой

однако после недолгого курения манов по сравнению строк и регуляркам решил не ипать мозги с этим всем(вспомнил туеву хучу разных моделей ноутбуков и прочей гадости которая явно будет мне ставить огромное количество костылей)
даже если спарсить по регулярке из моей базы некоторую часть то не факт что в базе никсов эта часть будет в таком же виде, поигрался со сравнением строк, аще без вариантов, есть маленькие результаты но они не дадут даже 60% работы на деле.
в итого: создаем 3ю таблицу и в ней руками долго и мутороно делаем соответсвие)))
в файле моего прайса 3к строк)))
ЗЫ: некоторую часть прайса можно сопоставить с прайсами никса аля винты у которых явно забита конкретная модель как в моём примере
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
AlexRock
Гуру
СообщениеДобавлено: Ср 3-03-10 : 00-13    Заголовок сообщения: Ответить с цитатой

noobas
Если тебе так охота никсовые строчки прайса, то почему бы просто не копировать их к себе в прайс? Грубо говоря, из никсового прайса удалил те строки, которых у тебя в прайсе нет, а чего у них нету, дописал себе. Это легче, если вручную, по-моему, тем более, если соответствие один к одному (зачем таблица связей? - достаточно столбца идентификаторов).
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
noobas
Эксперт
СообщениеДобавлено: Ср 3-03-10 : 00-46    Заголовок сообщения: Ответить с цитатой

уже была такая идея)
3к строк против 7к строк =)
свежий прайс поставщика с наличием на скалде приходит каждое утро...
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
noobas
Эксперт
СообщениеДобавлено: Ср 3-03-10 : 01-02    Заголовок сообщения: Ответить с цитатой

тут фишка в том что есть внутренняя база с большим количеством поставщиков на неё вообще пофигу, аля передача в гете маркет.яндекс.ру девайса, да и куча других фенечек которые юзают манагеры.
в конкретном случае делается онлайн каталог на сайт, а для этого желательно что то парсить =))) не руками же 3к товаров забивать))
 Наверх
Посмотреть профиль / Отправить личное сообщение Отправить личное сообщение  
Показать сообщения:   
Ответить на тему    Форум АДСЛ КлубаЦИФРОВОЙ ФЛЕЙМ :)ПРОГРАММИРОВАНИЕ Часовой пояс: GMT + 7
Страница 1 из 1

 

 
Аватары: Вкл|Выкл   ЮзерИнфо: Вкл|Выкл   Подписи: Вкл|Выкл
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете вкладывать файлы
Вы можете скачивать файлы