апдейт get vsetv.awk + epg2xml.awk + epg2tex.awk

  • ну вы меня ставитe просто в тупик;-)


    вот мой сегодняшний лог:


    $ rm ~/.lynx_cookies


    $ lynx --version
    Lynx Version 2.8.5rel.1 (04 Feb 2004)
    libwww-FM 2.14, SSL-MM 1.4.1, GNUTLS 1.4.4
    Built on linux-gnu Nov 27 2006 06:49:18


    $ strace -fo /tmp/lynx.log lynx 'http://www.vsetv.com/login.php?inlogin=avichi&inpassword=XXX'


    $ cat ~/.lynx_cookies
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1166451720 cl XXX
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1166451720 cp YYY
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1171894925 cookietest 1


    $ grep cookies /tmp/lynx.log
    11382 open("/home/avichi/.lynx_cookies", O_RDONLY) = -1 ENOENT (No such file or directory)
    11382 open("/home/avichi/.lynx_cookies", O_WRONLY|O_CREAT|O_EXCL, 0600) = 3


    Что-то не то с созданием файла по-видимому...
    А вы пробовали сделать так:


    $ lynx 'http://www.vsetv.com/login.php?inlogin=andrewtit&inpassword=XXX'


    а потом просто


    $ lynx 'http://www.vsetv.com/'


    Логинится-ли он второй раз без ввода пароля?

  • Уфф.. С куками все сделал. Запустил. Нужно было еще в /etc/lynx.cfg разрешить использование куков и запись куков в файл на диск. Хотя не совсем понятно почему разрешения в .lynxrc не работают... Настройки я оставил такие :
    grep ^[^#] ~/.lynxrc |grep -i cookie
    accept_all_cookies=on
    cookie_accept_domains=
    cookie_file=~/.lynx_cookies
    cookie_save_file=~/.lynx_cookies
    cookie_loose_invalid_domains=
    cookie_query_invalid_domains=
    cookie_reject_domains=
    cookie_strict_invalid_domains=


    Соответственно исчезла и ошибка в err:
    cat: /tmp/cookies.4100: No such file or directory


    Пробуем дальше.

  • ага, надо будет добавить lynx.cfg в архив и lynx в скрипт с опцией -cfg.
    спасибо за тестирование!

  • Всегда пожалуйста :) Все прекрасно работает.!
    Но, есть еще вопрос :) Когда я попытался запустить Вашу первую версию,у меня были анонсы.
    Это я точно помню. И сейчас, для проверки вернулся в версии 01


    Вот вызезка из err версии 01


    getting 2006-12-14192 /usr/bin/lynx -dump -cookies -accept_all_cookies -cookie_file=cookies -cookie_save_file=cookies -display_charset=UTF-8 -useragent=Lynx 'http://www.vsetv.com/series_1037.html'| ./vsetv.awk -vkeyword='Рыцарь дорог' | /usr/bin/fmt -w 52 | /usr/bin/tr '
    ' '|' Рыцарь дорог
    using cached 2006-12-14194 Рыцарь дорог (Knight Rider) США,|1982-1986||Режиссер(ы): Боб Брэлвер,|Брюс Сет Грин, Бернард|Л. Ковальски, Алан Майерсон|и др.||Актеры: Дэвид Хассельхофф,|Эдвард Малхэйр, Патрисия|МакФерсон, Ребекка|Холден, Питер Пэррос,|Уильям Дэниэлс (голос|KITTа) Полицейский Майкл|Лонг сражен выстрелом в|голову. Полумертвым его|забирает в свой замок|миллионер и ......


    Вот вырезка из err версии последней.


    getting 2006-12-1441 /usr/bin/wget -O- -U "$agent" --keep-session-cookies --load-cookies "$cookies" 'http://www.vsetv.com/series_1037.html' 2>/dev/null| /bin/sed -e 's,<br>,&\n,g;s,<[^>]*>,,g;s,&quot;,",g;s,&nbsp;,,g' | /usr/bin/recode -f cp1251.."$charset" | tr -d '
    ' | ./vsetv.awk -vkeyword='Рыцарь дорог' | /usr/bin/fmt -w 52 | /usr/bin/tr '
    ' '|' Рыцарь дорог
    using keyword ^Рыцарь.*дорог
    .............


    :( Анонса в последней верси нет. Что-то можно сделать, чтобы вернуть в последнюю версию представление анансов?
    Или я в чем то ошибаюсь?


    И второй вопрос. Можно-ли, Вашим скриптом обрабатывать несколько сайтов?
    Я имею ввиду не один всетв.ком, а допустим еще и стс.ру и т.д. Я понимаю, что в данном виде скорее всего нет,
    потому как алгоритм обработки, скорее всего, на разных сайтах будет разным.


    Откуда возник этот вопрос? До вторника на сайте всетв.ком отсутсвовали как минимум 3 из выбранных мною телепрограм...
    Все программы появились только в четверг. :( Может быть это и не характерно для этого сайта, а просто некоторый сбой... :)
    Но, даже если это и так, то в этом случае появляется возможность дополнить вдр теми программами которых в принципе нет на всетв.ком.
    Ну допустим то же отв прим и т.д. ...

    Сообщение было отредактировано 1 раз, последнее редактирование пользователем andrewtit ().

  • С Рыцарем проблема в кодировке (у меня на него анонсы есть, но я использую
    8859-5...). В качестве быстрого хака могу порекомендовать сначала сгрузить все
    с 8859-5 а затем одним махом перекодировать перед засылкой в Ведро. Но как нибудь на досуге попробую разобраться т.к. должно работать и прямиком...


    С других сайтов "в принципе" можно попробовать, в скрипте особо много зависимостей
    нет... Опять-таки, проблема во времени... Есть ли у вас список сайтов с которых стоит
    качать (анонсы) и еще нет качалки? Если там для меня будет что-то интересное тогда этот процесс можно ускорить;-)

  • Но дело в том, что, как в первой версии, где есть анонсы, так и во второй версии
    где анансов нет, я использовал UTF-8.


    Что, в общем-то можно увидеть в логах 1-й версии ....
    .... -cookie_save_file=cookies -display_charset=UTF-8 ....


    Я попытаюсь попробовать Ваше предложение с кодировками.
    Но, ведь его можно проверить и так -
    в err при загрузке с кодировкой 8859-5, должны быть ананосы...
    Я прав?
    Завтра попробую. Сегодня поздно уже. У нас 22.55, а на работу в 6.00 :)

  • не не, не в самой кодировке проблема а скорее всего в неправильном обращении с оною в скрипте, т.е., проблема в новой версии скрипта если использовать utf8 (чего я пока не тестировал).


    проверить это можно именно так как вы (и я) сказали;-)

  • Скажите на сегодня этот скрипт работает? И чем он лучше (хуже) xmltv2tv? Сейчас решаю, что ставить.

  • Запустил скрипт. Все выполняется без ошибок. Вот лог:
    =====================================
    Setting up...
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1179693406 cl XXXXX
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1179693406 cp XXXXX
    Пожалуйста зарегистрируйся для просмотра данной ссылки на страницу. FALSE / FALSE 1185136607 cookietest 1
    S15.0W-1537-1-1 ch295
    S15.0W-1537-1-3 ch99
    S4.0W-4369-1-1 ch19
    S4.0W-4369-1-6 ch20
    S4.0W-4369-1-2 ch64
    S4.0W-4369-1-3 ch3
    S4.0W-4369-1-4 ch75
    S4.0W-85-12-3 ch25
    S4.0W-85-12-2 ch94
    S4.0W-85-12-6 ch271
    S4.0W-85-12-8 ch298
    S4.0W-4369-1-5 ch234
    S5.0E-85-15-6520 ch69
    S5.0E-85-15-6530 ch27
    S5.0E-85-15-6510 ch92
    S5.0E-85-4-600 ch237
    S5.0E-85-12-6190 ch106
    S5.0E-85-12-6130 ch294
    S5.0E-85-12-6110 ch18
    S5.0E-85-13-6290 ch74
    S5.0E-1-1-3 ch173
    S5.0E-1-1-287 ch88
    S13.0E-318-9400-8208 ch21
    S13.0E-176-12600-1708 ch98
    S13.0E-318-9400-8211 ch37
    S13.0E-318-8100-14807 ch22
    S13.0E-318-9400-8201 ch236
    S13.0E-318-11100-4605 ch44
    S13.0E-9472-4688-13 ch334
    S13.0E-1-1-51 ch125
    S13.0E-318-12300-14 ch301
    S13.0E-318-9400-8204 ch46
    S13.0E-318-12800-5 ch267
    S13.0E-318-12800-7 ch227
    S13.0E-318-200-13813 ch229
    S13.0E-318-200-13835 ch36
    total 0
    =======================================
    В итоге в телегиде все по нулям, нет программы. Видно total 0 сказывается. В чем дело?
    avichi помоги разобраться.