Статья о наболевшем у многих за последние недели. Суть в том, что Key Collector перестал адекватно парсить Wordstat, то есть выполнять свою основную функцию. Парсинг даже с прокси затягивается сейчас на десятки а то и сотни раз и из пары часов превращается в неделю. Но я расскажу вам о решении всего за 300 рублей.
Такие ошибки сыпятся постоянно. На вопрос: «Что делать?», техническая поддержка КК говорит: «Смотрите многочасовые видео Ожгибесова по настройке, возможно что-то и найдете», хотя проблема гораздо глубже.
Прокси тоже помогают с трудом, а чтобы нормально собирать семантическое ядро даже маленькому агентству, необходимо закупить с десяток мобильных приватных прокси на 50к.
Самое классное, что в нем можно использовать все те же операторы, что и в КК (предварительно разбивать на группы, плюсить и минусить и т.д.), а после парсинга, который проходит за секунды, вы можете выгрузить документ для Key Collector и продолжить редактирование в привычном интерфейсе.
Ставь лайк, если тоже успел потратить кучу времени и денег на другие малоэффективные решения.
25 августа 2022 15:56:35
Разберем ошибку в программе KeyCollector при парсинге Яндекс.Вордстат “не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора”
При парсинге левой или правой колонки Wordstat возникает ошибка
Появление данной ошибки означает, что ваш аккаунт или аккаунты Яндекс были закапчеваны системой капча “Я не робот”
На данный момент автоматизировать ввод данной капчи не представляется возможным, поэтому мы распишем метод, который поможет решить данную проблему и без проблем осуществлять парсинг левой и правой колонки Яндекс.Wordstat.
Первым делом необходимо обзавестись аккаунтами Яндекс с привязанными к ним прокси серверами.
Для работ с новыми аккаунтами Яндекс необходимо в настройках парсинга Wordstat
В пункте “Задержка между запросами” установить значение “нормальный режим”
Количество потоков равняется количеству прокси серверов которые вы используете для парсинга
После проверки и установки всех настроек, про которые написано выше можно приступать непосредственно к решению проблемы. Суть решения проблемы заключается в выборе браузерного режима с ручной обработки капчи
Для перехода к данному режиму необходимо провести очистку кэша и куки KeyCollector. Для выполнения данной процедуры необходимо придерживаться следующего алгоритма действий: “Настройки KeyCollector — Сеть — Очистить хранилище cookie/Очистить кеш”
Далее приступаем к следующему шагу. Переходим в “Настройки KeyCollector — Yandex.Wordstat”. Тут необходимо выбрать следующие настройки: Обработчик “браузерный”
Далее поставить галку “Использовать режим отладки”. Сохраняем данные настройки и перезапускаем KK.
Теперь при парсинге Wordstat с использованием данных настроек обработчик открывает окно браузера
В случае появления ошибки “не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора” необходимо вручную открыть появившееся окно браузера в KeyCollector
В поисковую строку “Яндекс” ввести любой ВЧ поисковый запрос, например “купить гараж” и в ручном режиме пролистать страницы выдаче. При пролистывании выдачи Яндекс выдаст капчу “Я не робот” которую необходимо решить. После того как капча будет решена необходимо поставить процесс парсинга на паузу, а затем продолжить его.
С помощью данной инструкции получилось решить проблему с парсингом Яндекс.Вордстат
25 августа 2022 15:56:35
Разберем ошибку в программе KeyCollector при парсинге Яндекс.Вордстат “не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора”
При парсинге левой или правой колонки Wordstat возникает ошибка
Появление данной ошибки означает, что ваш аккаунт или аккаунты Яндекс были закапчеваны системой капча “Я не робот”
На данный момент автоматизировать ввод данной капчи не представляется возможным, поэтому мы распишем метод, который поможет решить данную проблему и без проблем осуществлять парсинг левой и правой колонки Яндекс.Wordstat.
Первым делом необходимо обзавестись аккаунтами Яндекс с привязанными к ним прокси серверами.
Для работ с новыми аккаунтами Яндекс необходимо в настройках парсинга Wordstat
В пункте “Задержка между запросами” установить значение “нормальный режим”
Количество потоков равняется количеству прокси серверов которые вы используете для парсинга
После проверки и установки всех настроек, про которые написано выше можно приступать непосредственно к решению проблемы. Суть решения проблемы заключается в выборе браузерного режима с ручной обработки капчи
Для перехода к данному режиму необходимо провести очистку кэша и куки KeyCollector. Для выполнения данной процедуры необходимо придерживаться следующего алгоритма действий: “Настройки KeyCollector — Сеть — Очистить хранилище cookie/Очистить кеш”
Далее приступаем к следующему шагу. Переходим в “Настройки KeyCollector — Yandex.Wordstat”. Тут необходимо выбрать следующие настройки: Обработчик “браузерный”
Далее поставить галку “Использовать режим отладки”. Сохраняем данные настройки и перезапускаем KK.
Теперь при парсинге Wordstat с использованием данных настроек обработчик открывает окно браузера
В случае появления ошибки “не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора” необходимо вручную открыть появившееся окно браузера в KeyCollector
В поисковую строку “Яндекс” ввести любой ВЧ поисковый запрос, например “купить гараж” и в ручном режиме пролистать страницы выдаче. При пролистывании выдачи Яндекс выдаст капчу “Я не робот” которую необходимо решить. После того как капча будет решена необходимо поставить процесс парсинга на паузу, а затем продолжить его.
С помощью данной инструкции получилось решить проблему с парсингом Яндекс.Вордстат
Просмотров:
1 577
Безусловно, вы уже столкнулись с проблемой Key Collector, из-за которой он перестает нормально собирать данные Wordstat и растягивает процесс в десятки и сотни раз. Техническая поддержка предлагает изучать часовые видео Ожгибесова и покупать прокси за тысячи рублей. Но есть способ гораздо лучше и дешевле — 300 рублей, а на тестовом периоде можно собрать бесплатно 5000 запросов.
Не будем ходить вокруг да около — сервис для парсинга запросов
Это абсолютный аналог по парсингу вордстата, даже используются все те же операторы, что в Key Collector. Кроме того, парсинг тысячи запросов здесь происходит за считанные секунды, а после вы просто можете выгрузить результат в файл Key Collector и продолжать работу в привычном интерфейсе — собирать частотность через Direct, кластеризовать и другое.
Все гениальное просто и если у вас в Key Collector все еще существует ошибка «не удалось распознать формат ответа Яндекс.Wordstat», смело используйте данное решение. Всего за 300 рублей вы получите возможность парсить 600 000 запросов в месяц (на практике даже больше), а если требуется больше, то за 2400 руб 8 000 000 фраз.
Этот способ самый лучший, если ваш Key Collector больше не работает как надо. К сожалению, функционал сервиса, отчасти, совпадает функционалом самого КК, поэтому техническая поддержка не предлагает данное решение самостоятельно и даже затирает мои комментарии у постов с вопросами в их группе.
Загрузка…
Key Collector — пожалуй, самое популярное ПО для сбора семантического ядра и проведения семантического анализа. Кей Коллектор — незаменимое орудие в арсенале любого продвинутого маркетолога, рекламщика или SEO-специалиста.
Но некоторое время назад с Key Collector начались проблемы. А точней сказать — не с Key Collector, а Яндекс ужесточил свои правила проверки пользовательских аккаунтов — массовые блокировки аккаунтов, обязательная привязка номера телефона, постоянно появляющаяся капча. Ярче всего эти ужесточения отразились на SEO-специалистах. Совсем недавно огромное количество пользователей программы для парсинга и составления семантики KeyCollector (в том числе и мы) столкнулось с ошибкой «Не удалось распознать формат ответа Яндекс.Wordstat» при парсинге Yandex Wordstat. Проблема связана именно с капчей «Я не робот», которая появляется при сборе семантики вручную через браузер в Wordstat. Проблему не позволяют решить ни старые аккаунты, ни белые ip-адерса, на тотальное замедление скорости парсинга.
Сначала появляется страница с капчей «Я не робот», а следом за ней идёт символьная капча — именно этот формат и не удается распознать Ки Коллектору. Если даже на старых аккаунтах она появлется, что говорить о новорегах. Скорее всего у Яндекса вызывает подозрение количество непрерывных запросов за определенный промежуток времени.
Попытавшись сильнее углубиться в проблему, нам таки удалось оживить парсинг Яндекса — об этом и будет статья.
Приостановка парсинга
Самый простой, но тем не менее, вполне рабочий способ — это банальная приостановка парсинга. Мы использовали древние проверенные аккаунты, чистые IP, а ошибка всё равно появлялась. Приостановка парсинга на несколько часов позволяла возобновить парсинг без ошибок также на несколько часов, после чего ошибка повторялась и мы опять приостанавливали парсинг. Остановка парсинга на ночь — позволяла без проблем продолжать парсинг весь следующий день. Понятно, что с такими перерывами и всего одним аккаунтом много не напарсишь, поэтому ниже мы рассмотрим возможность парсинга сразу с нескольких аккаунтов.
В целом, парсинг небольшого числа запросов в ограниченный промежуток времени на старом аккаунте, скорее всего, не вызовет проблем. Но если прогнозируется парсинг на несколько дней — лучше его делать с перерывами.
Если ситуация такая, что аккаунты прогретые, IP белые, но парсинг даже после остановки не запускается — скорее всего, капча появляется уже при логине в аккаунт. Необходимо отдельно заходить в браузере в каждый аккаунт, переходить в Wordstat, где-то по пути вы встретите капчу. Часто помогает просто в поиске Яндекса или Wordstat вбить какой-нибудь запрос и походить по страницам, где-то на 8-10-й странице вы встретите капчу. После её прохождения, перезапускаем парсинг — и он должен начать работать без ошибок (на какое-то время).
Прогретые аккаунты Яндекса
Это, пожалуй, самый верный способ нормально парсить Wordstat. С одним аккаунтом всё понятно, можно банально в него зайти, покликать по ссылкам в Яндексе. Продемонстрировав поведение реального пользователя так или иначе получится запустить парсинг. Если парсить десятки тысяч, а то и миллионы запросов ежедневно, конечно, потребуется много аккаунтов и прокси под них (1 аккаунт — 1 proxy).
В интернете уже стали появляться предложения о продаже готовых связок из уже прогретых аккаунтов и прокси. В целом, это можно назвать решением, пусть и не самым дешёвым. Идём дальше.
Регистрация аккаунтов
Основное, что нам потребуется для быстрого парсинга Wordstat — это много аккаунтов. Стоит сразу отметить, что не нужно создавать корпоративные аккаунты (т.е. почта@ваш-домен.ру). С одной стороны с ними куда меньше проблем: не нужен номер телефона для регистрации, сама процедура регистрации отнимает меньше времени, не страшны блокировки аккаунтов. Но есть одна ключевая проблема — корпоративные аккаунты не позволят парсить Яндекс Директ.
Для того, чтобы была возможность парсить и Яндекс Директ, и Yandex Wordstat — мы будем регистрировать обычные аккаунты Яндекс Почты. В качестве телефона для активации — можно использовать бесплатные виртуальные номера (Google: «номер для приёма СМС»), либо регистрировать аккаунты на один и тот же номер телефона, с последующей его отвязкой в личном кабинете Яндекс (не забудь установить и записать ответ на контрольный вопрос!).
Прогрев аккаунтов
Прогревать аккаунты можно самостоятельно. Наиболее удобный способ для прогрева — установить отдельный браузер Mozilla Firefox (Mozilla Portable) и создать необходимое количество профилей под каждый Яндекс-аккаунт, чтобы Cookies не перемешивались, а также была возможность к каждому профилю добавить свой прокси. Хочешь что-то найти в Яндексе, посмотреть Погоду/Новости/Картинки/Карты — хватит делать это в приватном режиме, заходи на аккаунт для прогрева и смотри. Одна-две недели и мы получаем прекрасный прогретый аккаунт. Тут важно всегда заходить в этот аккаунт с соответствующим прокси.
Яндекс, конечно, сразу видит разные User-agent у KeyCollector и Mozilla, но хотя бы не блокирует аккаунт полностью. Смена IP может вызвать у Яндекса подозрения, тут и нужно быть готовым вспоминать ответ на контрольный вопрос или искать номер телефона, к которому был привязан аккаунт.
Proxy
В интернете есть огромное предложение различных прокси-сервисов. От дешевых shared-proxy за 30 руб./мес. до приватных и мобильных с динамическим ip. Нужно понимать, что shard-proxy может одновременно с тобой использовать неограниченное количество других пользователей. И среди них могут оказаться такие же сеошники, которые сейчас парсят Яндекс, что может приводить к дополнительным капчам или даже блокировкам. Использование приватных прокси при массовом парсинге выходит довольно накладным занятием. Поэтому, при выборе proxy стоит одновременно протестировать прокси от разных провайдеров и выбрать наиболее эффективный вариант. У нас получалось запускать парсинг и на публичных прокси.
Динамические мобильные прокси (быстрое и универсальное решение)
А что если если сотня аккаунтов и не хочется каждый прогревать или заходить в браузере и искать капчу? На текущий момент динамические мобильные прокси — это наиболее эффективный вариант. Такой подход позволяет проводить парсинг без ошибок и приостановок даже на новорегах (непрогретых аккаунтах) в нормальном режиме. В KeyCollector есть отдельная вкладка с настройками cети, где необходимо установить галочку «Использовать прокси-серверы». IP прокси меняется каждые несколько минут, во время смены периодически можно встретить ошибку «Timeout» (это связано исключительно с качеством сети провайдера). При этом на самих аккаунтах все прочие прокси можно убрать. Не забудьте также убрать галку «Использовать основной IP» при парсинге.
Удовольствие не дешёвое — мобильные прокси, пожалуй, самые дорогие из возможных. Тем не менее, пока что Яндекс довольно лояльно относится к заходам с мобильных ip. Долго ли будет работать такой подход — непонятно. В один прекрасный момент все аккаунты могут пойти в бан. Но пока работает, почему бы не воспользоваться? Это реально самый простой и быстрый способ оживить парсинг на сотнях аккаунтов.
Провайдеров мобильных прокси на рынке хватает, вопрос лишь к качеству их услуг и ценам. Нам повезло с первого раза — воспользовавшись сервисом LTEspace нам удалось сразу же оживить парсинг Key Collector на новых (непрогретых аккаунтах) и вот парсинг идет в несколько потоков без каких-либо ошибок. Настройки тарифа для прокси использовали дефолтные, а ценник составил 650 руб./мес. Возможно, есть более бюджетные варианты. Если удастся их найти и протестировать — обязательно дополним эту статью, так что рекомендуем её сохранить в закладки.
Прочие способы не гарантируют отсутствия капчи.
Подмена Cookies
Если нужно собрать только частотку — помогает парсинг Вордстата, через ЯндексДирект с настроенными куками. Правда, капч там может валиться немереное количество, но они хотя бы автоматически распознаются (например, с помощью сервиса Anti-gate).
Вообще, подмена кук история полезная, но KeyCollector не позволяет задать отдельные наборы кук для разных аккаунтов. Поэтому, подмена кук может работать только при парсинге с использованием одного аккаунта. Простановка куков в аккаунте не гарантирует отсутствие ошибки парсинга, разве что немного увеличивает время до появления капчи.
Браузерный и безбраузерный режимы
В целом, особо на результат не влияет, но в браузерном режиме вы можете увидеть саму капчу и пройти её (например, при логине в аккаунт или переходе на Вордстат). Если увидели капчу, прошли её, а парсинг всё равно выдает ошибку, стоит подождать и перезапустить парсинг через полчаса-час. Как писали выше, капчу можно встретить переходя постранично примерно до 8-10 страницы в поиске.
Режим парсинга
Для новых аккаунтов, естественно, лучше использовать безопасный режим. А вот для прогретых аккаунтов вполне подойдет нормальный. Скорость прямо кардинально не влияет на появление капчи. Разве что вы увидите ошибку чуть быстрее.
Выводы:
Дело вовсе не в обновлении программы, как пишут многие юзеры. Ключевая проблема именно в ужесточении мер проверки аккаунтов Яндексом.
Нам реально помогло оживить старые аккаунты:
- Зайти в старый аккаунт с браузера/включить браузерный режим и пройти капчу;
- Приостанавливать парсинг периодически, или после появления ошибки хотя бы на полчаса-час;
- Дополнительный прогрев старого аккаунта тоже облегчит и значительно увеличит время парсинга до появления капчи.
Новореги/непрогретые аккаунты/большое число аккаунтов:
- Использовать динамические мобильные прокси — пока что этот подход работает (запускается в течение 10 минут).
Послесловие
Каких настроек не хватает, и как KeyCollector мог бы облегчить жизнь своих пользователей:
- вывод в каком-либо виде появляющейся капчи в интерфейс;
- дополнительная настройка автоматического времени парсинга/или времени приостановки для каждого аккаунта;
- разные куки для разных аккаунтов;
- инструмент для подмены user-agent при обращении к Яндексу.
Подписывайтесь на Телеграм: @low_digital
Ошибка такого рода:
Есть разные варианты решения, но не все подойдут именно вам.
Вариант 1: используйте браузерный обработчик. Для этого вам нужно в настройках Yandex переключиться здесь:
После этого программу нужно перезагрузить, чтобы настройки вступили в силу.
Если не помогло, попробуйте вариант 2: добавьте аккаунты Яндекса, которые подтверждены смс, их можно купить с помощью сервиса sms-activate.org.
Если и это не помогло, а у нас было именно так, то используйте вариант 3: парсинг в КейКоллекторе с помощью платного сервиса XMLRiver.
Пошагово:
- Регистрируйтесь на сервисе. Пополняете счет, например, на 100 руб. На момент написания статьи стоимость парсинга 1 000 запросов составляет 20 рублей. Можно парсить дешевле, если купить тариф PRO или Mega.
- Далее, в сервисе в настройках сбора выбираем Wordstat.
Внизу поставьте в настройках для устройств «Все» и нажмите «Сохранить».
3. Идем в Key Collector в Файл — > Настройки — > Модули. В модулях активируем XMLRiver module и сохраняем.
Не закрывая окна поднимаемся к «Платные API», находим XMLRiver и вставляем ссылку из сервиса:
После этого иконка должна появится в поле «Парсинг». Если этого не произошло перезагрузите программу.
4. Делаем настройки в XMLRiver. Кликаем на значок (см. скриншот выше). В отрывшемся окне нажимаем на «Настройки».
Устанавливаем значения для парсинга: 40 или 41. А в графу «Добавлять в таблицу фразы с частотностями» — от 0 до 10000000. Режим сбора: левая колонка. Выбираем регион, добавляем маску и все.
Результат:
Минус этого варианта: нельзя добавить минус-слова перед парсингом. Но можно потом удалить не нужные фразы подсветкой минус-слов.
Всего хорошего!
Добавляются не все фразы
При добавлении или импортировании фраз в группу добавляются не все фразы. Подробнее о причинах возникновения этой проблемы можете ознакомиться ниже.
Добавляются только уникальные фразы
В пределах одной группы в проекте могут содержаться только уникальные фразы.
Если при добавлении встречается полный дубликат фразы, то он пропускается. К сожалению, технически невозможно добавить полный дубликат фразы в группу, где эта фраза уже присутствует.
Фразы очищаются от лишних символов
Перед добавлением фразы в проект программа выполняет чистку указанных в «Настройках — Парсинг — Общие» спец. символов (по умолчанию вычищаются двойные пробелы, знаки препинания и прочие вспомогательные спец. символы).
После чистки фразы она может стать полным дубликатом ранее добавленной в группу фразы, а дубликаты не добавляются.
Например, фраза «купить быстро, недорого» после чистки запятых станет фразой «купить быстро недорого».
Если вы хотите добавлять фразы в проект в неизменном виде, отредактируйте список фильтруемых спец. символов в настройках программы.
Если фразы содержат спец. символы, они могут не проходить проверку при сборе некоторых видов статистики, т.к. многие сервисы ограничивают формат вводимых запросов, чтобы они не содержали недопустимых символов или операторов.
Фраза присутствует в другой группе
В окне добавления, импортирования или сбора фраз присутствует выбор режима добавления фраз, который настраивает поведение программы при встрече дубликата фразы в других группах.
Проверьте выбранный режим и ознакомьтесь с его описанием, т.к. если выбран режим пропуска фраз при их наличии в любой другой группе, то фраза может быть пропущена согласно этому критерию.
В больших проектах со сложной структурой или при сборе/добавлении фраз из пересекающихся тематик довольно часто могут встречаться полные совпадения, ведущие к пропуску фраз.
Заданы ограничения в настройках
Проверьте параметры добавления фраз в «Настройках — Парсинг — Общие».
Например, может быть задано ограничение по длине фразы.
При сборе фраз из внешних источников убедитесь, что не заданы прочие ограничения в окне запуска сбора фраз или на вкладке настроек соответствующего вида статистики.
Например, при сборе фраз из Yandex.Wordstat вы могли случайно указать ограничения по базовой частоте добавляемых запросов.
Нет выдачи по запроссу
При сборе фраз из внешних источников убедитесь, что выдача по запросу существует.
Для этого откройте вкладку журнала событий, скопируйте один из последних запросов, который не принес результатов, откройте браузер и вручную попробуйте собрать статистику для этого запроса.
Важно именно скопировать строку из журнала событий, а не ввести ее вручную с клавиатуры, т.к. в проекте у вас может содержаться запрос с ошибкой.
Иногда бывает, что даже по высокочастотным запросам сервисы могут не иметь выдачи.
При проверке вручную не забудьте установить аналогичные используемым в программе ограничениям по региональности, языку, минус-словам и пр.
При использовании функции интеграции минус-слов в запрос особое внимание нужно уделить списку минус-слов, т.к. программа не выполняет валидацию данных и отправляет запрос в сервис «как есть». При обнаружении ошибок в списке минус-слов устраните проблему и повторите попытку.
Все в порядке, но запросы почему-то не добавляются
Если вы проверили все возможные причины пропуска фраз при добавлении или сборе фраз, пожалуйста, свяжитесь с технической поддержкой.
В обращении укажите, что вы уже ознакомились со списком причин пропуска фраз, чтобы специалисты смогли выполнить диагностику.
Мне нужна помощь
Привет Фанатам Key Collector и кто столкнулся про с проблемой Не удалось распознать формат ответа Яндекс Wordstat.
Яндекс ограничивает аккаунты которые используются для парсинга. Просит ввести смс без регистрации и смс.
Что делать?
Надо сделать авторизацию во всех аккаунтах которые у вас стоят на парсинге используя IP этого прокси сервера.
Для этого зайдите в мой компьютер > свойства > Прокси сервер
По очереди введите свои IP прокси сервера.
Далее через браузер зайдите в каждый аккаунт Яндекса и пройдите авторизацию. И так далее по всем IP прокси.
Как сделали авторизацию каждого аккаунта. Удалите из настроек прокси сервер и закройте браузер.
Пробуем запустить парсинг запросов через Кей Коллектор.
У меня долго ждать первого ответа, но уже стало лучше парсить.
UPD 22.06.2022
Дело в прокси (они умирают), пока не поставил мобильные прокси с ротацией — все было безрезультатно.
Цена вопроса — 650р в месяц.
Прокси тут: https://ltespace.com/keycollector
Без прогрева аккаунтов!
Аккаунты те же что и были!
Куки не прописаны!
ПАРСИНГ ИДЕТ! Конечно не так круто как раньше. Но жить можно.
UPD 14.07.2022
Для поднятия скорости через мобильные прокси надо сделать больше аккаунтов яндекс. Но там нужен номер телефона. Его можно взять в аренду https://onlinesim.ru/ и подтвердить по смс ваш логин.
Прокси с ротацией IP постоянно просят авторизацию — но хотябы не умирают как раньше.
Кстати капча практически не выпадает.
UPD 13.07.2022 — Мощный парсинг от ВордКипер. Для тех кто любит скорость.
Еще одно мощное решение. Всё парсит как на ракете Илона Маска. Турбо скорость сбора от 30 000 фраз в мин. Дешевле конкурентов в 5 раз и другие полезные функции тоже есть. Ссылка https://word-keeper.ru/
Сейчас будем тестить.
Текст для всех, кто устал мучиться с настройками кей коллектора, прокси, аккаунтами Яндекс и антикапчей.
В течении весны-лета 2022 года, многие специалисты работающие с семантикой столкнулись с проблемой парсинга данных. Кей коллектор на парсит выдачу вордстат.
Собственно яндексоиды никогда особенно не хотели отдавать статистику в промышленных масштабах, а после очередного закручивания гаек на их стороне парсить частотность и выдачу привычными способами с помощью Key Collector 4 стало совсем проблематично, а танцы с бубнами в виде прогрева аккаунтов и прокси начали немного утомлять.
Сегодня мы хотим рассказать об альтернативном и недорогом способе парсинга Яндекс Вордстат с помощью связки Key Collector и XML River.
Истоки зла
Изначально в сеошных кругах вспыхнул необоснованный гнев и камни полетели в первую очередь в сторону разработчиков Key Collector. Многие решили, что проблема на их стороне и они буквально обязаны её решить в ближайшее время.
Подробно о ситуации с парсингом Яндекс можно почитать в официальной справке разработчика.
Для тех у кого нет времени читать вот немного цитат:
В связи с последними изменениями на стороне Яндекс на этапе входа в аккаунт могут возникать ошибки.
Проблема связана с введением дополнительной проверки владельца аккаунта через ответы на секретные вопросы, просьбу ввести код СМС, принятие телефонного звонка, проверки резервной почты и пр. Такую проверку система добавила, чтобы убедиться, что в аккаунт входит реальный его владелец, а не злоумышленник.
Сбор данных статистики подразумевает сложное взаимодействием между программой и целевым сервисом. При этом работа сервиса ни в какой мере нам неподвластна (мы не можем заставить работать сервис так, как нам хочется). Наоборот, мы можем лишь попытаться подстроиться под условия внешней среды.
К сожалению, по техническим причинам поддерживать сбор данных с каждым годом становится все сложнее технически.
Мы следим за ситуацией и будем надеяться, что сможем разработать стабильный метод работы и выпустим обновление. Однако, гарантировать решение и сроки мы не можем.
Мы считаем, что SEO-сообществу стоит остыть и поддержать разработчиков софта, которым за эти годы все мы спарсили миллионы запросов. И который, к слову, до сих пор продаёт пожизненную лицензию, а не месячную подписку.
Решение проблемы парсинга вордстат Яндекса
Спустя какое-то время Key Collector 4 (а также Key Assort) анонсировали интеграцию с сервисом xml River.
Этот сервис предоставляет возможность парсить ключевые фразы и базовую частотность из вордстат минуя необходимость заводить и прокачивать аккаунты, покупать прокси и решать капчу. Конечно это всё не благотворительность и сервис платный. Но сразу небольшой спойлер — он недорогой. На данный момент стоимость парсинга 1000 запросов начинается от 10 рублей. В базовом тарифе за тысячу просят 20 рублей, но и это немного, если вы конечно не работаете со стотысячной семантикой на ежедневной основе.
На момент написания статьи пришла новость, что аналогичные возможности появились в сервисе Arsenkin Tools. Инструмент в отличии от xml River позволяет снимать не только базовую, но также фразовую, точную и уточнённую частотности. Из минусов — формат подписки, базовая от 699 рублей в месяц. Если вы не работаете с семантикой на регулярной основе и не используете другие инструменты Арсёнкина, то это может быть не так уж выгодно. В случае с XML River вы тратите баланс по факту парсинга, а частоты можно снять альтернативными способами.
Прежде всего вам нужно зарегистрироваться в сервисе, пополнить баланс на произвольную сумму и выставить настройки для сбора фраз из вордстат.
Обязательно перейти во вкладку Wordstat и отметить в разделе устройства «все». В противном случае парсинг не заработает.
После этого уже можно переходить непосредственно к настройке интеграции с Key Collector.
Видео о быстрой настройки парсинга из вордстат
Настройка xml River в Key Collector
В коллекторе «из коробки» не было модуля для подключения этого сервиса, поэтому первое, что вам придётся сделать — это обновиться до последней актуальной версии.
Далее запускаем программу заходим в настройки — модули — xml River. Передвигаем ползунок в активное состояние и перезапускаем программу.
Вставляем полученный ранее в личном кабинете ключик в подразделе «Платные API»:
Далее нужно проставить следующие настройки парсинга:
- Необходимое количество страниц (максимум Вордстат отдаёт 41 страницу).
- Частотность от и до которой собираем.
По умолчанию там выставлены нули и парсинг работать не будет. В остальном все настройки нам привычны, можно задать региональность и распределение по группам.
Максимальная скорость парсинга с XML River 10 потоков. Именно столько мы выставляем в настройках парсинга.
Стоит ли оно того?
Коротко резюмируя, этот способ заслуживает право на существование. Каждая отдельно взятая проблема парсинга требует индивидуального рассмотрения. В ряде случаев смена аккаунтов и прокси уже не помогают. А многие просто устали держать в голове эти моменты.
Описанный выше способ имеет как положительные, так и негативные моменты.
Плюсы:
- Не нужно думать об аккаунтах Яндекс, прокси и сервисах разгадывания капчи.
- Относительно высокая скорость и точность.
- Решение надоевших ошибок за 10 минут.
Минусы:
- Сервис платный.
- Не всегда собирает частотность по всем фразам, пока в стадии beta-версии.
- Не собирает точную частоту.
Немного о сборе частот
Собрать нужные вам частоты можно альтернативными способами.
- Пересобрать частотности коллектором из Директа, если у вас ещё не выдаёт проблем при использовании этого функциолнала.
- Вышеупомянутый сервис от Arsenkin.
- Собственный парсер от xml River. Софт незамысловатый, но рабочий. Увеличивает количество телодвижений. Спарсили в Key Collector — экспортировали слова в txt формате — сняли частотности в программке — вернулись в коллектор для чистки и кластеризации. Способ имеет право на жизнь, но на любителя. Неплохое видео о работе с программой от разработчика тут
- Есть интеграция с Key Assort, где также можно парсить точные частотности.
Учитывая, что сервис, в принципе, по карману любому фрилансеру, а некоторые так и не смогли решить проблему парсинга другими способами, интеграция xml River однозначно облегчает жизнь многим оптимизаторам в SEO продвижении сайтов, что не может не радовать.
Ошибка «не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора» означает что аккаунт был закапчеван Яндекс капчей по типу Я не робот, данную капчу КейКоллектор решать сейчас не умеет. Для решения данной проблемы можно воспользоваться одним из ниже перечисленным способом.
————————————————————————————————
Если у вас нет Яндекс аккаунтов которые проходят проверку, можете воспользоваться услугой создания подтвержденных по СМС Яндекс аккаунтов через купленные (не только у нас) прокси для КейКоллектора, стоимость 1 аккаунта 80 руб. В итоге будут выданы данные в формате КейКоллектора, которые необходимо будет просто вставить в Настройки — Yandex — Аккаунты. К этим аккаунтам Яндекс относится лучше, т.к. IP регистрации аккаунтов будет такой же как и IP прокси.
Так же мы занимаемся продажей прокси: 5 прокси — 500 руб., 10 прокси — 910 руб. Информация по услуге.
Всем покупателям проксей бесплатно предоставляется наш сервис распознавания капч (антикача сервис, выдается URL:Port и API key, т.е. Токен). А также наш парсер фраз всей левой колонки Яндекс.Wordstat (максимум 41 страница) сразу с частотностями.
Обращаться по контактам: Skype: bvolodya-74 Telegram: @Vladimir_AWM (ВНИМАНИЕ, аккаунты Vladimir_AWM24_7 и Vladimir_AWMj — фейки!)
— 1 ВАРИАНТ парсинга Вордстата через XML —
На данный момент парсить левую колонку Яндекс.Wordstat можно через платный сервис XMLRiver. Видео как работать через XMLRiver — Смотреть и тут.
Расширенную частотность Яндекс.Wordstat можно собирать так же через XMLRiver или же через Яндекс.Директ в безбраузерном режиме. КейКоллектор умеет в нем авторизовываться и разгадывать капчу (через сервис антикапчи RuCaptcha) в автоматическом режиме. Как собирать частотку через Директ.
— 2 ВАРИАНТ парсинга Вордстата, напрямую с Вордстата —
За место XMLRiver можно воспользоваться нашим скриптом (файл Readme), который всем покупателям наших прокси предоставляется бесплатно так же как и сервис антикапчи (выдается URL и Токен). Данный скрипт (написанный под Browser Automation Studio) парсит всю левую (максимум 41 страницу) и правую колонки Яндекс.Wordstat сразу с частотностями. Также умеет парсить цифру «Что искали со словом «слово» — XXXXXX показов в месяц». Разгадывать автоматически капчу Яндекса.
Расширенную частотность Яндекс.Wordstat можно собирать через сам КейКоллектор, через Яндекс.Директ в безбраузерном режиме как собрать?.
Смотреть демо видео работы парсера. Разумеется для работы необходимы прокси и Яндекс аккаунты, которые беспрепятственно авторизуются через эти прокси (их можно приобрести у нас). Скорость парсинга 1 страницы вордсата через 1 аккаунт/прокси (поток) составляет около 13 секунд. Что при использовании например 13 аккаунтов/прокси (потоков) скорость парсинга 1 страницы составит около 1 секунды.
Общие правила:
Количество потоков равно количеству аккаунтов/прокси.
Везде задержка между запросами — Нормальный режим.
Яндекс аккаунты необходимо создавать через прокси (например с использованием плагина SimpleProxy или Proxy Switcher and Manager) в режиме Инкогнито (Ctrl + Shift + N), с сохранением привязки аккаунт/прокси для их последующей вставки в КейКоллектор. Яндекс аккаунты регистрируются только с подтверждением по СМС (можно использовать сервис Vak-SMS.com).
————————————————————————————————
ВСЕ ЧТО ОПИСАНО НИЖЕ ВРЕМЕННО НЕ АКТУАЛЬНО!!!
————————————————————————————————
На данный момент 100% работает ВТОРОЙ вариант (браузерный режим). В связи с обменом Яндексом домена yandex.ru со ВКонтакте (13 сентября), данный способ перестал работать!
На данный момент 100% работает ПЕРВЫЙ вариант (безбраузерный режим) с подстановкой кукой fuid01, но только в 2 потока!
Первый вариант — безбраузерный режим (РАБОТАЕТ ТОЛЬКО ДЛЯ 2 ПОТОКОВ)
В настройках Кейколлектора — Yandex — Аккаунты необходимо добавить куку fuid01 от своего любого Яндекс аккаунта.
Что бы ее получить необходимо авторизоваться в любом своем Яндекс аккаунте через Google Chrome. Перейти по ссылке https://wordstat.yandex.ru и ввести любой запрос, далее перейти на https://yandex.ru/internet и поиском по странице (Ctrl+F) найти куку fuid01. Если данной куки нет, попробуйте в другом браузере или на другой машине. Данная кука выдавалась Яндексом через Flash Player, который перестал поддерживаться и был отключен с 2021 года. Т.е. данную куку можно найти в браузере если ОС долго не переустанавливалась и куки не чистились в браузере с 2020 года.
Далее вставить полученную кук в настройки — fuid01=полученная_кука (без пробелов) и перезапустить КейКоллектор.
Второй вариант — браузерный режим с ручным распознаванием капчи Яндекса. (ПЕРЕСТАЛ РАБОТАТЬ с 13 сентября)
Тест при работе в Браузерном режиме 7 июля 2022 года:
https://t.me/KeyCollectorCHAT/18421
https://t.me/KeyCollectorCHAT/18457
Сначала необходимо очистить кэш и куки. И добиться что бы все аккаунты авторизовались (для перезапуска окон браузеров можно парсинг ставить на паузу и запускать снова).
В настройках Кейколлектора — Yandex — Yandex.Wordstat установить Обработчик — браузерный и установить галочку — Использовать режим отладки. Если была прописана кука fuid01, ее необходимо удалить из настроек. Перезапустить Кейколлектор.
Когда появляется ошибка (не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора), это означает что аккаунт залетел на капчу, необходимо в окнах браузеров КейКоллектора вписать в поисковую строку Яндекса любой ВЧ поисковый запрос (например «купить», «продать» и т.д.) и быстро проходить постранично вглубь выдачи, должна появиться капча, которую нужно решить.
Если при переходе до 20 страницы капча не появилась, значит данный акк не под капчей.
После проверки таким способом всех акков и решения капчи на Яндекс аккаунтах, необходимо проект поставить на паузу, и продолжить парсинг.
Со временем, после прохождения вручную капч, аккаунты становятся более трастовыми и капчи появляются реже.
СМОТРЕТЬ ВИДЕО ПРОВОЦИРОВАНИЯ И ПРОХОЖДЕНИЯ КАПЧИ В БРАУЗЕРАХ КЕЙКОЛЛЕКТОРА
FAQ
В: Банит ли Яндекс аккаунты?
О: Яндекс аккаунты не банит. Проблема может быть с прокси. После прохождения вручную новой Яндекс капчи (через браузерный режим) и перезапуска парсинга, ошибка «не удалось распознать формат ответа Яндекс.Wordstat. Выполним повторную попытку сбора» появляется спустя 3 минуты.
В: В чем преимущество заказа аккаунтов у нас?
О: Яндекс аккаунты создаются вручную в браузере через прокси, с которыми будут работать в КейКоллеторе. Они будут сразу проходить проверку (Настройки — Yandex — Аккаунты). Создаются с СМС подтверждение. Выдаются готовые данные в формате КейКоллектора.
В: Могу ли я сам создать такие аккаунты?
О: Да. Используйте при создании в браузере режим Инкогнито. Управлять прокси в Google Chrome удобно через плагин SimpleProxy. СМС можно получить в сервисе vak-sms. Не забывайте сохранять пары прокси — логин аккаунта, пароль аккаунты, номер телефона.
В: После прохождения Яндек капчи и перезапуска парсинга, через пару страниц капча появляется снова
О: Проблема с прокси. Их необходимо заменить.
-
Накапливайте за вашу активность поинты и делайте за них полезные покупки!
Поинты начисляются за создание тем и за посты. Количество набранных поинтов вы можете посмотреть в вашем профиле. Список товаров, доступных для продажи можно увидеть, если перейти в меню по пункту «Магазин». Более подробную информацию можете прочитать в теме «О магазине».
Рекомендуемые сообщения
Ребята, может кто подскажет, в чём может быть проблема? При сборе частотностей с сервиса Яндекс.Ворстат Key Collector пропускает некоторые ключи. При повторной попытке собрать статистику, выдаёт сообщение:
Цитата
В очереди заданий сбора частот Yandex.Wordstat нет фраз для обработки. Проверьте режим сбора данных в «Настройках — Парсинг — Общие». Скорее всего, у Вас выбран режим сбора «для несобранных», и при этом ячейки фразы заполнены для запускаемой статистики. В этом случае можно сменить режим на «для отмеченных» и отметить фразы, либо очистить колонки через кнопку «Очистить» на вкладке «Данные».
Пробовал выставлять режим «для отмеченных» и помечать нужные ключи — не помогло. Для работы использую VPN.
Пример с пропущенными ключами:
Спойлер
Настройки программы:
Спойлер
Спойлер
Спойлер
Спойлер
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Видимо проблема может быть здесь, нужна галочка
-
3
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
У меня тоже бывает такое, и галочка не стоит как указал на скрине @Windakolit
@jazzero просто для этих ключей нулевая частота и все
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
@Windakolit @AnnSeo , спасибо, помогло! Чтобы не плодить темы, может подскажете ещё по одному вопросу. Сбор вышеуказанных частностей стал требовать очень много капчи. Сейчас собираю все частотности с группы, содержащей 217 ключей. Ещё и половины не собрало, а уже распознано 172 капчи (пользуюсь рукапча). Не много ли? Настройки стоят такие же как и на скринах. Думал, может дело в аккаунтах — создал новый и сделал активным только его — проблема так и не решилась.
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Честно говоря я сам с такой проблемой не сталкивался. Обычно 100 капчтей могло вылезти если ключей хотя бы 2 000. Возможно проблемы с задержками в запросах к сервису. Я работаю через 2 прокси в 2 потока, у меня каптчей так много не вылазит
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
2 часа назад, jazzero сказал:
Не много ли?
многовато как то…
хотя по-моему у меня как-то было такое
2 часа назад, jazzero сказал:
Думал, может дело в аккаунтах — создал новый и сделал активным только его — проблема так и не решилась.
тоже вроде бы тогда создала еще новый аккаунт, но активны у меня все
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
-
1
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Я уже года 4 по моему или 3 собираю статистику частотностей через Яндекс Директ по 4 способу, указанному в Кейколлекторе. Как то в голову не пришло, что можно первым способом пользоваться постоянно при сборе частотки, и в этом проблема
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Когда у меня вылезает много каптчи, я приостанавливаю процесс сборки и перезагружаю программу. В некоторых случаях помогает. Работаю в 3 потока с прокси
-
1
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Интересно, а кто где берет качественные прокси для кеу коллектора? У меня постоянно возникает проблема, программа не парсит, вылетает ошибка, если плохие прокси.
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
-
1
Самоуверенность любителей — предмет зависти профессионалов
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
А я в ручную ввожу капчу(раз в 10-20 минут), сворачиваю КК и в фоновом режиме иногда выскакивает капча, пока читаю статьи интернета. За пару часов 6-10 раз ввожу и мне хватает. Но это конечно из-за лени
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
@webuser скорее из-за отсутствия лени. Если бы была лень, то купили бы прокси.
-
1
Самоуверенность любителей — предмет зависти профессионалов
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Цитата
в фоновом режиме иногда выскакивает капча, пока читаю статьи интернета.
Если не пользуюсь прокси, то потом в гугл постоянно вылазит капча, многие говорят, что это из-за парсинга.
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
@fialka если на работе с выделенного ip, то достаточно один раз тыкнуть в капче «я не робот» . Если дома по динамическому ip, то бывает выскакивает капча. Но это очень редко и особо не замечал сильно разницы и не связываю с работой КК и капчёй от него.
П.С. Правда уже давно КК не пользовался, может что-то поменялось
Поделиться сообщением
Ссылка на сообщение
Поделиться на другие сайты
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
активная гиперссылка ссылка на источник обязательна
Key Collector – пожалуй, самое популярное ПО для сбора семантического ядра и проведения семантического анализа. Кей Коллектор – незаменимое орудие в арсенале любого продвинутого маркетолога, рекламщика или SEO-специалиста.
Но некоторое время назад с Key Collector начались проблемы. А точней сказать – не с Key Collector, а Яндекс ужесточил свои правила проверки пользовательских аккаунтов – массовые блокировки аккаунтов, обязательная привязка номера телефона, постоянно появляющаяся капча. Ярче всего эти ужесточения отразились на SEO-специалистах. Совсем недавно огромное количество пользователей программы для парсинга и составления семантики KeyCollector (в том числе и мы) столкнулось с ошибкой “Не удалось распознать формат ответа Яндекс.Wordstat” при парсинге Yandex Wordstat. Проблема связана именно с капчей “Я не робот”, которая появляется при сборе семантики вручную через браузер в Wordstat. Проблему не позволяют решить ни старые аккаунты, ни белые ip-адерса, на тотальное замедление скорости парсинга.
Сначала появляется страница с капчей “Я не робот”, а следом за ней идёт символьная капча – именно этот формат и не удается распознать Ки Коллектору. Если даже на старых аккаунтах она появлется, что говорить о новорегах. Скорее всего у Яндекса вызывает подозрение количество непрерывных запросов за определенный промежуток времени.
Попытавшись сильнее углубиться в проблему, нам таки удалось оживить парсинг Яндекса – об этом и будет статья.
Приостановка парсинга
Самый простой, но тем не менее, вполне рабочий способ – это банальная приостановка парсинга. Мы использовали древние проверенные аккаунты, чистые IP, а ошибка всё равно появлялась. Приостановка парсинга на несколько часов позволяла возобновить парсинг без ошибок также на несколько часов, после чего ошибка повторялась и мы опять приостанавливали парсинг. Остановка парсинга на ночь – позволяла без проблем продолжать парсинг весь следующий день. Понятно, что с такими перерывами и всего одним аккаунтом много не напарсишь, поэтому ниже мы рассмотрим возможность парсинга сразу с нескольких аккаунтов.
В целом, парсинг небольшого числа запросов в ограниченный промежуток времени на старом аккаунте, скорее всего, не вызовет проблем. Но если прогнозируется парсинг на несколько дней – лучше его делать с перерывами.
Если ситуация такая, что аккаунты прогретые, IP белые, но парсинг даже после остановки не запускается – скорее всего, капча появляется уже при логине в аккаунт. Необходимо отдельно заходить в браузере в каждый аккаунт, переходить в Wordstat, где-то по пути вы встретите капчу. Часто помогает просто в поиске Яндекса или Wordstat вбить какой-нибудь запрос и походить по страницам, где-то на 8-10-й странице вы встретите капчу. После её прохождения, перезапускаем парсинг – и он должен начать работать без ошибок (на какое-то время).
Прогретые аккаунты Яндекса
Это, пожалуй, самый верный способ нормально парсить Wordstat. С одним аккаунтом всё понятно, можно банально в него зайти, покликать по ссылкам в Яндексе. Продемонстрировав поведение реального пользователя так или иначе получится запустить парсинг. Если парсить десятки тысяч, а то и миллионы запросов ежедневно, конечно, потребуется много аккаунтов и прокси под них (1 аккаунт – 1 proxy).
В интернете уже стали появляться предложения о продаже готовых связок из уже прогретых аккаунтов и прокси. В целом, это можно назвать решением, пусть и не самым дешёвым. Идём дальше.
Регистрация аккаунтов
Основное, что нам потребуется для быстрого парсинга Wordstat – это много аккаунтов. Стоит сразу отметить, что не нужно создавать корпоративные аккаунты (т.е. почта@ваш-домен.ру). С одной стороны с ними куда меньше проблем: не нужен номер телефона для регистрации, сама процедура регистрации отнимает меньше времени, не страшны блокировки аккаунтов. Но есть одна ключевая проблема – корпоративные аккаунты не позволят парсить Яндекс Директ.
Для того, чтобы была возможность парсить и Яндекс Директ, и Yandex Wordstat – мы будем регистрировать обычные аккаунты Яндекс Почты. В качестве телефона для активации – можно использовать бесплатные виртуальные номера (Google: “номер для приёма СМС”), либо регистрировать аккаунты на один и тот же номер телефона, с последующей его отвязкой в личном кабинете Яндекс (не забудь установить и записать ответ на контрольный вопрос!).
Прогрев аккаунтов
Прогревать аккаунты можно самостоятельно. Наиболее удобный способ для прогрева – установить отдельный браузер Mozilla Firefox (Mozilla Portable) и создать необходимое количество профилей под каждый Яндекс-аккаунт, чтобы Cookies не перемешивались, а также была возможность к каждому профилю добавить свой прокси. Хочешь что-то найти в Яндексе, посмотреть Погоду/Новости/Картинки/Карты – хватит делать это в приватном режиме, заходи на аккаунт для прогрева и смотри. Одна-две недели и мы получаем прекрасный прогретый аккаунт. Тут важно всегда заходить в этот аккаунт с соответствующим прокси.
Яндекс, конечно, сразу видит разные User-agent у KeyCollector и Mozilla, но хотя бы не блокирует аккаунт полностью. Смена IP может вызвать у Яндекса подозрения, тут и нужно быть готовым вспоминать ответ на контрольный вопрос или искать номер телефона, к которому был привязан аккаунт.
Proxy
В интернете есть огромное предложение различных прокси-сервисов. От дешевых shared-proxy за 30 руб./мес. до приватных и мобильных с динамическим ip. Нужно понимать, что shard-proxy может одновременно с тобой использовать неограниченное количество других пользователей. И среди них могут оказаться такие же сеошники, которые сейчас парсят Яндекс, что может приводить к дополнительным капчам или даже блокировкам. Использование приватных прокси при массовом парсинге выходит довольно накладным занятием. Поэтому, при выборе proxy стоит одновременно протестировать прокси от разных провайдеров и выбрать наиболее эффективный вариант. У нас получалось запускать парсинг и на публичных прокси.
Динамические мобильные прокси (быстрое и универсальное решение)
А что если если сотня аккаунтов и не хочется каждый прогревать или заходить в браузере и искать капчу? На текущий момент динамические мобильные прокси – это наиболее эффективный вариант. Такой подход позволяет проводить парсинг без ошибок и приостановок даже на новорегах (непрогретых аккаунтах) в нормальном режиме. В KeyCollector есть отдельная вкладка с настройками cети, где необходимо установить галочку “Использовать прокси-серверы”. IP прокси меняется каждые несколько минут, во время смены периодически можно встретить ошибку “Timeout” (это связано исключительно с качеством сети провайдера). При этом на самих аккаунтах все прочие прокси можно убрать. Не забудьте также убрать галку “Использовать основной IP” при парсинге.
Удовольствие не дешёвое – мобильные прокси, пожалуй, самые дорогие из возможных. Тем не менее, пока что Яндекс довольно лояльно относится к заходам с мобильных ip. Долго ли будет работать такой подход – непонятно. В один прекрасный момент все аккаунты могут пойти в бан. Но пока работает, почему бы не воспользоваться? Это реально самый простой и быстрый способ оживить парсинг на сотнях аккаунтов.
Провайдеров мобильных прокси на рынке хватает, вопрос лишь к качеству их услуг и ценам. Нам повезло с первого раза – воспользовавшись сервисом LTEspace нам удалось сразу же оживить парсинг Key Collector на новых (непрогретых аккаунтах) и вот парсинг идет в несколько потоков без каких-либо ошибок. Настройки тарифа для прокси использовали дефолтные, а ценник составил 650 руб./мес. Возможно, есть более бюджетные варианты. Если удастся их найти и протестировать – обязательно дополним эту статью, так что рекомендуем её сохранить в закладки.
Прочие способы не гарантируют отсутствия капчи.
Подмена Cookies
Если нужно собрать только частотку – помогает парсинг Вордстата, через ЯндексДирект с настроенными куками. Правда, капч там может валиться немереное количество, но они хотя бы автоматически распознаются (например, с помощью сервиса Anti-gate).
Вообще, подмена кук история полезная, но KeyCollector не позволяет задать отдельные наборы кук для разных аккаунтов. Поэтому, подмена кук может работать только при парсинге с использованием одного аккаунта. Простановка куков в аккаунте не гарантирует отсутствие ошибки парсинга, разве что немного увеличивает время до появления капчи.
Браузерный и безбраузерный режимы
В целом, особо на результат не влияет, но в браузерном режиме вы можете увидеть саму капчу и пройти её (например, при логине в аккаунт или переходе на Вордстат). Если увидели капчу, прошли её, а парсинг всё равно выдает ошибку, стоит подождать и перезапустить парсинг через полчаса-час. Как писали выше, капчу можно встретить переходя постранично примерно до 8-10 страницы в поиске.
Режим парсинга
Для новых аккаунтов, естественно, лучше использовать безопасный режим. А вот для прогретых аккаунтов вполне подойдет нормальный. Скорость прямо кардинально не влияет на появление капчи. Разве что вы увидите ошибку чуть быстрее.
Выводы:
Дело вовсе не в обновлении программы, как пишут многие юзеры. Ключевая проблема именно в ужесточении мер проверки аккаунтов Яндексом.
Нам реально помогло оживить старые аккаунты:
- Зайти в старый аккаунт с браузера/включить браузерный режим и пройти капчу;
- Приостанавливать парсинг периодически, или после появления ошибки хотя бы на полчаса-час;
- Дополнительный прогрев старого аккаунта тоже облегчит и значительно увеличит время парсинга до появления капчи.
Новореги/непрогретые аккаунты/большое число аккаунтов:
- Использовать динамические мобильные прокси – пока что этот подход работает (запускается в течение 10 минут).
Послесловие
Каких настроек не хватает, и как KeyCollector мог бы облегчить жизнь своих пользователей:
- вывод в каком-либо виде появляющейся капчи в интерфейс;
- дополнительная настройка автоматического времени парсинга/или времени приостановки для каждого аккаунта;
- разные куки для разных аккаунтов;
- инструмент для подмены user-agent при обращении к Яндексу.
Подписывайтесь на Телеграм: @low_digital
Ошибка такого рода:
Есть разные варианты решения, но не все подойдут именно вам.
Вариант 1: используйте браузерный обработчик. Для этого вам нужно в настройках Yandex переключиться здесь:
После этого программу нужно перезагрузить, чтобы настройки вступили в силу.
Если не помогло, попробуйте вариант 2: добавьте аккаунты Яндекса, которые подтверждены смс, их можно купить с помощью сервиса sms-activate.org.
Если и это не помогло, а у нас было именно так, то используйте вариант 3: парсинг в КейКоллекторе с помощью платного сервиса XMLRiver.
Пошагово:
- Регистрируйтесь на сервисе. Пополняете счет, например, на 100 руб. На момент написания статьи стоимость парсинга 1 000 запросов составляет 20 рублей. Можно парсить дешевле, если купить тариф PRO или Mega.
- Далее, в сервисе в настройках сбора выбираем Wordstat.
Внизу поставьте в настройках для устройств «Все» и нажмите «Сохранить».
3. Идем в Key Collector в Файл — > Настройки — > Модули. В модулях активируем XMLRiver module и сохраняем.
Не закрывая окна поднимаемся к «Платные API», находим XMLRiver и вставляем ссылку из сервиса:
После этого иконка должна появится в поле «Парсинг». Если этого не произошло перезагрузите программу.
4. Делаем настройки в XMLRiver. Кликаем на значок (см. скриншот выше). В отрывшемся окне нажимаем на «Настройки».
Устанавливаем значения для парсинга: 40 или 41. А в графу «Добавлять в таблицу фразы с частотностями» — от 0 до 10000000. Режим сбора: левая колонка. Выбираем регион, добавляем маску и все.
Результат:
Минус этого варианта: нельзя добавить минус-слова перед парсингом. Но можно потом удалить не нужные фразы подсветкой минус-слов.
Всего хорошего!