Открытые данные юридического лица

Открытые данные юридического лица

Что такое открытые данные контрагента

Понятие «открытые данные» (англ. open data) означает, что конкретные сведения доступны для свободного, без ограничений, прочтения, использования и републикации. Систематизированные открытые данные по ИП, организациям, фирмам содержат платные и бесплатные общедоступные электронные сервисы. Платно информацию предоставляют коммерческие сервисы, а бесплатно — государственные. Разница между ними заключается в количестве используемых источников информации, оперативности обработки и предоставления сведений, а также интерфейсе. При помощи электронных сервисов проверяют, выясняют, к примеру:

  • сведения из ЕГРЮЛ, ЕГРИП;
  • недействительные ИНН юридических и физических лиц;
  • наличие, отсутствие лицензий;
  • сведения о предпринимателях, юридических лицах, подававших документы на госрегистрацию;
  • наличие исполнительного производства в отношении контрагента, суммы удержаний по нему;
  • бухгалтерскую отчетность организации за год;
  • адреса массовой регистрации;
  • дисквалификацию конкретного лица, входящего в состав исполнительного органа;
  • недобросовестных поставщиков.

Поиск производится стандартно по ИНН либо другим реквизитам конкретного юридического лица либо предпринимателя.

Информация о Картотека Проверка контрагентов

Коммерсантъ Картотека, Россия

Краткий обзор Картотека Проверка контрагентов

Картотека Проверка контрагентов – это сервис для поиска и анализа информации о юридических лицах, физических лицах и индивидуальных предпринимателях.

Функции Картотека Проверка контрагентов

Подбор клиентов и партнёров

Сведения о лицензиях

Быстрый поиск по наименованию

Отчётность и аналитика

Сведения о руководителе

Быстрый поиск по ИНН и ОГРН

Рейтинги и рэнкинги компаний

Виды экономической деятельности

Анализ санкционных рисков

Описание услуг и продукции

Доска объявлений и рекламы

Анализ судебной истории

Сведения об учредителях и бенефициарах

Управление профилем своей компании

Выписки из реестров

Анализ связей и аффилированности

Сведения о финансовом состоянии

Проверка бухгалтерской отчётности

Сведения о торговых марках и брендах

Сведения о контактах и адресе

Просмотр истории участия в закупках и тендерах

Сведения о сотрудниках

Отзывы о компаниях

Мониторинг изменений компании

Аналоги Картотека Проверка контрагентов

Для быстрого поиска базовых сведений об организации, воспользуйтесь поисковой строкой ниже.

Общедоступный поиск на сайте СПАРКа возможен по названию компании, ее адресу, телефону, сайту или домену, ФИО руководителя или совладельца, а также по следующим реквизитам: ИНН, ОГРН, ОКПО, БИК.

Название компании, адрес, телефон, сайт, домен, ФИО руководителя, совладельца, доверительного управляющего, ИНН, ОГРН, ОКПО, БИК

Для получения доступа к расширенным  возможностям «умного поиска» в системе СПАРК – войдите в систему или получите бесплатный демо-доступ.

Для зарегистрированных пользователей, поиск в СПАРКе возможен по следующим параметрам:

  • Наименование компании
  • ФИО или ИНН руководителя, члена коллегиального органа управления, учредителя (акционера)
  • ФИО ИП
  • ИНН, ОГРН, ОГРНИП, ОКПО, БИК
  • Регистрационные коды других стран (БИН, ЕДРПОУ, УНП) – для поиска иностранных компаний
  • Адреса и телефоны
  • Сайты и зарегистрированные на компанию домены
  • Номера арбитражных дел, исполнительных производств, записей в едином реестре проверок, уведомлений о залоге, извещений о госзакупке, банковских гарантий, сертификатов или деклараций соответствия продукции

Возможна сегментация результатов поиска:

  • по географическому признаку (страны и регионы)
  • по отраслям деятельности
  • по статусу компании (действующие / не действующие)
  • по размеру предприятия (крупные / средние /малые / микро)
  • по наличию судебных дел, объектов интеллектуальной собственности, и т.д.

Пример результатов поиска по фрагменту названия компании:

Открытые данные юридического лица

Пример результатов поиска по руководителю компании:

Открытые данные юридического лица

Поиск по базе «Открытые данные» от ФНС России

Открытые данные юридического лица

Сервис позволяет искать открытые данные по налогоплательщикам, опубликованные ФНС России на официальном сайте.

Информацию можно найти по ИНН налогоплательщика.

В наш инструмент по открытым данным добавлены сведения о суммах недоимки и задолженности по пеням и штрафам и сведения о налоговых правонарушениях и мерах ответственности (общая сумма штрафов) за их совершение, которые образовались до 31 декабря 2017 года, и не были уплачены до 1 октября 2018 года. Именно эти данные и выложила ФНС 1 декабря в соответствии со статьей 102 НК РФ

На данный момент в наш сервис загружены сведения:

  • среднесписочной численности работников организаций (ТОП-100 компаний с наибольшей ССЧ);
  • специальных налоговых режимах;
  • доходах и расходах организаций (ТОП-100 компаний с наибольшей суммой дохода  и ТОП-100 компаний с самой большой суммой разницы между доходами и расходами);
  • суммах уплаченных налогов, сборов и взносов;
  • из Единого реестра субъектов малого и среднего предпринимательства.
  • сведения о суммах недоимки и задолженности по пеням и штрафам
  • сведения о налоговых правонарушениях и мерах ответственности за их совершение

Мы очень старались сделать нашу базу бесплатной и скромно предлагаем посмотреть на форму ниже. А вдруг захотите помочь сделать «Клерк» еще полезнее?

Открытые государственные данные — информация о деятельности государственных органов и органов местного самоуправления, размещенная в сети «Интернет» в виде массивов данных в формате, обеспечивающем их автоматизированную обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и на условиях ее свободного (бесплатного) использования.

Когда дробление необходимо. Особенности для ЕСХН

Несмотря на то, что налоговики с подозрением относятся к дроблению, иногда без него просто не обойтись. Иначе финансовые потери будут больше, чем потери от спора с инспекцией. Особенно это касается тех, кто применяет ЕСХН.

Беспроцентный заем между компаниями

Беспроцентный заем – один из удобных способов перераспределить имущество между своими компаниями. Закон не запрещает выдавать деньги на условиях безвозмездности, однако некоторые категории сделок все же является контролируемыми со стороны налоговой.

Открытые данные юридического лица

Получить код идентификации юридического лица (LEI) очень легко. Просто обратитесь к предпочтительному партнеру из списка организаций, выдающих LEI, который приведен в таблице ниже.

Роль организаций, выдающих коды LEI

Организации, выдающие LEI, которые также называются местными операционными подразделениями (LOU), оказывают услуги по регистрации, продлению и прочие услуги, а также выполняют роль единого окна для обращения юридических лиц, желающих получить код LEI. Выдавать коды LEI могут только те организации, которые были надлежащим образом аккредитованы фондом Global Legal Entity Identifier Foundation (GLEIF).  – это процедура, посредством которой фонд GLEIF оценивает пригодность организаций, которые желают действовать в рамках Глобальной системы LEI в качестве организаций, выдающих LEI.

Получение статуса участника Глобальной системы LEI путем аккредитации специалистами GLEIF означает международное признание необходимого уровня качества данных и обслуживания заказчиков. Фонд GLEIF уделяет большое внимание дальнейшей оптимизации качества, надежности и пригодности к использованию данных LEI, чтобы участники рынка могли извлекать пользу из разнообразных сведений, доступных в этой системе. GLEIF публикует следующие ежемесячные отчеты о качестве данных:

Роль юридического лица, подающего заявку на получение кода LEI

При этом юридическое лицо не обязано обращаться в организацию, выдающую LEI, в своей стране, а может воспользоваться услугами по регистрации любого подразделения LOU, которое аккредитовано и вправе выдавать и проверять коды LEI в своей юрисдикции. В таблице ниже приведены организации, выдающие LEI, которые уполномочены фондом GLEIF предоставлять услуги, связанные с LEI, в определенных юрисдикциях. Уполномоченные организации, выдающие коды LEI, успешно прошли программу аккредитации фонда GLEIF для соответствующих стран, либо только для юридических лиц, не регистрирующих фонды, либо для юридических лиц, не регистрирующих и регистрирующих фонды. Чтобы узнать, какие организации, выдающие коды LEI, предоставляют услуги в конкретной стране для юридических лиц, не являющихся подразделениями фонда, выберите соответствующую страну из раскрывающегося списка в верхней части приведенной ниже таблицы. Чтобы узнать, какие организации, выдающие коды LEI, предоставляют услуги в конкретной стране, в раскрывающемся списке выберите соответствующую страну и установите отметку «Я хочу зарегистрировать фонд».

Открытые данные юридического лица

Код LEI открывает доступ к важной справочной информации, которая позволяет четко и безошибочно идентифицировать юридических лиц, участвующих в финансовых транзакциях. В процессе самостоятельной регистрации юридическое лицо, которое желает получить код LEI, обязано предоставить своей организации, выдающей LEI, точные справочные данные, то есть общедоступную информацию о юридических лицах, которых можно идентифицировать с помощью кода LEI. Справочные данные включают в себя следующие сведения:

  • Основную деловую информацию, например, официальное наименование юридического лица и его адрес регистрации. В Глобальной системе LEI эта информация является данными «Уровня 1». Это дает ответ на вопрос «кто есть кто».
  • Информацию о взаимозависимости, которая при определенных условиях позволяет идентифицировать прямые и головные материнские компании юридического лица. Такая информация является данными «Уровня 2». Она отвечает на вопрос «кто кем владеет».

Организация, выдающая LEI, обязана обратиться в местный (например, в государственный реестр компаний) с целью проверки справочных данных и присвоить код LEI, соответствующий .

Размер платы, взимаемой за выдачу и поддержку кодов LEI, целиком определяется организациями, выдающими LEI, и должен зависеть от фактически понесенных расходов. Глобальная система LEI стимулирует конкуренцию между организациями, выдающими LEI.

Каждый код LEI публикуется в Глобальном указателе LEI. Это единственный общедоступный онлайн-ресурс, который предлагает стандартизированные и тщательно проверенные справочные данные о юридических лицах. С помощью инструмента поиска кодов LEI, разработанного специалистами GLEIF, заинтересованные лица могут выполнить быстрый и удобный поиск по всей базе данных LEI.

Важность своевременного продления кода LEI

Юридическое лицо обязано уведомлять соответствующую организацию, выдающую LEI, обо всех изменениях своих справочных данных. Ежегодная процедура продления позволяет юридическим лицам и организациям, выдающим LEI, повторно проверить и подтвердить правильность справочных данных о юридическом лице как минимум один раз в год. Это обеспечивает высокое качество данных в глобальной базе данных LEI и, соответственно, доверие к Глобальной системе LEI.

Больше проверок:  Иркнм ростехнадзор

Вашему клиенту нужен код LEI? Станьте регистрационным агентом

Чтобы оптимизировать процесс выдачи кодов LEI, фонд GLEIF предложил концепцию . Регистрационный агент облегчает взаимодействие юридических лиц с сетью организаций, выдающих LEI и оказывающих сопутствующие услуги. Регистрационный агент может сотрудничать с одной или несколькими организациями, выдающими LEI, для оказания своим клиентам услуг, связанных с кодами LEI.

Select one or more jurisdictions to filter LEI issuer

I want to register a fund

No LEI Issuers found.
Information displayed according to LEI Issuing Organization’s consent.No Registration Agents available

с классическими сервисами проверки контрагентов
Крупнейший агрегатор данных по компаниям: всё от реквизитов и отчетности, до контактов и кадровых рисков

До следующего обновления

Умный поискПоиск информации во всех разделах сервисаОрганизацииПоиск информации об организацииИндивидуальный предприниматель (ИП)Поиск информации об индивидуальных предпринимателяхСвязи: участие в нескольких ЮЛРуководитель или участник в нескольких юридических лицахАдреса нескольких ЮЛАдреса, указанные при регистрации несколькими юридическими лицамиОграничения участия в ЮЛПоиск лиц, попадающих под условия пп. «ф» пункта 1 статьи 23 Закона о регистрацииИнформация о представленных документахПоиск сведений о ЮЛ и ИП, в отношении которых представлены документы для регистрации

Подробно проверим организацию или ИПУбедитесь в благонадежности контрагента С помощью сервиса вы получите полную информацию о юридическом лице или индивидуальном предпринимателе. Просто укажите в поисковой строке: ИНН, ОГРН, название, Ф.И.О. директора или адрес.
Сводный отчет из десятков источников ФНС, ВАС, Росстат, Единый государственный реестр юридических лиц, государственные закупки, арбитражные дела, служба судебных приставов и десятки других источников информации.

Зачем проверять контрагента Убедитесь, что ваш контрагент не привлечет лишнего внимания налоговой инспекции: проверьте декларацию по НДС Поможем с подготовкой детального отчета для ФНС по статье 54.1НК РФ из десятков источников по контрагенту Получайте push или e-mail уведомления об изменениях в ЕГРЮЛ по вашим контрагентам, партнерам и заказчикам Индекс финансового доверия поможет грамотно оценить риски при сотрудничестве и сфокусироваться на работе с благонадежными партнерами

Источники информации о юридических лицах и ИП Более 18 млн данных, 22 проверенных источника, 19 реестров, собранных в одном сервисе! Мы используем официальные данные, предоставляемые соответствующими государственными органами.

Превращаем большие данные в простые отчеты с помощью ИИ Искусственный интеллект, который обрабатывает и переводит сложные даннные в простой и наглядный язык инфографики, индексов и рейтингов — важное отличие ВБЦ от других сервисов проверки организаций.
Скоринг В основе ВБЦ лежит мощная fintech платформа, которая повторяет скоринг (оценку надежности заемщика) банков, что позволяет собрать наиболее реальное и полное досье.
Отзывы вне Интернета Отзывы о компаниях в интернете кишат “накруткой”, поэтому в оценке мы не ограничиваемся цифровой репутацией, а используем любую доступную информацию, включая оффлайн.
Аффилированность В оценке аффилированности учитываем деятельность людей и компаний буквально с самого рождения, что позволяет находить связи там, где другие их не замечают.
Рыночное окружение Оцениваем ситуацию на рынке, тренды и динамику развития конкурентов, законодательную среду и даже зарубежный опыт в каждой проверке контрагента через сервис ВБЦ.
Индекс финансового доверия Как результат — ИИ превращает бесконечное количество факторов в простой и понятный индекс, который предупредит вас о риске дефолта, лимитах сделки других факторах.

Образец полного отчета по контрагенту Полное досье на контрагента с рекомендациями по снижению финансовых, юридических и бухгалтерских рисков.
Финансовые риски“Умный” алгоритм рассчитает возможные риски от сотрудничества с контрагентомПроверки История проверок “от” и “до” с расчетом вероятности будущих проверок налоговой и другими государственными органами.
Жалобы в ФАС Сведения о лицензиях и виде деятельности Сводные планы проверок прибыль и может порекомендовать снижение
Исполнительные производства Предмет разбирательств и результаты, номера дел с ссылками на производство, а также оценка вероятного исхода активных дел
Присутствие в РНП Проверка присутствия контрагента в реестре недобросовестных поставщиков как в настоящее время, так и в прошлом
И многое другое Бухгалтерская отчетность, репутация, проверка по ИНН в ЕГРЮЛ, лицензии, коды деятельности по ОКВЭД, арбитражи, связи, история участия в Госзаказа и десятки других полезных данных
Помимо прочего, в выписке вы увидите еще более 30 пунктов нужной информации, включая данные, имеющиеся в выписке из ЕГРЮЛ и общую оценку компании с помощью алгоритмов ИИ инейросети.

Отчет, в котором есть все! Вы сможете обезопасить себя от недобросовестных компаний даже не обладая знанием канцелярита, на котором разговаривают ведомства и другие службы. В сервисе ВБЦ важный игрок – искусственный интеллект, который разговаривает на простом языке индексов и рейтингов.
История участия в Госзакупках Даты, сроки, ссылки на тендерную документацию и возможность проверить Заказчика. Виды деятельности Убедитесь, что коды ОКВЭД вашего контрагента соответствуют его фактической деятельности. Уставной капитал и учредители Загляните в закулисье — покажем, кто и в каких долях владеет компанией на самом деле. Общие данные Наименование организации, дата регистрации, статус, реквизиты (ИНН, ОГРН, КПП) руководитель и другие данные из ЕГРЮЛ и ЕГРИП.. Исполнительные производства Ссылка на производство, дата возбуждения, сумма задолженности, предмет исполнения.. Финансовая отчетность Сколько, когда и зачем — расскажем о движении всех финансов в организации. Контакты компании Юридический адрес, номера телефонов и адреса электронной почты, включая личные.. Жалобы в ФАС Полное досье на контрагента с рекомендациями по снижению финансовых, юридических и бухгалтерских рисков.. Арбитражные дела Ссылка на производство, дата возбуждения, сумма задолженности, предмет исполнения..

Ключевые отличия от других бесплатных сервисовГлавная миссия сервисов по проверке контрагентов — улучшение делового климата Достижение это миссии невозможно, если требовать баснословные деньги за доступ. Поэтому мы пошли путём развития доступности данных — как в финансовом плане, так и в плане восприятия информации.
Для нас Всероссийский Бизнес Центр это не просто название, а вектор развития: мы хотим обеспечить бизнес полноценной экосистемой, в которой каждый предприниматель сможет чувствовать себя безопасно, а сделки будут проходить без лишней волокиты и на выгодных условиях для всех сторон.
Бесплатно Мы строим экосистему и зарабатываем не на локальных сервисах, а на их синергии. Безопасность вашего бизнеса не должна монетизироваться. ИИ и нейросетиВ отличие от агрегаторов данных, мы не просто собираем информацию, а обрабатываем ее в понятные отчеты.Приложение TenChatПроверка компаний по ИНН или названию, подблор тендеров, мобильный ЭДО и бизнес-чат в вашем смартфоне.

Находите клиентов или партнеровУдобный поиск Например, вы — субъект МСП. У вас небольшое производство и нужны новые поставщики. Вместо поиска в интернете, вы можете указать регион поиска, вид деятельности и с ходу выбрать надежного партнера. РепутацияКонтакты Иногда получение лучших условий требует прямой связи с руководством. Не тратьте время на поиски — у нас вы найдете более 10 млн контактных данных, включая личные. События

Лента активностиСегодня добавили на мониторинг 34 компании.

Организации по регионамНаходите новых партнеров или исследуйте рынок С помощью нашего сервиса вы сможете самостоятельно оценить конкурентную среду, найти новых клиентов или поставщиков. Просто укажите необходимые коды деятельности ОКВЭД и выберите регион. Остальное система сделает за вас!
10 958 74815 175 244

Наш сервис рекомендуют

Часто задаваемые вопросы

Найти организацию по виду деятельности ОКВЭД 2 Найти предпринимателя по алфавитному указателю Найти физическое лицо по алфавитному указателю Найти ПАО по алфавитному указателю Найти АО по алфавитному указателю Найти OOО по алфавитному указателю Найти организацию по виду деятельности ОКВЭД 2 Новости Новое в ВБЦ Статьи Мероприятия СМИ о нас Новости рынка Маркетплейс ВБЦ – лидер роста среди финансовых маркетплейсов России В общем рейтинге fintech-компаний по скорости роста ВБЦ занял 3 место Смотреть все новости

Вам всегда поможет персональный менеджер Подайте заявку, и мы с Вами свяжемся Перезвоним в течении 15 минут

Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Точка делает мир удобным для бизнеса. Наша главная цель — создавать качественный сервис, вызывающий уважение и преданность предпринимателей на долгие годы. Чтобы быть эффективнее и привлекательнее для клиентов, Точка использует большое количество внешних и внутренних данных.

Мы используем внешние данные как источник знаний о мире и себе в этом мире. Это могут быть как данные, полученные от партнеров, так и открытые данные из внешних источников. О последних и пойдет речь.

Концепция открытых данных подразумевает, что определенные данные должны быть свободно доступны для использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Открытые данные могут публиковаться различными источниками. Наибольший массив данных формируется государственными органами и службами:

  • Федеральная налоговая служба России (ЕГРЮЛ и ЕГРИП, специальные реестры, сведения о блокировках счетов, информационный ресурс бухгалтерской отчетности).
  • Федеральное казначейство (закупки).
  • Министерство экономического развития (Федресурс).
  • Верховный суд РФ (арбитражные дела).
  • Федеральная служба судебных приставов России (исполнительные производства).
Больше проверок:  Генеральная прокуратура фгис единый реестр проверок

Давайте представим, что нам удалось справиться со всеми трудностями по затягиванию данных, не уронить ни одного сайта (но это не точно) и победить тонны врагов. Теперь в нашем хранилище есть стабильные и обновляемые наборы данных. Победа? Ну почти. Осталось их только связать между собой.

Почему данные не хотят дружить между собой

Сами данные может и хотят, а вот их составители обычно отвечают только за свой набор данных. А что будет с датасетами дальше, уже редко кого интересует. Возьмем, например, данные Федеральной службы судебных приставов (ФССП). Данные содержат информацию об исполнительном производстве, предмете исполнения, сумму непогашенной задолженности, контактные данные судебного пристава-исполнителя и т.д. Казалось бы, чего еще можно пожелать? Так вот, по должнику мы имеем только название компании и ее адрес. Ни идентификационного номера налогоплательщика (ИНН), ни основного государственного регистрационного номера (ОГРН), по которым было бы легко связывать эти данные с данными из других источников и реестров — нет.

Связать данные ФССП напрямую только по названию юридического лица и/или адресу проблематично. Во-первых, в некоторых реестрах может быть указан только ИНН/ОГРН, а названия может и не быть. Во-вторых, названия компаний далеко не уникальны. Например, топ-5 названий обществ с ограниченной ответственностью в ЕГРЮЛ на момент написания статьи выглядел следующим образом:

Топ-5 названий компаний по встречаемости в ЕГРЮЛ

В-третьих, названия юридических лиц можно записывать по-разному: кто-то ставит кавычки, кто-то — нет, где-то форма ведения бизнеса записана полностью, где-то — сокращенно и т.д. В-четвертых, информация об адресе может быть устаревшей; в реестрах могут быть разные адреса: в одном — регистрации, в другом — фактический. В-пятых, даже немного поработав с открытыми данными, можно с уверенностью сказать, что есть десятки различных способов записать один и тот же адрес компании по-разному. Надеюсь, мысль понятна и дальше можно не продолжать.

В общем, чтобы успешно связывать данные ФССП с другими источниками, нам нужны ИНН и ОГРН. Их мы и решили подтянуть из ЕГРЮЛ, проделав следующие шаги:

  • Формирование датасета для обучения нейронной сети.
  • Обучение нейронной сети.
  • Деплой модели в продакшн.

Подробнее, как мы это сделали, расскажем ниже.

Подготовка данных

Сперва перечислим данные, которые мы будем использовать:

  • данные ФССП с fssp.gov.ru без ИНН и ОГРН;
  • размеченный историчный набор данных ФССП с уже подставленными ИНН и ОГРН;
  • данные ЕГРЮЛ с ИНН и ОГРН.

Из всего массива данных нам понадобится информация о названии компании, ее адресе, ИНН и ОГРН. Подготовка данных заключалась в нормализации адресов и названий компаний из различных источников: и в ФССП, и в ЕГРЮЛ адреса и названия должны быть написаны одинаково. Тут все стандартно:

  • убираем пунктуацию, пробелы в начале и конце строк, а также скрытые символы, знаки табуляции, переноса строк и т.д.
  • унифицируем сокращения организационно-правовых форм с помощью найденной в интернете Инструкции Госкомстата
  • переставляем сокращения в начало названий
  • получаем устраивающий нас вариант для названий юридических лиц:

Пример унификации названий компании из ЕГРЮЛ и ФССП

Аналогичные преобразования были проделаны и с адресами компаний. Дополнительная сложность в работе с адресами заключалась в том, что иногда в адресе отсутствовала информация о регионе или населенном пункте. В таком случае эту информацию нам удавалось вытаскивать из почтового индекса и заполнять ей обнаруженные пробелы:

Пример унификации адресов компаний из ЕГРЮЛ и ФССП

Имея подготовленные и унифицированные адреса и названия компаний, мы можем собрать конкатенации названий компаний и их адресов из ФССП и такие же — из ЕГРЮЛ. Далее — следующий этап нашего проекта.

Формирование датасета для обучения нейронной сети

Теперь мы будем сравнивать конкатенации из набора данных ФССП с конкатенациями из ЕГРЮЛ и находить для каждой из них случайную конкатенацию из ста наиболее близких по матрице векторов.

Как упоминалось выше, у нас уже есть размеченный набор данных, по которым мы можем собрать позитивные примеры матчинга ФССП и ЕГРЮЛ. Однако, чтобы наша нейросеть быстрее обучалась и в то же самое время слишком не переобучилась на тренировочных данных, нам необходимо не только «хвалить» ее на верно найденных совпадениях, но и иметь данные, по которым мы будем накладывать «штрафы». На роль таких данных как раз и подойдет случайное значение из ста ближайших по матрице векторов. Однако, это значение не является правильным ответом. То есть похожее, но не совсем. Например, улица в адресе совпадет, благо улица Ленина есть практически во всех населенных пунктах нашей страны, а номер дома, название города и номер региона — нет.

Конечно, можно было бы брать не случайный из ста похожих, а просто случайный негативный пример. Но тогда задача, которую решает наша нейронная сеть, будет слишком простой. Однако, когда мы начнем применять её в реальных задачах, мы поймём, что такая постановка не делает нашу нейросеть полезной.

Теперь немного об инструментах. Для построения матрицы векторов будем использовать TfidfVectorizer, а для нахождения случайных похожих пар — библиотеку faiss.

TF-IDF (Term Frequency — Inverse Document Frequency) — показывает какой вес имеет то или иное слово для данного текста, в то же самое время принимая во внимание, как редко данное слово встречается во всем наборе рассматриваемых текстов (документов).

Расшифруем составляющие формулы:

  • tf — как часто слово появляется в тексте;
  • N — общее число текстов в наборе/коллекции текстов;
  • df — число текстов, содержащих слово;
  • log — используют, чтобы убрать доминанту idf из формулы, т.к. без логарифма idf будет иметь слишком большой вес по сравнению с tf.

А теперь пример:

Слово «мир» встречается в тексте из 100 слов 3 раза, значит tf = 3/100 = 0.03. В нашем наборе 10000 текстов, «мир» есть в 10 из них — idf = log(10000/10) = 3. Следовательно, tf-idf = 0.03 x 3 = 0.09.

TfidfVectorizer библиотеки scikit-learn подсчитывает tf-idf для каждого из слов в тексте и на выходе выдает массив векторов значений tf-idf.

После проведения векторизации будем искать случайные похожие пары для конкатенаций названий компаний и их адресов из набора ФССП в наборе ЕГРЮЛ. Если набор данных относительно небольшой, то для этой цели можно использовать стандартный модуль KDTree из той же scikit-learn. Однако, в нашем случае KDTree не позволил получить требуемый результат за вменяемое количество времени, поэтому нам пришлось обратиться к библиотеке faiss.

Faiss — это библиотека, которая позволяет искать ближайших соседей и кластеризовать данные в векторном пространстве. Со слов разработчиков, faiss может эффективно работать с наборами в миллиарды строк.

Библиотека написана на C++, а ее использование идет через Python и работу с Numpy arrays. Высокая скорость работы достигается за счет индексации векторов, а затем — использования диаграмм Вороного для кластеризации.

Внутри одного кластера все точки находятся ближе к центру именно этого кластера (центроида), а не другого. Таким образом, при поиске ближайшего вектора нам не надо пробегаться по всему набору векторов: достаточно сравнить его с имеющимися центроидами и затем искать уже внутри кластера с ближайшим центроидом. Если результаты поиска недостаточно точны, то мы просто увеличиваем количество кластеров, в которых будем искать в окрестностях найденного центроида. Также мы можем добиться ускорения алгоритма поиска за счет сжатия самих векторов с помощью Product Quantization (подробнее здесь). Прирост в производительности можно получить и за счет перехода от использования CPU на GPU. Faiss позволяет это сделать без каких-либо проблем.

В результате, после применения TfidfVectorizer и faiss мы имеем негативные примеры матчинга данных ЕГРЮЛ и ФССП, когда конкатенации адресов и названий компаний из разных источников похожи, но не совпадают. Из позитивных и негативных примеров матчинга мы и получаем итоговый датасет, на котором будем тренировать нашу нейронную сеть.

Обучение нейронной сети

Итак, у нас есть датасет, и мы хотим научить нейронную сеть различать одинаковые пары от разных пар конкатенаций из адресов и наименований компаний. Данная задача называется Semantic Textual Similarity (STS) и решается обычно через Metric Learning. Фактически, мы хотим научить нейросеть так векторизовать наши конкатенации адресов и названий, чтобы одинаковые в семантическом смысле примеры имели одинаковое или очень близкое с точки зрения какой-либо метрики векторное представление. В качестве метрики возьмем косинусное расстояние и будем оптимизировать его в ходе обучения.

Для начала мы взяли предобученную модель rubert-base-cased-sentence c Hugging Face. Это 12-слойный RuBERT-трансформер, дообученный на нескольких больших русскоязычных датасетах. Используя эту модель и библиотеку Sentence-Transformers, мы сходу получили точность предсказаний на валидационном датасете порядка 77%. Для начала неплохо. Но не зря же мы готовили данные на предыдущем этапе?

Функция потерь по ходу обучения

Больше проверок:  Мораторий на проверки бизнеса в 2024 году

Деплой модели в продакшн

Теперь, когда нам нужно восстановить ИНН для компании из датасета ФССП, мы формируем вектор от преобразованной конкатенации адреса и названия компании. А дальше берем и из всех полученных таким же образом векторов из ЕГРЮЛ ищем самый близкий с точки зрения косинусного расстояния. Звучит достаточно просто, не так ли?

Но в этом всём есть одна большая проблема: на момент написания статьи в ЕГРЮЛ было зарегистрировано несколько миллионов компаний — считать косинусное расстояние между вектором компании из ФССП и всеми векторами из ЕГРЮЛ в лоб непозволительно долго. Мы, конечно, можем вернуться к KDTree или faiss, но в этих подходах в проде тоже есть определенные проблемы: нам нужно держать построенные индексы библиотек в оперативной памяти, а это десятки гигабайт.

Тут нам на помощь приходит замечательное расширение для Postgres — pgvector. Работает он, конечно, медленнее, чем faiss, но, тем не менее, достаточно быстро для наших целей. Также он позволяет держать подсчитанные для компаний из ЕГРЮЛ вектора в БД, а не в оперативной памяти.

Итак, теперь у нас точно есть всё для нашего матчера компаний из открытых источников. Он состоит из двух компонентов:

  • Джоба, которая проверяет в ЕГРЮЛ наличие новых компаний или компаний с изменениями в названии/адресе. Если такие имеются, то для них нейросетью формируются вектора, которые складываются в нашу БД.
  • Джоба, которая проверяет наличие компаний без указанного ИНН в датасетах ФССП. Для каждой такой компании формируем нейросетью вектор, при помощи pgvector находим ближайший вектор из ЕГРЮЛ и получаем соответствующий ему ИНН.

Всё это заворачиваем в Docker и выкатываем в наш общий кластер Kubernetes. Победа!

Заключение

Мы приложили немного усилий, и нам удалось подружить два открытых набора данных между собой. Зачем? Ну например, теперь у нас появилась возможность добавить данные ФССП в модель кредитного скоринга: так ее точность улучшится, а наша эффективность повысится. Это далеко не единственное применение открытым данным в процессах и продуктах Точки. Но это уже тема для других статей. Так что stay tuned!

Upd. Пока мы писали статью, ФССП частично добавила ИНН должников в предоставляемый набор данных. Трудно в это поверить, но это так! Расстроились ли мы, что наша модель потеряла некоторую актуальность? Нисколечко! Ведь изложенный выше подход можно использовать для любого источника данных, в котором отсутствуют данные ИНН/ОГРН. И к сожалению, таких данных по-прежнему хватает.

Сервис быстрой
проверки физических лиц

Проверка Граждан РФ по открытым базам данных: МВД, ФМС, ФНС, ФССП, ГИС ГМП, ФНП, ЕФРСБ, ГИБДД и других государственных органов.
Отчет о проверке формируется автоматически, достаточно заполнить форму.

Добавление информации
о Вашей компании на портале
ЗАЧЕСТНЫЙБИЗНЕС

Открытые данные юридического лица

Повысит уровень
доверия, увеличит надежность
и открытость Вашей организации
в глазах Ваших Контрагентов, Партнеров и Клиентов. Вы получите
преимущество перед своими Конкурентами

Позволит Вам дополнить
персональную страницу Вашей
организации нужной Вам
информацией, получить статус
партнер портала ЗАЧЕСТНЫЙБИЗНЕС

Для новых юридических лиц и ИП –
прекрасная возможность, не создавая
сайт, заявить о себе и своей
деятельности. Для многих компаний
послужит стартовой рекламной
площадкой с минимальным бюджетом

Актуальная информация из официальных источников
обо всех организациях РФ в Вашей информационной
системе / Вашем программном обеспечении.

С помощью API Вы можете интегрировать информацию
об организациях РФ и другие сервисы портала в любое
программное обеспечение (1С, СRM, SAP, Сайт и т.д.)
и максимально автоматизировать свою работу:

Полная информация об организациях РФ

Проявление “Должной осмотрительности”

Реквизиты без ошибок

Базы данных с контактами

Изменения в организациях

Открытые данные юридического лица

На портале ЗАЧЕСТНЫЙБИЗНЕС каждый Пользователь может бесплатно проверить контрагента и получить о нем полную информацию, собранную из официальных открытых источников (ЕГРЮЛ, ЕГРИП, БОО, Арбитражный Суд, ФССП). Данная информация необходима для принятия правильных решений при выборе поставщика товаров или услуг, а также при других ситуациях, когда необходимо получить достоверные данные о юридических лицах или индивидуальных предпринимателях, зарегистрированных в России.

Через поисковую строку, можно найти контрагента по ИНН (юридического или физического лица), по адресу компании, по ФИО руководителя или учредителя, по ОГРН (для юридических лиц), по ОГРНИП (для индивидуальных предпринимателей). Получив карточку организации, можно ознакомиться с контактными данными, бухгалтерской отчетностью компаний – данная отчетность является одним из важных показателей при проверке компании на благонадежность, а можно проверить на участие в Арбитражных делах, что в свою очередь так же является важным пунктом проверки Контрагента. Подробнее, как проверять контрагентов, представлено на портале в разделе Проверка Контрагента.

Для удобства на портале реализована уникальная возможность ДОБАВИТЬ ДАННЫЕ, это позволяет представителю организации дополнить ПЕРСОНАЛЬНУЮ СТРАНИЦУ своей компании контактной информацией, описанием деятельности и многим другим. Все это поможет выгодно отличиться от конкурентов и показать открытость организации. При использовании этой опции присваивается статус ПАРТНЕР портала ЗАЧЕСТНЫЙБИЗНЕС. Пользователи также могут оставить Отзыв о работе компании.

Вся информация, представленная на портале полностью законна, открыта для использования
согласно пункту 1 статьи 6 ФЗ от 08 августа 01 года №129 «О государственной регистрации
юридических лиц и индивидуальных предпринимателей» и не содержит персональных данных.

Поиск по организациям
и индивидуальным предпринимателям

Поиск по Дате присвоения ОГРН / ОГРНИПЮридического лица или Индивидуального Предпринимателя

Каталог физ.лиц по алфавиту

Открытые данные юридического лица

Открытые данные юридического лица

Открытые данные юридического лица

Открытые данные юридического лица

Открытые данные юридического лица

Открытые данные юридического лица

Торгово-Промышленная палата РФ

Для чего необходима открытая информация

Основная задача такого раскрытия данных состоит в обеспечении к ним доступа всех заинтересованных лиц. Например, журналистов, разработчиков сервисов, а также тех, кто занимается бизнесом и собирается проверить контрагентов. На основе полученных в открытом доступе сведений проводят научные исследования, занимаются аналитикой, разрабатывают приложения.

Бизнес-сотрудничество, партнерство связано с рисками, обусловленными финансовой нестабильностью контрагентов. Чтобы исключить эти и иные риски в работе с ними, можно проверить и оценить правоспособность каждого контрагента, его текущее положение финансов по общедоступной открытой информации о компании, ИП, предприятии. Комплексная открытая информация о юридических лицах и других партнерах, полученная таким способом, исключает сотрудничество с сомнительными, ненадежными контрагентами.

Всероссийская
система проверки
контрагентов

Самый популярный портал о бизнесе в РФ*
Награжден Правительством РФ.
Актуальные, официальные и открытые данные, аналитика и отчеты.

Получить информацию об организации, Индекс, реквизиты, руководителя, учредителей, лицензии.

Проверить связи, аффилированность, филиалы и представительства, “массовость” руководителя и адреса, историю изменений.

Проверить судебные дела, исполнительные производства, штрафы и недоимки, недостоверность сведений.

Получить краткий финансовый анализ, отчетность компаний, Госконтракты, товарные знаки и другую информацию.

Получить полную
информацию
об организации

Оценить надежность и риски,
проявить Должную осмотрительность

Получить полную
финансовую отчетность и ее анализ

Получить выписку
ЕГРЮЛ/ ЕГРИП с ЭЦП ФНС

Узнать контакты, email,
сайт и телефон

Узнать среднемесячную зарплату
и ФОТ

Проверить Физическое лицо
(руководителя, учредителя)

Проверить блокировку счетов,
обеспечительные меры, банкротство

Как получить открытые данные из официальных источников по организации или ИП

На портале innproverka.ru публикуются и обновляются «Открытые данные» по налогоплательщикам. Информацию получают из официальных источников, ее разрешено извлекать, перерабатывать, публиковать. Используется она без ограничений. Здесь бесплатно можно выяснить:

  • доходы и расходы организации, ИП;
  • сведения по перечисленным налогам;
  • наличие налоговых правонарушений;
  • санкции, примененные по нарушениям;
  • размеры недоимок, информацию по долгам, пеням, штрафам.

На портале предоставляется электронная выписка из ЕГРЮЛ, ЕГРИП о контрагенте по ИНН, ОГРН, ОГРНИП, наименованию юридического лица либо по инициалам и фамилии предпринимателя. Она подтверждает факт государственной регистрации, правоспособность конкретного лица, содержит следующую информацию:

  • по линии ЕГРЮЛ о юрлице: название, юрадрес, способ, время создания, организационно-правовая форма, учредители, размер УК, виды деятельности, лицензия и др.;
  • по линии ЕГРИП об ИП: ФИО, сведения о рождении, прописке, госрегистрации, счетах, лицензиях.

Помимо ФНС, данные организаций в открытом доступе посредством электронных сервисов бесплатно предоставляет:

Наличие лицензий проверяют через сервисы тех государственных органов, которые их выдавали. Например, Рособрнадзор: лицензия на ведение образовательной деятельности, МЧС: по пожарной безопасности.

Откуда берется информация о компаниях в открытом доступе

Открытые данные ИП, компаний, организаций, иными словами, контрагентов — это сведения, которые собирают, создают, документируют в пределах полномочий государственные органы. К таким данным относят также размещаемую в Интернете в машиночитаемом формате (CSV, ODS, JSON, XML, проч.) информацию об организациях, которые лично участвуют в публикации собственных открытых данных на территории России.

Коммерческие сервисы собирают, систематизируют информацию из бесплатных доступных источников. Создавая таким путем собственные базы данных, сервисы предлагают их для общедоступного использования как коммерческий продукт. Это достоверная информация, которая предоставляется коммерческими электронными сервисами платно. Они востребованы теми, кто не знает, где бесплатно можно найти открытые данные компаний, предприятий, ИП.