Росстат подробно исследует кассовые чеки россиян
Федеральная служба статистики планирует брать данные из крупнейших онлайн-порталов, торговых сетей и сотовых операторов
20 октября отмечается Всемирный день статистики. Накануне этой даты «Парламентская газета» выяснила, что для расчёта индекса потребительских цен Росстат будет использовать данные контрольно-кассовой техники, а структурировать информацию из чеков ведомство намеревается с помощью технологий машинного обучения. По итогам этого проекта будет принято решение о том, чтобы использовать в расчётах также большие данные (big data). О том, какую службу может сослужить Росстату искусственный интеллект, в интервью нашему изданию рассказал руководитель федеральной службы Павел Малков.
- В этом году начался эксперимент по расчёту индекса потребительских цен с помощью контрольно-кассовой техники. Почему вы хотите изменить методику сбора данных, как это изменит результаты расчётов?
- Росстат не меняет методологию расчёта индекса потребительских цен. Мы расширяем число источников данных. На первом этапе анализируем международную практику, разрабатываем концепцию использования данных контрольно-кассовой техники и формируем алгоритмы работы с ними.
До конца года начнутся ещё два этапа. Во-первых, разработка специализированного программного обеспечения с использованием технологий машинного обучения для классификации и структурирования информации из кассовых чеков. Во-вторых, для работы с новыми данными будет адаптироваться действующее программное обеспечение, используемое для расчёта индекса потребительских цен.
Цены на более чем пятьсот товарных позиций фиксируются в более чем 76 тысячах торговых точках в 282 городах
Важный вопрос: что это даёт нам. Росстат достаточно оперативно рассчитывает данные по инфляции, мы представляем цифры не позднее 4-6 дней после окончания месяца. Цены на более чем пятьсот товарных позиций фиксируются в более чем 76 тысячах торговых точках в 282 городах. Это масштабное и дорогое исследование.Использование контрольно-кассовой техники позволит ещё больше повысить точность и оперативность, увеличить глубину сбора данных. Мы сможем работать со сведениями из гораздо большего числа магазинов и организаций. Возможно расширение числа товаров и услуг, отслеживаемых в еженедельном или в ежемесячном режиме.
Сначала использование ККТ будет дополнять существующие инструменты сбора данных. Вопрос о постепенном переходе на большие данные можно будет обсуждать после оценки первых результатов проекта.
- У нас вся страна постепенно обживается в цифровой реальности, этому посвящён отдельный нацпроект. Как может помочь искусственный интеллект и электронные технологии в работе вашей службы? Когда-нибудь робот заменит статистика?
- Вспоминается песня из фильма про приключения Электроника: «До чего дошёл прогресс, труд физический исчез. Да и умственный заменит механический процесс». Мол, в будущем будут вкалывать роботы, а не человек.
Давно идёт дискуссия, когда роботы заменят живых людей у станков и прилавков, в работе с клиентами и при решении научных задач. Очевидно, что многие простые и рутинные задачи могут быть переданы компьютерам. Однако творческие вызовы, связанные с построением гипотез, разработкой методологии исследований, анализом результатов расчётов по-прежнему остаются территорией людей-профессионалов, обладающих опытом, образованием и аналитическими способностями. Специалисты могут использовать нейронные сети, искусственный интеллект, любые другие современные методы и инструменты. Но рождение идеи по-прежнему остаётся конкурентным преимуществом человека.
Росстат превращается в цифровую фабрику. Мы работаем с огромными массивами статистической отчётности и формируем базы данных, в которых показатели представлены в самых разных временных, отраслевых и региональных разрезах.
Вся текущая работа Росстата связана с использованием цифровых коммуникаций. Мы обмениваемся данными с коллегами через онлайн-каналы, размещаем информацию на сайте Росстата. Одновременно продолжаем изучать новые возможности использования «цифры», в том числе новые источники — информационные системы других ведомств, данные сотовых операторов, крупнейших онлайн-порталов и агрегаторов, крупных торговых сетей и другие источники больших данных.
- Что, по-вашему, сложнее считать? Есть ли какие-то сферы, в которых составить релевантные статистические данные попросту невозможно, а те, кто это делает, — заведомо манипулирует обществом?
- Каждая наша публикация — это сложные расчёты. В каждом направлении статистической науки есть свои особенности. К числу наиболее трудоёмких направлений я бы отнёс макроэкономическую статистику, а также расчёт доходов и расходов населения. Например, при формировании ВВП используется огромное количество источников, включая данные других министерств и ведомств, расчёт осуществляется по сложному международному стандарту СНС 2008.
Есть ли манипуляции с данными со стороны внешних экспертов? Я бы не стал говорить про намеренные искажения данных. Чаще всего эксперты работают с «цифрами» Росстата, интерпретируя их в соответствии со своим знанием методологии, пониманием алгоритмов расчёта и экономической ситуации в стране.
- Как эпидемия коронавируса сказалась на работе вашей службы? Росстат стал собирать больше информации о здоровье населения, положении бизнеса и всех отраслей экономики — как она используется? Продолжите собирать их дальше или это временно?
- Росстат столкнулся с теми же вызовами, что и многие другие ведомства. Наши сотрудники тоже болеют, часть персонала территориальных органов и центрального аппарата Росстата переведена на работу из дома. В отдельные моменты времени на рабочих местах находилось менее 50 процентов персонала.
При этом объём собираемой информации действительно увеличился. Например, с 64 до 100 увеличилось число товаров и услуг, которые мы отслеживаем в еженедельном режиме для оценки уровня инфляции. Серьёзным вызовом также стало формирование статистики по смертности от новой коронавирусной инфекции.
Правительство поставило перед нами ряд новых задач, связанных с оценкой экономики, социальной и демографической ситуации в стране. Для экспертов и исследователей, журналистов и бизнес-аналитиков мы начали готовить дополнительные материалы, имеющие дополнительную аналитическую ценность.
Отдельно хочу поблагодарить наших респондентов. Абсолютное большинство организаций даже в самое сложное время представляло отчётность без сбоев. Многие из тех, кто имел право на отсрочку предоставления данных, продолжили направлять нам первичную статистическую отчётность в соответствии с графиком. Это позволило формировать качественную статистику даже в самый сложный период во время карантинных ограничений.
- 1 октября должна была стартовать Всероссийская перепись населения, но из-за эпидемии её было решено перенести на апрель следующего года. Как эта вынужденная пауза сказалась на подготовке? Возможно, у вас были какие-то идеи, которые не успевали реализовать, а теперь появилась возможность всё тщательно подготовить?
- Перенос сроков переписи позволил нам ещё раз проверить готовность всей инфраструктуры, прежде всего IT-систем. Кроме того, мы смогли насытить дополнительным функционалом специализированную информационную систему «Население». В дальнейшем эта система позволит всем желающим — от студентов и исследователей до маркетологов и представителей органов власти — работать с собранными микроданными, анализировать их, делать выводы и принимать решения.
Дополнительное время позволит уделить больше внимания информационно-разъяснительной кампании. Мы хотим рассказать про перепись максимальному числу людей: как можно принять в ней участие и для чего используются полученные результаты.
- Вы называете следующую перепись «первой цифровой». Понятно, что сейчас мы на некоем переходном этапе, тем более доступ к цифровым сервисам есть ещё не у всех. А если помечтать, а лучше поставить цель на перспективу: как вы представляете себе перепись будущего?
- Сейчас сложно представить, как изменится мир за следующие десять лет. Уже сейчас, при подготовке к очередному раунду переписей, большинство стран серьёзно изменили подходы к сбору данных. Возможно, в 2030 году переписей в привычном их виде уже не останется, а информация будет собираться с помощью реестров и административных баз данных.
Росстат изучал и сравнивал технологии, которые использовались в Европе в ходе переписей прошлого десятилетия, и уже озвученные планы этих же стран на следующие десять лет. Мы видим, что почти в пять раз — с 8 до 38 стран — увеличилось число государств, которые планируют использовать интернет-опросы и онлайн-заполнение переписных листов. В три раза — с 15 до 45 — увеличилось число стран, которые заявили о готовности использовать электронные планшеты. Девять стран заявили о готовности использовать большие данные. В предшествующее десятилетие с этим типом данных не работала ни одна страна.
При проведении Всероссийской переписи населения будут использоваться все лучшие наработки, в том числе электронные планшеты для переписчиков, перепись через Интернет, анализ больших данных и многое другое. Сегодня перед Росстатом стоит задача максимально эффективно использовать потенциал всех этих инструментов.
Мы рассчитываем, что наши сограждане будут готовы к самостоятельному заполнению переписных листов на портале «Госуслуги». Исследования показывают, что люди самых разных возрастов позитивно относятся к проведению переписи онлайн.
- В последнее время мы стали сталкиваться с проблемой утечки персональных данных. Существует ли такая проблема при переходе на цифровые форматы переписи?
- Нет, такой проблемы не существует. Как минимум потому, что во время переписи мы работаем с деперсонифицированными данными.
Конечно, переход на цифровые форматы породил много новых вопросов, в том числе в части защиты персональных данных. Мы анализировали риски при подготовке к переписи. У жителей страны будет возможность выбрать наиболее комфортный для них способ участия, например, через портал «Госуслуги». При этом процедура заполнения и передачи переписного листа построена таким образом, что персональные данные человека не попадают в Росстат.
В рамках других исследований Росстата также проводится серьёзная работа по защите от попыток кражи данных.
- Если сравнивать вашу работу с зарубежными коллегами: на каком уровне находится Росстат? У каких стран точнее и полнее данные о жизни страны, какой опыт стоит взять на вооружение?
- Росстат является полноправным членом мирового статистического сообщества. Мы входим во все ведущие международные организации и участвуем в международных проектах. Среди наших партнёров — Статистическая комиссия ООН, Всемирный банк, Международный статистический институт и многие другие.
Вместе с Всемирным банком мы создаём Международный центр статистической экспертизы «Центростат». Совместно с Фондом ООН в области народонаселения уже реализовали программу по содействию сбору данных, анализу и доказательной политике на территории СНГ.
Продолжаем укреплять отношения с коллегами из статистических служб СНГ и Центральной Азии, в том числе и благодаря участию в программе фонда ООН.
Участвуя в международных семинарах и конференциях, я вижу, что Росстат и российская статистика пользуются высоким авторитетом среди коллег по цеху. Это связано с тем, что мы очень активно анализируем все современные тенденции, изучаем лучшие практики, используем международную методологию.
По некоторым направлениям мы уже в числе лидеров. Однако впереди ещё много работы для достижения целей, заявленных в Стратегии развития Росстата до 2024 года. В том числе и в рамках международного сотрудничества.
Оценивать себя относительно коллег было бы некорректно. А вот учиться у лучших — надо обязательно. Росстат выделил для себя страны, уровень статистики в которых является для нас ориентиром для собственного развития. Среди них, например, страны Скандинавии. Так, коллеги из Дании активно работают с административными источниками, используют большие данные и электронный сбор отчётности. В Нидерландах накоплен интересный опыт по объяснению статистической методологии простым языком широкому кругу пользователей. Интересные проекты в области статистической грамотности реализованы в Австралии, Португалии и Испании. Можно отметить работу коллег из Канады и Австралии по эффективной организации процессов сбора и анализа данных. Очень полезным стало наше общение со Статистическим управлением Сербии — мы подписали соглашение о сотрудничестве и наметили ряд совместных программ.
В целом мировая статистика развивается семимильными шагами, и, перефразируя известную фразу Льюиса Кэрролла, мы должны бежать вдвое быстрее, чтобы войти в число лидеров и закрепиться там.
Всемирный день статистики празднуется каждые пять лет 20 октября. В этом году, по решению ООН, темой события стал лозунг «Объединим мир при помощи данных, которым мы можем доверять».