Как мы в ivi переписывали etl: Flink+Kafka+ClickHouse

Год назад мы решили переделать схему сбора данных в приложении и данных о действиях клиентов. Старая система работала исправно, но с каждым разом было всё сложнее и опаснее вносить туда изменения.



В этой статье я расскажу какие технологии мы стали использовать для сбора и агрегации данных в новом проекте.
Читать дальше →

Как мы в ivi переписывали etl

Год назад мы решили переделать схему сбора данных в приложении и данных о действиях клиентов. Старая система работала исправно, но с каждым разом было всё сложнее и опаснее вносить туда изменения.



В этой статье я расскажу какие технологии мы стали использовать для сбора и агрегации данных в новом проекте.
Читать дальше →

[Перевод] Как мы выстраивали инфраструктуру данных в Wish

Я пришел в Wish 2,5 года назад, дела в компании шли отлично. Наше приложение было в топе в iOS и Android магазинах и продавало более 2 миллионов товаров в день.

Мало кто верил, что можно построить большой бизнес, продавая дешевые товары. Однако, используя данные, Wish смогли бросить вызов этим сомнениям. Аналитика данных всегда была у нас в крови.

Но когда наш бизнес стал расти огромными темпами, мы не были к этому готовы, обнаружилось множество проблем с аналитикой. Каждая команда внутри компании стала нуждаться в срочной поддержке в работе с данными и многое упускала из виду в своем поле деятельности. В то время наши аналитические возможности еще только зарождались и не могли удовлетворить все растущий спрос.

В данном посте я расскажу о том, какие уроки мы извлекли за это время, а также распишу верный путь для компаний, находящихся в поисках способов масштабирования их аналитических функций.


Читать дальше →

[Перевод] Определение аномалий с использованием анализа поведения пользователей

image

В течение последних 10 лет центры оперативного управления информационной безопасности (Security Operation Center, SOC) и аналитики оперировали такими понятиями как индикаторы компрометации (Indicators of Compromise, IoC), сигнатуры, пороговые (threshold-based) признаки проникновения или попыток проникновения в попытке угнаться за темпом постоянно меняющихся угроз. Это было проигрышное противостояние.
Читать дальше →

Далеко ли доедет беспилотный автомобиль? Задай вопрос эксперту Intel



Новости последних нескольких лет приучили нас к мысли, что уже следующее поколение людей будет жить при коммунизме наступившей эре автономных авто, и водительские права ему уже не понадобятся. Компания Intel давно и активно принимает участие в этом процессе, ей накоплен огромный опыт, которым сейчас мы готовы с вами поделиться. В рамках рубрики «Задай вопрос эксперту Intel» мы представляем вам эксперта Intel Ивана Кузьмина.
Комментариями к этому посту или через личные сообщения мы предлагаем вам задавать эксперту свои вопросы в области искусственного интеллекта и беспилотных автомобилей. Через некоторое время выйдет пост с ответами. Нажавших кнопку «Читать далее» ждет приятный сюрприз!
Читать дальше →

Кто такой Data Scientist — глазами работодателя. Интервью с Авито и Spice IT

Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, координатор офлайн-программы «Data Scientist», специально для блога Нетологии подготовили интервью с представителями компании Авито и HR-агентства Spice IT о том, чего ждет рынок от представителей профессии Data Scientist. Сейчас почти каждая статья о data science или машинном обучении начинается с того, что «три года назад американская исследовательская компания подсчитала, что через четыре года будет нужен миллион data scientist’ов». И даже в России ощущается острая нехватка людей с экспертизой. При этом есть множество возможностей освоить эту сферу: онлайн и офлайн-курсы, тренажёры и книги — то есть исправить текущую ситуацию реально. Беседовал Андрей Мирошниченко — координатор офлайн-программы «Data Scientist». image В прошлый раз мы сделали краткую выжимку двух интервью, и рассказали о том, как выглядит профессия специалиста по большим данным со стороны не сотрудника, а работодателя. Сегодня же мы публикуем полные интервью с Авито и Spice IT. ...Далее...

[Перевод] «День знаний» для ИИ: опубликован ТОП30 самых впечатляющих проектов по машинному обучению за прошедший год (v.2018)



Чтобы выбрать ТОП 30 (только 0,3%), за прошедший год команда Mybridge сравнила почти 8800 проектов по машинному обучению с открытым исходным кодом.

Это чрезвычайно конкурентный список, и он содержит лучшие библиотеки с открытым исходным кодом для машинного обучения, наборы данных и приложения, опубликованные в период с января по декабрь 2017 года. Чтобы дать вам представление о качестве проектов, отметим, что среднее число звезд Github — 3558.

Проекты с открытым исходным кодом могут быть полезны не только ученым. Вы можете добавить что-то удивительное поверх ваших существующих проектов. Ознакомьтесь с проектами, которые вы, возможно, пропустили в прошлом году.


Осторожно, под катом много картинок и gif. Читать дальше →

[Перевод] «День знаний» для ИИ: опубликован ТОП 30 удивительных проектов по машинному обучению за прошедший год (v.2018)



Чтобы выбрать ТОП 30 (только 0,3%), за прошедший год команда Mybridge сравнила почти 8800 проектов по машинному обучению с открытым исходным кодом.

Это чрезвычайно конкурентный список, и он содержит лучшие библиотеки с открытым исходным кодом для машинного обучения, наборы данных и приложения, опубликованные в период с января по декабрь 2017 года. Чтобы дать вам представление о качестве проектов, отметим, что среднее число звезд Github — 3558.

Проекты с открытым исходным кодом могут быть полезны не только ученым. Вы можете добавить что-то удивительное поверх ваших существующих проектов. Ознакомьтесь с проектами, которые вы, возможно, пропустили в прошлом году. Осторожно, под катом много картинок и gif. Читать дальше →

Amazon MTurk и Emotion Miner: краудсорсинг, большие данные, эмоциональные технологии

Давайте зададимся вопросом: в какой мере краудсорсинговые инструменты востребованы в сфере эмоциональных (и нейрокогнитивных) технологий? Каким образом можно собирать, размечать и предварительно обрабатывать большие объемы данных, опираясь на ресурсы толпы? В качестве показательных кейсов обсудим платформу Amazon MTurk и, в приложении к эмоциональной проблематике, проект лаборатории Neurodata Lab — Emotion Miner.

image
Читать дальше →

Feature Engineering, о чём молчат online-курсы


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →


Последние посты