Кто такой Data Scientist — глазами работодателя. Интервью с Авито и Spice IT

Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, координатор офлайн-программы «Data Scientist», специально для блога Нетологии подготовили интервью с представителями компании Авито и HR-агентства Spice IT о том, чего ждет рынок от представителей профессии Data Scientist. Сейчас почти каждая статья о data science или машинном обучении начинается с того, что «три года назад американская исследовательская компания подсчитала, что через четыре года будет нужен миллион data scientist’ов». И даже в России ощущается острая нехватка людей с экспертизой. При этом есть множество возможностей освоить эту сферу: онлайн и офлайн-курсы, тренажёры и книги — то есть исправить текущую ситуацию реально. Беседовал Андрей Мирошниченко — координатор офлайн-программы «Data Scientist». image В прошлый раз мы сделали краткую выжимку двух интервью, и рассказали о том, как выглядит профессия специалиста по большим данным со стороны не сотрудника, а работодателя. Сегодня же мы публикуем полные интервью с Авито и Spice IT. ...Далее...

Использование Intel Movidius для нейронных сетей

Введение


Мы занимаемся разработкой глубоких нейронных сетей для анализа фото, видео и текстов. В прошлом месяце мы купили для одного из проектов очень интересную штуковину:
Intel Movidius Neural Compute Stick.
Intel MNCS

Это специализированное устройство для нейросетевых вычислений. По сути, внешняя видеокарточка, заточенная под нейронные сети, очень компактная и недорогая (~$83). Первыми впечатлениями от работы с Movidius’ом мы и хотим поделиться. Всех заинтересовавшихся прошу под кат.
Читать дальше →

Amazon MTurk и Emotion Miner: краудсорсинг, большие данные, эмоциональные технологии

Давайте зададимся вопросом: в какой мере краудсорсинговые инструменты востребованы в сфере эмоциональных (и нейрокогнитивных) технологий? Каким образом можно собирать, размечать и предварительно обрабатывать большие объемы данных, опираясь на ресурсы толпы? В качестве показательных кейсов обсудим платформу Amazon MTurk и, в приложении к эмоциональной проблематике, проект лаборатории Neurodata Lab — Emotion Miner.

image
Читать дальше →

Feature Engineering, о чём молчат online-курсы


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →

Кто занимается машинным обучением и что сейчас популярно в Data Science? Результаты опроса среди пользователей Kaggle

Привет, Хабр! В августе 2017 года платформа для проведения соревнований по машинному обучению Kaggle провела опрос среди более чем 16 000 респондентов с целью узнать, в каком состоянии сейчас находится анализ данных и машинное обучение. Результаты были выложены в открытый доступ, поэтому мы решили проанализировать, чем отечественный Data Science отличается от зарубежного, как выглядит типичный пользователь Kaggle в России и в мире, и, наконец, какие алгоритмы и фреймворки наиболее популярны.


Читать дальше →

Кто такой Data Scientist — глазами работодателя

Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, куратор офлайн-программы «Data Scientist», специально для блога Нетологии рассказали о профессии Data Scientist со стороны работодателя: какие специалисты требуются рынку, каких компетенций от них ждут и как происходит найм на работу. Сейчас всё сложилось таким образом, как когда-то история с продакт- и проджект-менеджментом: специалисты есть на рынке, у них уже достаточно устоявшаяся рыночная стоимость, существуют вакансии, но при этом не каждый знает, кто это такой и зачем этот человек вообще нужен бизнесу. Поэтому мы решили поговорить с компанией «Авито», HR-агентством «Spice IT» и компанией Storia.me, чтобы понять, каково развитие профессии на самом деле. image

Взгляд компании Avito с позиции прямого нанимателя — рассказывает Александра Головина

«Потребность в специалистах data science очень велика и в дальнейшем будет только расти. Однако, возможностей для обучения тоже много: любой человек, который понимает, что ему не хватает академического образования, может пройти курсы и получить необходимую базу. Вопрос, скорее, в том, кто и почему приходит в профессию. На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет. ...Далее...

[Перевод] Руководство по аналитике для основателя стартапа


Вам нужна аналитика.
Я совершенно уверен в этом, потому что сегодня всем нужна аналитика. Не только продуктовой команде, не только маркетингу или финансам, но и продажам, доставке, сегодня каждому в стартапе нужна аналитика. Аналитика помогает принимать все решения, от стратегических до тактических, как управляющим, так и рядовым сотрудникам.
Это пост о том, как создать аналитику в вашей организации. Речь пойдёт не о том, какие метрики отслеживать (об этом уже написано много хороших постов), а о том, как сделать так, чтобы ваш бизнес их генерировал. На практике выясняется, что на вопрос реализации —  как мне построить бизнес, который добывает данные для принятия решений? —  ответить гораздо труднее.

Читать дальше →

Парсим мемы в питоне: как обойти серверную блокировку

Новогодние праздники — прекрасный повод попрокрастинировать в уютной домашней обстановке и вспомнить дорогие сердцу мемы из 2k17, уходящие навсегда, как совесть Electronic Arts.



Однако даже обильно сдобренная салатами совесть иногда просыпалась и требовала хоть немного взять себя в руки и заняться полезной деятельностью. Поэтому мы совместили приятное с полезным и на примере любимых мемов посмотрели, как можно спарсить себе небольшую базу
данных, попутно обходя всевозможные блокировки, ловушки и ограничения, расставленные сервером на нашем пути. Всех заинтересованных любезно приглашаем под кат.

Читать дальше →

KDB

кдвп


Привет, Хабр !


В статье я опишу идею хранения в достаточно известной колоночной базе данных KDB, а так же примеры того, как к этим данным обращаться. База существует еще с 2001 года, и на данный момент занимает высокие места на сайтах со сравнением подобных систем (см., например, тут)

Читать дальше →

Как обучть мдль пнмть упртые скрщня

Недавно я натолкнулся на вопрос на Stackoverflow, как восстанавливать исходные слова из сокращений: например, из wtrbtl получать water bottle, а из bsktballbasketball. В вопросе было дополнительное усложнение: полного словаря всех возможных исходных слов нет, т.е. алгоритм должен быть в состоянии придумывать новые слова.


Вопрос меня заинтриговал, и я полез разбираться, какие алгоритмы и математика лежат в основе современных опечаточников (spell-checkers). Оказалось, что хороший опечаточник можно собрать из n-граммной языковой модели, модели вероятности искажений слов, и жадного алгоритма поиска по лучу (beam search). Вся конструкция вместе называется модель зашумлённого канала (noisy channel).


Вооружившись этими знаниями и Питоном, я за вечер создал с нуля модельку, способную, обучившись на тексте "Властелина колец" (!), распознавать сокращения вполне современных спортивных терминов.


Читать дальше →


Последние посты