«4 свадьбы и одни похороны» или линейная регрессия для анализа открытых данных правительства Москвы

Несмотря на множество замечательных материалов по Data Science например, от Open Data Science, я продолжаю собирать объедки с пиршества разума и продолжаю делится с вами, своим опытом по освоению навыков машинного обучения и анализа данных с нуля. В последних статьях мы рассмотрели пару задачек по классификации, в процессе потом и кровью добывая себе данные, теперь пришло время регрессии. Поскольку ничего светотехнического в этот раз под рукой не оказалось, я решил поскрести по другим сусекам. Помнится, в одной из статей я агитировал читателей посмотреть в сторону отечественных открытых данных. Но поскольку я не барышня из рекламы «кефирчика для пищеварения» или шампуня с лошадиной силой, совесть не позволяла советовать что-либо, не испытав на себе. С чего начать? Конечно с открытых данных правительства РФ, там же ведь целое министерство есть. Мое знакомство с открытыми данными правительства РФ, было примерно, такое же как на иллюстрации к этой статье. Нет ну не то чтобы мне совсем не был интересен реестр Кинозалов города Новый Уренгой или перечень прокатного оборудования катка в Туле, просто для задачи регрессии они не очень подходят. Если порыться думаю и на сайте ОД правительства РФ можно найти, что-то путное, просто не очень легко. Данные Минфина...Далее...

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

Привет, Хабр! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у дата инженера и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.


Читать дальше →

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию



Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и разобраться, какая необходимость двум серым ящикам взаимодействовать друг с другом впустить в наш мир дозу сакральных знаний по Big Data и машинному обучению — мы сделали конференцию SmartData 2017, которая пройдёт в Питере 21 октября.

Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.

Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!



Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.
Читать дальше →

Старт конкурса MERC-2017 от Neurodata Lab

Всем привет! Конкурс по машинному обучению Multimodal Emotion Recognition Challenge от Neurodata Lab (MERC 2017) стартовал вечером в среду, 18 октября. Подробное описание задачи, сопроводительные материалы и данные доступны для зарегистрированных пользователей.
Добро пожаловать на Dataсombats!
Успехов!
image

Приглашение на Meetup по компьютерному зрению в Avito, 28 октября

Мы рады пригласить вас на встречу специалистов по анализу данных, которая пройдет в московском офисе Avito 28-го октября. Митап посвящен компьютерному зрению. Вы сможете узнать о передовых достижениях в задачах распознавания лиц и сегментации изображений, о real-time адаптации нейросетевых и классических алгоритмов, а также мы представим наш сервис — AvitoNet. Подробная программа и ссылка на регистрацию под катом.


Читать дальше →

А вы уже применяете R в бизнесе?

Настоящая публикация не содержит ни кода, ни картинок, поскольку суть вопроса несколько шире, а на конкретные вопросы всегда можно ответить в комментариях.

За последние пару лет мне довелось применять R для решения весьма разнообразных задач в различных вертикалях. Естественно, что применение R заведомо подразумевает решение задач, связанных с той или иной математической обработкой цифровых данных, а разнообразность задач определялась, в первую очередь, самой предметной областью в которой эти прикладные задачи возникали. Частично отдельные задачи кратко упоминались в предыдущих публикациях. Разные предметные области, от земли (АПК) и заканчивая применением для прикладных задач с использованием летательных аппаратов, вплоть до космических.

Накопленная практика позволяет утверждать, что изначальный кредит доверия в R, сопутствующую экосистему и коммьюнити оказался полностью оправданным. Не возникло ни одного кейса, который нельзя было бы решить средствами R за разумный срок.

Независимое подтверждение этого тезиса можно получить путем наблюдения за экспоненциальным ростом успешного применения R в обычном бизнесе (не ИТ) на Западе. Например, практически половина докладов с конференции EARL 2017 (Enterprise Applications of the R Language), прошедшей в сентябре этого года, содержат кейсы по использованию R для решения бизнес-задач. В докладах есть примеры по анализу данных в недвижимости, автоматизация деятельности аудиторов, анализ транспортных систем, анализ системы канализации и многие другие отрасли...

...Далее...

Multimodal Emotion Recognition Challenge by Neurodata Lab

Уважаемые коллеги!
Компания Neurodata Lab рада объявить о проведении в октябре-ноябре 2017 года собственного конкурса по машинному обучению на базе мультимодальных данных эмоциональной природы.
Конкурсная площадка: www.datacombats.com
image
Читать дальше →

Анализируем требования рынка для data scientist

В интернете много информации, что data sciencist должен знать и уметь. Но я решил, что становиться data sciencist надо сразу, поэтому мы выясним требования к специалистам при помощи анализа текста вакансий.


В первую очередь сформулируем задачу и разработаем план:
Задача:
Посмотреть все вакансии на рынке и узнать общие требования, указанные в них.
Читать дальше →

4 причины стать Data Engineer

Привет, Хабр! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн.



В скором времени ни одна компания не сможет обойтись без Data Engineer


Давайте рассмотрим типичный рабочий день data scientist-а:

Получается, что около 80% своего времени data scientist тратит на сбор данных, их предобработку и очистку — процессы, которые напрямую не связаны с главной его обязанностью: поиском инсайтов и паттернов в данных. Конечно, подготовка данных требует высшего уровня мастерства, но это не data science, это не то, зачем тысячи людей сегодня стремятся попасть в эту отрасль. Читать дальше →

Data Science: Про любовь, имена и не только. Часть II

Data Science: Про любовь, имена и не только. Часть II

потому что во многой мудрости много печали; и кто умножает познания, умножает скорбь.
  • Екклесиаст 1:18

Кадры из фильма Казино Рояль (2006)

Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

В первой части статьи я только лишь обозначил проблему, которая звучала следующим образом: вероятность быть одинокой/одиноким зависит от имени человека. Более корректно было бы использовать слово корреляция, однако я все же позволю себе некоторую лингвистическую вольность еще раз в этом вопросе и буду надеятся на то, что все понимают это утверждение правильно. Тем не менее, я хотел бы поблагодарить всех за комментарии к моей предыдущей статье.

В одном из комментариев я говорил о том, что вполне возможно, есть некоторый третий фактор, который коррелирует c именем и одиночеством. В качестве иллюстрации я привел пример с яблоками: положим, что одиночество зависит от того, сколько яблок ест девушка, и по какой-то причине девушки с именем Катя едят больше яблок, чем с имеем Маша. Понятно, что для каждой конкретной Маши или Кати это не значит ровным счетом ничего, но в среднем выходит, что одни одиноки более, чем другие, из-за того, что едят яблоки в разном количестве.

...Далее...
  • Новее
  • 1


Последние посты