Data Scientist: головне про одну з трендових data-професій

Data Scientist

Data Scientists, фахівці, здатні отримувати з даних максимум користі.

Що таке Data Science?

Якщо коротко, це процес перетворення даних на корисні знання. Також часто можна зустріти назву Data Mining (вона синонімічна першому терміну).

Data Science будується на гіпотезах, які в рамках вивчення й аналізу даних або підтверджуються, або ні. Наприклад, бізнес-гіпотеза — не підтверджена ідея про продукт чи проэкт, яка надходить від доменного експерта, клієнта або Data Scientist. Приклад для розуміння: хтось припустив, що впровадження нового дизайну на сайті допоможе підвищити конверсію. Це гіпотеза, і її треба перевірити.

Data Science — більше, ніж аналіз даних. Це виявлення закономірностей, зв'язків, які несуть у собі business value. На їх основі будуються досить точні прогнози на майбутнє для конкретного проєкту, пропонуються рішення, які дозволяють покращити продукт, зробити його більш зручним, корисним, які підвищують його цінність і, як наслідок, вигоду для стейкхолдера.

У яких доменних областях часто використовується Data Science?

  • Рітейл і комерція
  • Банкінг і фінанси
  • Освіта
  • Охорона здоров'я
  • Маркетинг і продаж
  • Реклама
  • SaaS і мобільні програми

Цикл роботи Data Scientist наступний:

1. Аналіз бізнес-проблеми

Фахівцю Data Science важливо мати підприємницький або економічний склад розуму, щоб бачити гіпотези, які виходять від проєктів. Наприклад, на першому етапі роботи важливо зрозуміти, яку мету ставить клієнт, яку проблему бізнесу має вирішити робота команди та Data Scientist, зокрема. Тут же висуваються гіпотези, які будуть аналізуватися далі.

2. Збір даних

На цьому етапі фахівець збирає всю необхідну для роботи інформацію (статистику, відомості за певний період та ін.). Залежно від форматів і джерел даних, Data Scientist може використовувати SQL, Pandas, Spark та інші інструменти, щоб зібрати та переробити дані з внутрішніх джерел (наприклад, з логів або таблиць). У складних випадках і великих проєктах з поділом ролей збір даних може делегуватися Data Engineer. Трапляються також випадки, коли дані необхідно зібрати з відкритих джерел або навіть розмітити вручну.

3. Розвідувальний аналіз даних

Після того, як дані зібрані/отримані, від клієнта може надійти розпливчасте питання: «Подивися, будь ласка, на них. Бачиш щось цікаве?» У цьому полягає розвідувальний, первинний аналіз даних, без залучення гіпотез. Він виготовляється найчастіше на Python завдяки інструментам Jupyter та Pandas. Після закінчення цього етапу Data Scientist отримує або набір словесних висновків, або графіки та діаграми. Все це оформляється у звіт і надсилається Business Analyst або стейкхолдеру проєкту.

4. Матеріалізація гіпотез

На цьому, четвертому, етапі здійснюється втілення гіпотез у життя: зміна дизайну сайту, реалізація скрипту з автоматизації, створення та розгортання ML-функціоналу.

Існують різні за складністю види гіпотез. Гіпотези на тему ML реалізуються довго, найчастіше фахівці працюють зі зміною конфігурації чи впровадженням нового функціоналу.

5. Валідація

Після того, як виявлено найбільш цінні гіпотези, проводиться нарешті A/B тестування. Воно допомагає відібрати гіпотези, які призводять до статистично значимих позитивних ефектів. Статистична значимість - впевненість у невипадковості отриманих результатів.

Що таке А/В-тестування? Користувачів системи ділять на 2 групи: А та В. Одній з них пропонують скористатися системою з нововведеннями, другій залишають для роботи колишню версію. Їхні враження, поведінка — саме та корисна інформація, яку аналізує Data Scientist.

На закінчення етапу – презентація звіту з результатами клієнта.

Data Scientist і Data Analyst: чи дійсно так схожі?

Data Science знаходиться на стику бізнесу, розробки та машинного навчання. Може здатися, що Data Scientists та Data Analysis мають однаковий пул обов'язків, але це не так.

Data Scientists - фахівці ML та статистики, котрі (при цьому) не далекі від бізнесу. Можуть писати код, краще підковані технічно, наприклад, можуть створювати на проєкті моделі даних за допомогою алгоритмів машинного навчання та нейромереж.

Data Analysts – ті, хто ідеально розуміє бізнес-потреби клієнтів. Мають розвинені soft skills, високі комунікативні навички, талановито презентують інформацію. Навичка роботи з кодом для них опціональна.

Що повинен знати та вміти Data Scientist?

  • Мови програмування: Python (зустрічається на 90% проєктів), R (на 10% проєктів), SQL
  • Тули: NumPy, Scikit-Learn, Jupyter, matplotlib
  • Знання ML і статистики
  • Аналітичний, бізнес-орієнтований склад розуму, вміння презентувати інформацію

Читати також


Вибір читачів
up