В докладе пойдет речь об обработке логов нескольких дата-центров с доступом через единый интерфейс. Обсудим причины и последствия обновления кластера. Расскажу о транспорте доставки логов из разных систем и окружений, и причем тут Apache Kafka. А также почему мы не используем logstash и как одним запросом в Kibana «приложить» кластер.
1:17 О чем будет доклад: кластер логов 1:43 Как логи попадают в кластер? 3:50 Почему мы выбрали Apache Kafka 5:02 Rsyslog: преимущества использования 9:00 Где хранить логи из разных ДЦ? 12:08 Что делать, если объем данных слишком большой? 14:00 Обновление кластера. 20:30 Наши грабли и пути решения 22:35 Translog 24:25 Bulk request 26:28 Opendistro-perfomance-analyzer 28:28 Index Shrink 29:49 Librdkafka 31:37 Итоги: как выглядит наш кластер сейчас
Дата-инженеры в машинном обучении
Рассказ о том, как выглядит промышленная работа над экспериментами в ML — какие проблемы решаются на уровне модели, а какие-только на уровне данных, и как обеспечить контролируемый процесс обучения.
1:40 Справка о спикере 2:41 Кто занимается DS-проектами? 8:30 Что такое Data Science проект? 14:15 Порядок действий в DS-проекте 15:42 Процесс сбора датасета 20:26 Как все устроено в Apache Kafka 29:10 Что происходит после сбора датасета 29:21 Как выбрать модель? 30:40 Примеры проблем, которые может решить дата-инженер 34:38 На каких технологиях все это работает? 35:03 Выводы доклада
CI/CD для дата-инженера: туда и обратно
Доклад о внедрении принципов CI/CD в BI-разработке, целях, их трансформации и преодолении трудностей.
2:00 Справка о спикере 2:44 Описание проблемы 4:28 Кто такой дата-инженер? 5:43 CI/CD — в чем состоит работа инженера? 6:55 Подробнее о стеке и информационных системах 8:00 Точка отсчета: с чего мы начинала 10:34 Первый этап изменений 15:50 Кажется, все хорошо, но… второй этап улучшений 19:01 Почти демо: JenkinsFile, Pipelines 20:44 Что мы получили на выходе? 22:43 Сколько ушло времени? Статистика по релизам 23:37 Наши челленджи и что можно было бы сделать иначе. Планы на будущее