Брокеры Kafka ожидают, что в качестве ключей и значений сообщений задействуются байтовые массивы.
овая обработка и анализ данных» содержит все, что вам нуж
В документации Apache Kafka описаны все параметры конфигурации (http://bit.ly/2sMu1c8). Кроме того, мы рассмотрим самые важные из них далее в этой главе.
Современная компания — это невероятно сложная система, состоящая из сотен или даже тысяч пользовательских приложений, микросервисов, баз данных, слоев SaaS и аналитических платформ. И все чаще перед нами встает проблема, как объединить все это в одно целое и заставить работать вместе в режиме реального времени.
Эта проблема заключается не в управлении данными в состоянии покоя, а в управлении данными в движении. И в самом центре этого движения находится Apache Kafka, которая стала фактической основой для любой платформы для обработки потока данных.
Настоятельно рекомендуется устанавливать коэффициент репликации как минимум на 1 больше значения параметра min.insync.replicas. Для более отказоустойчивых настроек, если у вас довольно большие кластеры и достаточно оборудования, предпочтительно установить коэффициент репликации на 2 больше значения параметра min.insync.replicas (сокращенно RF++).
Если же такой подробной информации у вас нет, то, по нашему опыту, ограничение размеров разделов на диске до 6 Гбайт сохраняемой информации в день часто дает удовлетворительные результаты. Начинать с малого и расширяться по мере необходимости легче, чем начинать слишком масштабно
Именно поэтому конвейер — ключевой компонент на ориентированном на работу с данными предприятии.
Можно протестировать и запустить ансамбль ZooKeeper на одной машине, указав все имена хостов в настройках как localhost и задав уникальные порты peerPort и leaderPort для каждого экземпляра.
• обеспечить горизонтальное масштабирование системы по мере роста потоков данных.
• оптимизировать систему для обеспечения высокой пропускной способности по сообщениям;