LLLit: Изучение и практика программирования

Публикации по теме 'apache-spark'


Учебная программа Fast Track Hadoop + Spark: переход от 0 до 60
Как быстро стать экспертом по Hadoop и Apache Spark! Вступление Я составил простую и короткую учебную программу для изучения Hadoop. Эта учебная программа предназначена для начинающих, которые хотят быстро и эффективно изучить Hadoop. С помощью этой учебной программы вы заложите хорошую основу в концепциях больших данных, а также получите реальный опыт программирования. Часть приведенного ниже контента бесплатна, а за часть придется платить (ни один из них я не получаю $ $ за..

Вопросы по теме 'apache-spark'

параллелизм данных в spark: чтение данных avro из hdfs
Я пытаюсь прочитать данные avro, используя scala в среде spark. Мои данные не распространяются, и во время работы они собираются только на 2 узла. у нас есть 20+ узлов. Вот мой фрагмент кода @serializable case class My_Class (val My_ID : String...
12.05.2024

как лучше всего объединить rdds в scala
В результате у меня есть несколько RDD, и я хочу их объединить, они имеют одинаковый формат: RDD(id, HashMap[String, HashMap[String, Int]]) ^ ^ ^ | | | identity category distribution of the...
13.04.2024

Проблема развертывания Apache Spark (режим кластера) с Hive
ИЗМЕНИТЬ : Я разрабатываю приложение Spark, которое считывает данные из нескольких структурированных схем, и пытаюсь собрать информацию из этих схем. Мое приложение работает хорошо, когда я запускаю его локально. Но когда я запускаю его в...

Группировка фреймов данных Spark, сортировка и выбор верхних строк для набора столбцов
Я использую Spark 1.5.0. У меня есть фреймворк Spark со следующими столбцами: | user_id | description | fName | weight | Я хотел бы выбрать верхние 10 и нижние 10 строк (на основе значения веса столбца, который имеет тип данных Double) для...

как добавить добавочный идентификатор столбца для таблицы в spark SQL
Я работаю над алгоритмом искрового мллиба. Набор данных, который у меня есть, находится в этой форме Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(есть и другие значения, подобные этим) Я пытаюсь преобразовать строковые...

Как использовать потребителя Kafka в искре
Я использую искру 2.1 и Кафку 0.10.1. Я хочу обрабатывать данные, ежедневно читая все данные по определенным темам в Kafka. Я знаю, что для потоковой передачи искры createDirectStream нужно только включить список тем и некоторую информацию о...

Перенос данных из базы данных в Spark с помощью sparklyr
У меня есть некоторые данные в базе данных, и я хочу работать с ними в Spark, используя sparklyr . Я могу использовать пакет на основе DBI для импорта данных из базы данных в R. dbconn <- dbConnect(<some connection args>) data_in_r...

Как подключить локальную машину к Docker Container?
Я пытаюсь использовать kafka на своем локальном компьютере (Windows 10) в качестве производителя и потоковую передачу искры на док-контейнере (ubuntu) в качестве потребителя. Мои примеры работают вместе в контейнере, но мне нужно создать поток на...

Spark2.1.0 несовместим с версиями Джексона 2.7.6
Я пытаюсь запустить простой пример искры в intellij, но получаю вот такую ​​ошибку: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.SparkContext.withScope(SparkContext.scala:701) at...

максимальное количество столбцов, которые мы можем иметь в фрейме данных Spark Scala
Мне нравится знать максимальное количество столбцов, которые я могу иметь в кадре данных, есть ли какие-либо ограничения в поддержании количества столбцов в кадрах данных. Спасибо.

Как загрузить искровой график из объектного файла
В искровой оболочке я запускаю свой код следующим образом: import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx.{Edge, Graph, GraphLoader, VertexId} import org.apache.spark.rdd.RDD import...

Отношение Spark и Metastore
Я знал о том, что Hive Metastore используется для хранения метаданных таблиц, которые мы создаем в HIVE, но зачем искре требуется Metastore, какова связь по умолчанию между Metastore и Spark Используется ли metasore искровым SQL, если да, то для...

Запрос информации о разделах Spark SQL в таблице кустов
Учитывая разделенную с помощью some_field (типа int) таблицу Hive с данными, хранящимися в виде файлов Avro, я хочу запросить таблицу с помощью Spark SQL таким образом, чтобы возвращаемый фрейм данных уже был разделен с помощью some_field...

Запись в elasticsearch из искры очень медленная
Я обрабатываю текстовый файл и пишу преобразованные строки из приложения Spark в эластичный поиск, как показано ниже. input.write.format("org.elasticsearch.spark.sql") .mode(SaveMode.Append) .option("es.resource", "{date}/" +...
04.05.2024

Отфильтровать все шаблоны, соответствующие регулярному выражению, как отдельную строку в RDD в PySpark
У меня есть файл .csv, в котором записи записаны в виде одной строки, а не отдельных строк. Я смог сопоставить шаблон каждой строки, используя регулярное выражение (?:"([a-zA-Z0-9 /\-\:\.\,]+)",|\\N,|"",|""){26} . У меня есть следующий код,...

Является ли первая строка набора данных‹Row›, созданного из CSV-файла, равной первой строке в файле?
Я пытаюсь удалить заголовок из Dataset<Row> , созданного с данными из файла csv. Есть куча способов сделать это. Итак, мне интересно, всегда ли первая строка в Dataset<Row> равна первой строке в файле (из которого создается...

Ошибка в потоковой передаче Spark с помощью Kafka
Когда я запускаю потоковую задачу через spark-submit , я получаю предупреждающие сообщения о недопустимых свойствах Kafka: VerifiableProperties: Property auto.offset.reset is overridden to largest VerifiableProperties: Property...

Как редактировать параметры таблицы HIVE?
Я создал таблицу HIVE через pyspark в формате ORC, и все работает в соответствии с требованиями. Однако, изучив детали таблицы HIVE, я увидел ниже describe formatted <tbl_name>; я получаю ниже вывода Table Parameters:...

Снижение производительности при большом количестве столбцов. Pyspark
Я столкнулся с проблемой обработки искрового кадра данных (около 9000 столбцов, а иногда и больше). Задача: Создайте широкий DF с помощью groupBy и pivot. Преобразование столбцов в векторные и обработка в KMeans из pyspark.ml. Итак, я...

Как сделать задание идемпотентным, чтобы его несколько запусков создавали один и тот же результирующий файл в S3
Я сохраняю файл паркета на S3, используя запись spark df. Сценарий: я запускаю Job1 и сохраняю xyz.parquet на S3, где мой Job2 берет xyz.parquet и загружает данные в БД. Теперь я хочу, чтобы в следующий раз, когда я запускаю Job1, он генерировал...

Новые материалы

Как развивается смешанно-целочисленное программирование, часть 7
Унифицированная техника раннего завершения для первично-двойственных алгоритмов в смешанно-целочисленном коническом программировании (arXiv) Автор : Ювэнь Чэнь , Кэтрин Нин , Поль Гулар..

Как научить модель Keras распознавать текст переменной длины
Я некоторое время играл с официальным примером Keras image_ocr.py и хочу поделиться своими выводами в этом посте. В официальном примере выполняется только обучение модели, но отсутствует..

Практическая пакетная нормализация
История начинается после использования инициализации He вместе с ELU (или любым вариантом ReLU) может значительно снизить опасность проблем с исчезающими/взрывающимися градиентами в начале..

Поэзия онлайн-кодирования: путешествие пикселей и страсти
В мире, наполненном инновациями, онлайн-обучение программированию становится холстом, на котором обретает форму полотно вашей мечты. Это больше, чем просто создание строк кода; это сродни..

Обработка изображений с помощью Python - размытие и повышение резкости для начинающих
Как применить ядра свертки к цветным изображениям? В этой статье мы обсудим, как применять ядра размытия и повышения резкости к изображениям. Эти базовые ядра составляют основу многих более..

Ограничение скорости в .NET Core 7 Web API
Что такое ограничение скорости? Ограничение скорости — это процесс, используемый для ограничения количества запросов, разрешенных для определенного ресурса в указанном временном окне. .NET..

Стабильная Diffusion 1.0 выдаёт более красивые картинки, чем SD 2.1?! Почему?
Удивительные открытия, которые я сделал недавно. Смотрите в видео: https://youtu.be/PakgD6FewoU Есть одно логичное объяснение — что у вас?