Статьи по тематике apache-spark

Публикации по теме 'apache-spark'

Учебная программа Fast Track Hadoop + Spark: переход от 0 до 60

Как быстро стать экспертом по Hadoop и Apache Spark! Вступление Я составил простую и короткую учебную программу для изучения Hadoop. Эта учебная программа предназначена для начинающих, которые хотят быстро и эффективно изучить Hadoop. С помощью этой учебной программы вы заложите хорошую основу в концепциях больших данных, а также получите реальный опыт программирования. Часть приведенного ниже контента бесплатна, а за часть придется платить (ни один из них я не получаю $ $ за..

Вопросы по теме 'apache-spark'

параллелизм данных в spark: чтение данных avro из hdfs

Я пытаюсь прочитать данные avro, используя scala в среде spark. Мои данные не распространяются, и во время работы они собираются только на 2 узла. у нас есть 20+ узлов. Вот мой фрагмент кода @serializable case class My_Class (val My_ID : String...

apache-spark scala

12.05.2024

как лучше всего объединить rdds в scala

В результате у меня есть несколько RDD, и я хочу их объединить, они имеют одинаковый формат: RDD(id, HashMap[String, HashMap[String, Int]]) ^ ^ ^ | | | identity category distribution of the...

apache-spark scala

13.04.2024

Проблема развертывания Apache Spark (режим кластера) с Hive

ИЗМЕНИТЬ : Я разрабатываю приложение Spark, которое считывает данные из нескольких структурированных схем, и пытаюсь собрать информацию из этих схем. Мое приложение работает хорошо, когда я запускаю его локально. Но когда я запускаю его в...

apache-spark hadoop apache-spark-sql apache-hive

05.03.2024

Группировка фреймов данных Spark, сортировка и выбор верхних строк для набора столбцов

apache-spark dataframe apache-spark-sql

10.03.2024

как добавить добавочный идентификатор столбца для таблицы в spark SQL

Я работаю над алгоритмом искрового мллиба. Набор данных, который у меня есть, находится в этой форме Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(есть и другие значения, подобные этим) Я пытаюсь преобразовать строковые...

apache-spark apache-spark-sql apache-spark-mllib spark-dataframe

12.04.2024

Как использовать потребителя Kafka в искре

Я использую искру 2.1 и Кафку 0.10.1. Я хочу обрабатывать данные, ежедневно читая все данные по определенным темам в Kafka. Я знаю, что для потоковой передачи искры createDirectStream нужно только включить список тем и некоторую информацию о...

apache-kafka apache-spark scala kafka-consumer-api

06.04.2024

Перенос данных из базы данных в Spark с помощью sparklyr

У меня есть некоторые данные в базе данных, и я хочу работать с ними в Spark, используя sparklyr . Я могу использовать пакет на основе DBI для импорта данных из базы данных в R. dbconn <- dbConnect(<some connection args>) data_in_r...

r apache-spark dataframe sparklyr

22.03.2024

Как подключить локальную машину к Docker Container?

Я пытаюсь использовать kafka на своем локальном компьютере (Windows 10) в качестве производителя и потоковую передачу искры на док-контейнере (ubuntu) в качестве потребителя. Мои примеры работают вместе в контейнере, но мне нужно создать поток на...

docker apache-kafka streaming apache-spark

04.05.2024

Spark2.1.0 несовместим с версиями Джексона 2.7.6

Я пытаюсь запустить простой пример искры в intellij, но получаю вот такую ошибку: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.SparkContext.withScope(SparkContext.scala:701) at...

jackson apache-spark scala sbt incompatibletypeerror

11.04.2024

максимальное количество столбцов, которые мы можем иметь в фрейме данных Spark Scala

Мне нравится знать максимальное количество столбцов, которые я могу иметь в кадре данных, есть ли какие-либо ограничения в поддержании количества столбцов в кадрах данных. Спасибо.

apache-spark dataframe scala rdd

18.05.2024

Как загрузить искровой график из объектного файла

В искровой оболочке я запускаю свой код следующим образом: import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx.{Edge, Graph, GraphLoader, VertexId} import org.apache.spark.rdd.RDD import...

apache-spark spark-graphx

05.04.2024

Отношение Spark и Metastore

Я знал о том, что Hive Metastore используется для хранения метаданных таблиц, которые мы создаем в HIVE, но зачем искре требуется Metastore, какова связь по умолчанию между Metastore и Spark Используется ли metasore искровым SQL, если да, то для...

apache-spark apache-spark-sql metastore

20.05.2024

Запрос информации о разделах Spark SQL в таблице кустов

Учитывая разделенную с помощью some_field (типа int) таблицу Hive с данными, хранящимися в виде файлов Avro, я хочу запросить таблицу с помощью Spark SQL таким образом, чтобы возвращаемый фрейм данных уже был разделен с помощью some_field...

apache-spark hadoop apache-spark-sql hive partitioning

25.03.2024

Запись в elasticsearch из искры очень медленная

Я обрабатываю текстовый файл и пишу преобразованные строки из приложения Spark в эластичный поиск, как показано ниже. input.write.format("org.elasticsearch.spark.sql") .mode(SaveMode.Append) .option("es.resource", "{date}/" +...

apache-spark

04.05.2024

Отфильтровать все шаблоны, соответствующие регулярному выражению, как отдельную строку в RDD в PySpark

У меня есть файл .csv, в котором записи записаны в виде одной строки, а не отдельных строк. Я смог сопоставить шаблон каждой строки, используя регулярное выражение (?:"([a-zA-Z0-9 /\-\:\.\,]+)",|\\N,|"",|""){26} . У меня есть следующий код,...

regex apache-spark pyspark

06.05.2024

Является ли первая строка набора данных‹Row›, созданного из CSV-файла, равной первой строке в файле?

Я пытаюсь удалить заголовок из Dataset<Row> , созданного с данными из файла csv. Есть куча способов сделать это. Итак, мне интересно, всегда ли первая строка в Dataset<Row> равна первой строке в файле (из которого создается...

apache-spark apache-spark-sql

18.04.2024

Ошибка в потоковой передаче Spark с помощью Kafka

Когда я запускаю потоковую задачу через spark-submit , я получаю предупреждающие сообщения о недопустимых свойствах Kafka: VerifiableProperties: Property auto.offset.reset is overridden to largest VerifiableProperties: Property...

apache-kafka apache-spark spark-streaming

30.04.2024

Как редактировать параметры таблицы HIVE?

Я создал таблицу HIVE через pyspark в формате ORC, и все работает в соответствии с требованиями. Однако, изучив детали таблицы HIVE, я увидел ниже describe formatted <tbl_name>; я получаю ниже вывода Table Parameters:...

apache-spark pyspark hive

10.03.2024

Снижение производительности при большом количестве столбцов. Pyspark

Я столкнулся с проблемой обработки искрового кадра данных (около 9000 столбцов, а иногда и больше). Задача: Создайте широкий DF с помощью groupBy и pivot. Преобразование столбцов в векторные и обработка в KMeans из pyspark.ml. Итак, я...

python pandas machine-learning apache-spark pyspark

04.04.2024

Как сделать задание идемпотентным, чтобы его несколько запусков создавали один и тот же результирующий файл в S3

Я сохраняю файл паркета на S3, используя запись spark df. Сценарий: я запускаю Job1 и сохраняю xyz.parquet на S3, где мой Job2 берет xyz.parquet и загружает данные в БД. Теперь я хочу, чтобы в следующий раз, когда я запускаю Job1, он генерировал...

amazon-s3 parquet apache-spark idempotent

16.04.2024

Новые материалы

Как развивается смешанно-целочисленное программирование, часть 7

Унифицированная техника раннего завершения для первично-двойственных алгоритмов в смешанно-целочисленном коническом программировании (arXiv) Автор : Ювэнь Чэнь , Кэтрин Нин , Поль Гулар..

Как научить модель Keras распознавать текст переменной длины

Я некоторое время играл с официальным примером Keras image_ocr.py и хочу поделиться своими выводами в этом посте. В официальном примере выполняется только обучение модели, но отсутствует..

Практическая пакетная нормализация

История начинается после использования инициализации He вместе с ELU (или любым вариантом ReLU) может значительно снизить опасность проблем с исчезающими/взрывающимися градиентами в начале..

Поэзия онлайн-кодирования: путешествие пикселей и страсти

В мире, наполненном инновациями, онлайн-обучение программированию становится холстом, на котором обретает форму полотно вашей мечты. Это больше, чем просто создание строк кода; это сродни..

Обработка изображений с помощью Python - размытие и повышение резкости для начинающих

Как применить ядра свертки к цветным изображениям? В этой статье мы обсудим, как применять ядра размытия и повышения резкости к изображениям. Эти базовые ядра составляют основу многих более..

Ограничение скорости в .NET Core 7 Web API

Что такое ограничение скорости? Ограничение скорости — это процесс, используемый для ограничения количества запросов, разрешенных для определенного ресурса в указанном временном окне. .NET..

Стабильная Diffusion 1.0 выдаёт более красивые картинки, чем SD 2.1?! Почему?

Удивительные открытия, которые я сделал недавно. Смотрите в видео: https://youtu.be/PakgD6FewoU Есть одно логичное объяснение — что у вас?

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Java Computer Science Development NLP Tech Programming Languages Algorithms Angular Python Programming HTML Javascript Tips ChatGPT Data Reactjs Developer API Code Data Visualization CSS Tutorial Neural Networks Computer Vision Statistics