Публикации по теме 'apache-spark'
Учебная программа Fast Track Hadoop + Spark: переход от 0 до 60
Как быстро стать экспертом по Hadoop и Apache Spark!
Вступление
Я составил простую и короткую учебную программу для изучения Hadoop. Эта учебная программа предназначена для начинающих, которые хотят быстро и эффективно изучить Hadoop. С помощью этой учебной программы вы заложите хорошую основу в концепциях больших данных, а также получите реальный опыт программирования.
Часть приведенного ниже контента бесплатна, а за часть придется платить (ни один из них я не получаю $ $ за..
Вопросы по теме 'apache-spark'
параллелизм данных в spark: чтение данных avro из hdfs
Я пытаюсь прочитать данные avro, используя scala в среде spark. Мои данные не распространяются, и во время работы они собираются только на 2 узла. у нас есть 20+ узлов. Вот мой фрагмент кода
@serializable case class My_Class (val My_ID : String...
12.05.2024
как лучше всего объединить rdds в scala
В результате у меня есть несколько RDD, и я хочу их объединить, они имеют одинаковый формат:
RDD(id, HashMap[String, HashMap[String, Int]])
^ ^ ^
| | |
identity category distribution of the...
13.04.2024
Проблема развертывания Apache Spark (режим кластера) с Hive
ИЗМЕНИТЬ :
Я разрабатываю приложение Spark, которое считывает данные из нескольких структурированных схем, и пытаюсь собрать информацию из этих схем. Мое приложение работает хорошо, когда я запускаю его локально. Но когда я запускаю его в...
05.03.2024
Группировка фреймов данных Spark, сортировка и выбор верхних строк для набора столбцов
Я использую Spark 1.5.0. У меня есть фреймворк Spark со следующими столбцами:
| user_id | description | fName | weight |
Я хотел бы выбрать верхние 10 и нижние 10 строк (на основе значения веса столбца, который имеет тип данных Double) для...
10.03.2024
как добавить добавочный идентификатор столбца для таблицы в spark SQL
Я работаю над алгоритмом искрового мллиба. Набор данных, который у меня есть, находится в этой форме
Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(есть и другие значения, подобные этим)
Я пытаюсь преобразовать строковые...
12.04.2024
Как использовать потребителя Kafka в искре
Я использую искру 2.1 и Кафку 0.10.1.
Я хочу обрабатывать данные, ежедневно читая все данные по определенным темам в Kafka.
Я знаю, что для потоковой передачи искры createDirectStream нужно только включить список тем и некоторую информацию о...
06.04.2024
Перенос данных из базы данных в Spark с помощью sparklyr
У меня есть некоторые данные в базе данных, и я хочу работать с ними в Spark, используя sparklyr .
Я могу использовать пакет на основе DBI для импорта данных из базы данных в R.
dbconn <- dbConnect(<some connection args>)
data_in_r...
22.03.2024
Как подключить локальную машину к Docker Container?
Я пытаюсь использовать kafka на своем локальном компьютере (Windows 10) в качестве производителя и потоковую передачу искры на док-контейнере (ubuntu) в качестве потребителя. Мои примеры работают вместе в контейнере, но мне нужно создать поток на...
04.05.2024
Spark2.1.0 несовместим с версиями Джексона 2.7.6
Я пытаюсь запустить простой пример искры в intellij, но получаю вот такую ошибку:
Exception in thread "main" java.lang.ExceptionInInitializerError
at org.apache.spark.SparkContext.withScope(SparkContext.scala:701)
at...
11.04.2024
максимальное количество столбцов, которые мы можем иметь в фрейме данных Spark Scala
Мне нравится знать максимальное количество столбцов, которые я могу иметь в кадре данных, есть ли какие-либо ограничения в поддержании количества столбцов в кадрах данных. Спасибо.
18.05.2024
Как загрузить искровой график из объектного файла
В искровой оболочке я запускаю свой код следующим образом:
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.graphx.{Edge, Graph, GraphLoader, VertexId}
import org.apache.spark.rdd.RDD
import...
05.04.2024
Отношение Spark и Metastore
Я знал о том, что Hive Metastore используется для хранения метаданных таблиц, которые мы создаем в HIVE, но зачем искре требуется Metastore, какова связь по умолчанию между Metastore и Spark
Используется ли metasore искровым SQL, если да, то для...
20.05.2024
Запрос информации о разделах Spark SQL в таблице кустов
Учитывая разделенную с помощью some_field (типа int) таблицу Hive с данными, хранящимися в виде файлов Avro, я хочу запросить таблицу с помощью Spark SQL таким образом, чтобы возвращаемый фрейм данных уже был разделен с помощью some_field...
25.03.2024
Запись в elasticsearch из искры очень медленная
Я обрабатываю текстовый файл и пишу преобразованные строки из приложения Spark в эластичный поиск, как показано ниже.
input.write.format("org.elasticsearch.spark.sql")
.mode(SaveMode.Append)
.option("es.resource", "{date}/" +...
04.05.2024
Отфильтровать все шаблоны, соответствующие регулярному выражению, как отдельную строку в RDD в PySpark
У меня есть файл .csv, в котором записи записаны в виде одной строки, а не отдельных строк. Я смог сопоставить шаблон каждой строки, используя регулярное выражение (?:"([a-zA-Z0-9 /\-\:\.\,]+)",|\\N,|"",|""){26} .
У меня есть следующий код,...
06.05.2024
Является ли первая строка набора данных‹Row›, созданного из CSV-файла, равной первой строке в файле?
Я пытаюсь удалить заголовок из Dataset<Row> , созданного с данными из файла csv. Есть куча способов сделать это. Итак, мне интересно, всегда ли первая строка в Dataset<Row> равна первой строке в файле (из которого создается...
18.04.2024
Ошибка в потоковой передаче Spark с помощью Kafka
Когда я запускаю потоковую задачу через spark-submit , я получаю предупреждающие сообщения о недопустимых свойствах Kafka:
VerifiableProperties: Property auto.offset.reset is overridden to largest
VerifiableProperties: Property...
30.04.2024
Как редактировать параметры таблицы HIVE?
Я создал таблицу HIVE через pyspark в формате ORC, и все работает в соответствии с требованиями. Однако, изучив детали таблицы HIVE, я увидел ниже
describe formatted <tbl_name>;
я получаю ниже вывода
Table Parameters:...
10.03.2024
Снижение производительности при большом количестве столбцов. Pyspark
Я столкнулся с проблемой обработки искрового кадра данных (около 9000 столбцов, а иногда и больше). Задача:
Создайте широкий DF с помощью groupBy и pivot.
Преобразование столбцов в векторные и обработка в KMeans из pyspark.ml.
Итак, я...
04.04.2024
Как сделать задание идемпотентным, чтобы его несколько запусков создавали один и тот же результирующий файл в S3
Я сохраняю файл паркета на S3, используя запись spark df. Сценарий: я запускаю Job1 и сохраняю xyz.parquet на S3, где мой Job2 берет xyz.parquet и загружает данные в БД. Теперь я хочу, чтобы в следующий раз, когда я запускаю Job1, он генерировал...
16.04.2024
Новые материалы
Как развивается смешанно-целочисленное программирование, часть 7
Унифицированная техника раннего завершения для первично-двойственных алгоритмов в смешанно-целочисленном коническом программировании (arXiv)
Автор : Ювэнь Чэнь , Кэтрин Нин , Поль Гулар..
Как научить модель Keras распознавать текст переменной длины
Я некоторое время играл с официальным примером Keras image_ocr.py и хочу поделиться своими выводами в этом посте.
В официальном примере выполняется только обучение модели, но отсутствует..
Практическая пакетная нормализация
История начинается после использования инициализации He вместе с ELU (или любым вариантом ReLU) может значительно снизить опасность проблем с исчезающими/взрывающимися градиентами в начале..
Поэзия онлайн-кодирования: путешествие пикселей и страсти
В мире, наполненном инновациями, онлайн-обучение программированию становится холстом, на котором обретает форму полотно вашей мечты. Это больше, чем просто создание строк кода; это сродни..
Обработка изображений с помощью Python - размытие и повышение резкости для начинающих
Как применить ядра свертки к цветным изображениям?
В этой статье мы обсудим, как применять ядра размытия и повышения резкости к изображениям. Эти базовые ядра составляют основу многих более..
Ограничение скорости в .NET Core 7 Web API
Что такое ограничение скорости?
Ограничение скорости — это процесс, используемый для ограничения количества запросов, разрешенных для определенного ресурса в указанном временном окне. .NET..
Стабильная Diffusion 1.0 выдаёт более красивые картинки, чем SD 2.1?! Почему?
Удивительные открытия, которые я сделал недавно. Смотрите в видео: https://youtu.be/PakgD6FewoU
Есть одно логичное объяснение — что у вас?