Java 8流API教程

2020-01-18 5032 words 11 minutes

Contents

1. 概述

在这个综合教程中，我们将介绍 Java 8 Streams 从创建到并行执行的实际用途。要理解本材料，读者需要具备 Java 8（lambda 表达式、*可选、*方法引用）和 Stream API 的基本知识。为了更熟悉这些主题，请查看我们之前的文章：Java 8 中的新特性和Java 8 Streams 简介。

2. 流创建

有很多方法可以创建不同源的流实例。一旦创建，实例**将不会修改其源，**因此允许从单个源创建多个实例。

2.1. 空流

在创建空流的情况下，我们应该使用**empty()方法：

Stream<String> streamEmpty = Stream.empty();

我们经常在创建时使用empty()方法来避免为没有元素的流返回null：

public Stream<String> streamOf(List<String> list) {
    return list == null || list.isEmpty() ? Stream.empty() : list.stream();
}

2.2. Collection流

我们还可以创建任何类型的Collection(Collection、List、Set）的流：

Collection<String> collection = Arrays.asList("a", "b", "c");
Stream<String> streamOfCollection = collection.stream();

2.3. 数组流

数组也可以是流的源：

Stream<String> streamOfArray = Stream.of("a", "b", "c");

我们还可以从现有数组或数组的一部分创建流：

String[] arr = new String[]{"a", "b", "c"};
Stream<String> streamOfArrayFull = Arrays.stream(arr);
Stream<String> streamOfArrayPart = Arrays.stream(arr, 1, 3);

2.4. Stream.builder()

**使用 builder 时，应在语句的右侧额外指定所需的类型，**否则*build()方法将创建Stream<*Object> 的实例：

Stream<String> streamBuilder =
  Stream.<String>builder().add("a").add("b").add("c").build();

2.5. Stream.generate()

***generate()**方法接受一个Supplier<T>来生成元素。由于生成的流是无限的，开发人员应指定所需的大小，否则generate()*方法将一直工作，直到达到内存限制：

Stream<String> streamGenerated =
  Stream.generate(() -> "element").limit(10);

上面的代码创建了一个包含十个字符串的序列，其值为“element”。

2.6. Stream.iterate()

创建无限流的另一种方法是使用***iterate()***方法：

Stream<Integer> streamIterated = Stream.iterate(40, n -> n + 2).limit(20);

结果流的第一个元素是*iterate()*方法的第一个参数。创建每个后续元素时，指定的函数将应用于前一个元素。在上面的示例中，第二个元素将是 42。

2.7. 原语流

Java 8 提供了使用三种基本类型创建流的可能性：int、long和double。由于*Stream<T>*是一个泛型接口，并且无法将基元用作泛型的类型参数，因此创建了三个新的特殊接口：IntStream、LongStream、DoubleStream。 使用新界面可以减少不必要的自动装箱，从而提高生产力：

IntStream intStream = IntStream.range(1, 3);
LongStream longStream = LongStream.rangeClosed(1, 3);

***range(int startInclusive, int endExclusive)***方法创建从第一个参数到第二个参数的有序流。它以等于 1 的步长递增后续元素的值。结果不包括最后一个参数，它只是序列的上限。 ***rangeClosed(int startInclusive, int endInclusive)*方法做同样的事情，只有一个区别，包括第二个元素。我们可以使用这两种方法来生成三种类型的原语流中的任何一种。从 Java 8 开始，Random 类提供了多种生成基元流的方法。例如，以下代码创建了一个DoubleStream，它具有三个元素：

Random random = new Random();
DoubleStream doubleStream = random.doubles(3);

2.8. String流

在String类的chars()方法的帮助下，我们还可以使用String作为创建流的源。由于 JDK 中没有 CharStream 接口，我们使用IntStream来表示字符流。

IntStream streamOfChars = "abc".chars();

以下示例根据指定的RegEx将String分解为子字符串：

Stream<String> streamOfString =
  Pattern.compile(", ").splitAsStream("a, b, c");

2.9. 文件流

此外，Java NIO 类Files允许我们通过*lines()方法生成文本文件的Stream<*String> 。文本的每一行都成为流的一个元素：

Path path = Paths.get("C:\\file.txt");
Stream<String> streamOfStrings = Files.lines(path);
Stream<String> streamWithCharset = 
  Files.lines(path, Charset.forName("UTF-8"));

Charset可以指定为*lines()*方法的参数。

3. 引用流

只要只调用中间操作，我们就可以实例化一个流，并对其具有可访问的引用。执行终端操作会使流不可访问。

为了证明这一点，我们暂时忘记了最佳实践是链接操作顺序。除了不必要的冗长之外，从技术上讲，以下代码是有效的：

Stream<String> stream = 
  Stream.of("a", "b", "c").filter(element -> element.contains("b"));
Optional<String> anyElement = stream.findAny();

但是，在调用终端操作后尝试重用相同的引用将触发IllegalStateException：

Optional<String> firstElement = stream.findFirst();

由于IllegalStateException是RuntimeException，因此编译器不会发出有关问题的信号。所以记住Java 8流不能被重用是非常重要的。 这种行为是合乎逻辑的。我们设计流以将有限的操作序列应用于功能样式的元素源，而不是存储元素。因此，要使前面的代码正常工作，应该进行一些更改：

List<String> elements =
  Stream.of("a", "b", "c").filter(element -> element.contains("b"))
    .collect(Collectors.toList());
Optional<String> anyElement = elements.stream().findAny();
Optional<String> firstElement = elements.stream().findFirst();

4. 流管道

为了对数据源的元素执行一系列操作并聚合它们的结果，我们需要三个部分：源、中间操作和终端操作。 中间操作返回一个新的修改流。例如，要创建一个没有少量元素的现有流的新流，应该使用*skip()*方法：

Stream<String> onceModifiedStream =
  Stream.of("abcd", "bbcd", "cbcd").skip(1);

如果我们需要多个修改，我们可以链接中间操作。假设我们还需要用前几个字符的子字符串替换当前*Stream<String>的每个元素。我们可以通过链接skip()和map()*方法来做到这一点：

Stream<String> twiceModifiedStream =
  stream.skip(1).map(element -> element.substring(0, 3));

正如我们所见，*map()*方法将 lambda 表达式作为参数。如果我们想了解有关 lambda 的更多信息，可以查看我们的教程Lambda 表达式和函数式接口：提示和最佳实践。一条溪流本身是毫无价值的；用户对终端操作的结果感兴趣，它可以是某种类型的值或应用于流的每个元素的操作。每个流只能使用一个终端操作。 使用流的正确和最方便的方法是流管道，它是流源、中间操作和终端操作的链：

List<String> list = Arrays.asList("abc1", "abc2", "abc3");
long size = list.stream().skip(1)
  .map(element -> element.substring(0, 3)).sorted().count();

5. 惰性调用

中间操作是惰性的。这意味着只有在终端操作执行需要时才会调用它们。 例如，让我们调用方法wasCalled()，每次调用时都会增加一个内部计数器：

private long counter;
 
private void wasCalled() {
    counter++;
}

现在让我们从操作filter()调用方法wasCalled() ：

List<String> list = Arrays.asList(“abc1”, “abc2”, “abc3”);
counter = 0;
Stream<String> stream = list.stream().filter(element -> {
    wasCalled();
    return element.contains("2");
});

由于我们有三个元素的来源，我们可以假设filter()方法将被调用 3 次，并且counter变量的值为3。但是，运行此代码根本不会更改counter，它是仍然为零，所以*filter()方法甚至没有被调用一次。终端操作缺失的原因。让我们通过添加一个map()操作和一个终端操作findFirst()*来稍微重写这段代码。我们还将在日志记录的帮助下添加跟踪方法调用顺序的功能：

Optional<String> stream = list.stream().filter(element -> {
    log.info("filter() was called");
    return element.contains("2");
}).map(element -> {
    log.info("map() was called");
    return element.toUpperCase();
}).findFirst();

结果日志显示我们调用了两次filter()方法和一次map()方法。这是因为管道是垂直执行的。在我们的示例中，流的第一个元素不满足过滤器的谓词。然后我们为通过过滤器的第二个元素调用filter()方法。在没有为第三个元素调用filter()的情况下，我们通过管道进入map()方法。 findFirst()操作只满足一个元素。所以在这个特定的例子中，惰性调用允许我们避免两个方法调用，一个用于filter()，一个用于map()。

6. 执行顺序

从性能的角度来看，正确的顺序是流管道中链接操作的最重要方面之一：

long size = list.stream().map(element -> {
    wasCalled();
    return element.substring(0, 3);
}).skip(2).count();

执行此代码将使计数器的值增加三。这意味着我们调用了3 次流的map()方法，但是size的值是 1。所以生成的流只有一个元素，我们无缘无故地执行了昂贵的*map()操作三分之二。如果我们改变skip()和map()方法的顺序，counter只会增加一。所以我们只调用一次map()*方法：

long size = list.stream().skip(2).map(element -> {
    wasCalled();
    return element.substring(0, 3);
}).count();

这给我们带来了以下规则：**减少流大小的中间操作应该放在应用于每个元素的操作之前。**因此，我们需要将 skip()、*filter()和distinct()*等方法保留在流管道的顶部。

7. 流减少

API 有许多终端操作，可将流聚合为类型或原语：count()、max()、min()和sum()。但是，这些操作根据预定义的实现进行。那么*如果开发者需要自定义一个 Stream 的缩减机制呢？有两种方法可以让我们做到这一点，reduce() 和collect()***方法。

7.1. reduce()方法

此方法有三种变体，它们的签名和返回类型不同。它们可以具有以下参数：

identity – 累加器的初始值，如果流为空且没有可累加的内容，则为默认值 accumulator – 一个指定元素聚合逻辑的函数。由于累加器为每一步减少创建一个新值，新值的数量等于流的大小，只有最后一个值是有用的。这对性能来说不是很好。 combiner – 聚合累加器结果的函数。我们只在并行模式下调用 combiner 来减少来自不同线程的累加器的结果。

现在让我们看看这三种方法的实际效果：

OptionalInt reduced =
  IntStream.range(1, 4).reduce((a, b) -> a + b);

reduced= 6 (1 + 2 + 3)

int reducedTwoParams =
  IntStream.range(1, 4).reduce(10, (a, b) -> a + b);

reducedTwoParams= 16 (10 + 1 + 2 + 3)

int reducedParams = Stream.of(1, 2, 3)
  .reduce(10, (a, b) -> a + b, (a, b) -> {
     log.info("combiner was called");
     return a + b;
  });

结果将与前面的示例（16）相同，并且没有登录，这意味着没有调用组合器。要使组合器工作，流应该是并行的：

int reducedParallel = Arrays.asList(1, 2, 3).parallelStream()
    .reduce(10, (a, b) -> a + b, (a, b) -> {
       log.info("combiner was called");
       return a + b;
    });

这里的结果不同（36），并且组合器被调用了两次。这里通过以下算法进行归约：累加器通过将流的每个元素添加到identity运行了 3 次。这些行动是并行进行的。结果，它们有 (10 + 1 = 11; 10 + 2 = 12; 10 + 3 = 13;)。现在 combiner 可以合并这三个结果。它需要两次迭代（12 + 13 = 25；25 + 11 = 36）。

7.2. collect()方法

流的缩减也可以通过另一个终端操作，collect()方法来执行。它接受类型为Collector的参数，该参数指定归约机制。已经为大多数常见操作创建了预定义的收集器。它们可以在Collector类型的帮助下访问。在本节中，我们将使用以下List作为所有流的源：

List<Product> productList = Arrays.asList(new Product(23, "potatoes"),
  new Product(14, "orange"), new Product(13, "lemon"),
  new Product(23, "bread"), new Product(13, "sugar"));

将流转换为Collection（Collection、List或Set）：

List<String> collectorCollection = 
  productList.stream().map(Product::getName).collect(Collectors.toList());

减少为String：

String listToString = productList.stream().map(Product::getName)
  .collect(Collectors.joining(", ", "[", "]"));

*joiner()方法可以有一到三个参数（分隔符、前缀、后缀）。使用joiner()*最方便的事情是开发人员无需检查流是否到达其末尾即可应用后缀而不应用分隔符。Collector会处理的。 处理流的所有数值元素的平均值：

double averagePrice = productList.stream()
  .collect(Collectors.averagingInt(Product::getPrice));

处理流的所有数字元素的总和：

int summingPrice = productList.stream()
  .collect(Collectors.summingInt(Product::getPrice));

averagingXX()、*summingXX()和summarizingXX()方法可以使用原语（int、long、double）和它们的包装类（Integer、Long、Double）。这些方法的一个更强大的特性是提供映射。因此，开发人员不需要在collect()方法之前使用额外的map()*操作。

收集有关流元素的统计信息：

IntSummaryStatistics statistics = productList.stream()
  .collect(Collectors.summarizingInt(Product::getPrice));

通过使用IntSummaryStatistics类型的结果实例，开发人员可以通过应用toString()方法创建统计报告。结果将是一个与“ IntSummaryStatistics{count=5, sum=86, min=13, average=17,200000, max=23} ”相同的字符串。通过应用getCount()、getSum()、getMin()、getAverage()和getMax()方法，也很容易从该对象中提取count、sum、min和average的单独值。所有这些值都可以从单个管道中提取。

根据指定功能对流的元素进行分组：

Map<Integer, List<Product>> collectorMapOfLists = productList.stream()
  .collect(Collectors.groupingBy(Product::getPrice));

在上面的示例中，流被简化为Map，它按价格对所有产品进行分组。

根据一些谓词将流的元素分组：

Map<Boolean, List<Product>> mapPartioned = productList.stream()
  .collect(Collectors.partitioningBy(element -> element.getPrice() > 15));

推动收集器执行额外的转换：

Set<Product> unmodifiableSet = productList.stream()
  .collect(Collectors.collectingAndThen(Collectors.toSet(),
  Collections::unmodifiableSet));

在这种特殊情况下，收集器已将流转换为Set，然后从中创建不可更改的Set。

自定义收集器： 如果出于某种原因应该创建自定义收集器，那么最简单且最简洁的方法是使用类型为Collector的*of()*方法。

Collector<Product, ?, LinkedList<Product>> toLinkedList =
  Collector.of(LinkedList::new, LinkedList::add, 
    (first, second) -> { 
       first.addAll(second); 
       return first; 
    });
LinkedList<Product> linkedListOfPersons =
  productList.stream().collect(toLinkedList);

在这个例子中，收集器的一个实例被简化为*LinkedList<*Person>。

8. 并行流

在 Java 8 之前，并行化很复杂。ExecutorService 和*ForkJoin * 的出现稍微简化了开发人员的生活，但仍然值得记住如何创建特定的执行器，如何运行它等等。Java 8 引入了一种以函数式风格实现并行性的方法。 API 允许我们创建并行流，以并行模式执行操作。当流的来源是Collection或array时，可以借助***parallelStream()***方法来实现：

Stream<Product> streamOfCollection = productList.parallelStream();
boolean isParallel = streamOfCollection.isParallel();
boolean bigPrice = streamOfCollection
  .map(product -> product.getPrice() * 12)
  .anyMatch(price -> price > 200);

如果流的来源不是Collection或array，则应使用**parallel()方法：

IntStream intStreamParallel = IntStream.range(1, 150).parallel();
boolean isParallel = intStreamParallel.isParallel();

在底层，Stream API 自动使用ForkJoin框架来并行执行操作。默认情况下，将使用公共线程池，并且无法（至少目前）为其分配一些自定义线程池。这可以通过使用一组自定义的并行收集器来克服。在并行模式下使用流时，请避免阻塞操作。当任务需要相似的时间来执行时，最好使用并行模式。如果一项任务的持续时间比另一项长得多，它可能会减慢整个应用程序的工作流程。

并行模式下的流可以使用*sequential()*方法转换回顺序模式：

IntStream intStreamSequential = intStreamParallel.sequential();
boolean isParallel = intStreamSequential.isParallel();