# 章末小測試

本章涵蓋了很多方面! 如果你沒有掌握所有細節, 不用擔心; 在下一章將幫助你瞭解內部的事情是如何工作的。

不過, 在繼續下一章之前, 讓我們測試一下你在本章學到的內容。

### 1.🤗 Datasets中的 `load_dataset ()` 函數允許你從下列哪個位置加載數據集？
load_dataset() 函數的 data_files 參數來加載本地數據集。",
			correct: true
		},
		{
			text: "Hugging Face Hub",
			explain: "正確! 你可以通過提供數據集 ID 在 Hub 上加載數據集, 例如  load _ dataset ('em otion')  。",
			correct: true
		},
		{
			text: "遠程服務器",
			explain: "正確！ 你可以將URL傳遞給 load_dataset() 函數的 data_files 參數來加載遠程文件。",
			correct: true
		},
	]}
/>

### 2.假設您加載了 GLUE 任務，如下所示:
```py
from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")
```

以下哪個命令將從 `dataset` 中生成50個元素的隨機樣本?

 dataset.sample (50) ",
			explain: "這是不正確的——沒有  Dataset.sample ()  方法。"
		},
		{
			text: "dataset.shuffle().select(range(50))",
			explain: "正確！ 正如你在本章中看待的, 你首先打亂了數據集, 然後從中選擇樣本。",
			correct: true
		},
		{
			text: "dataset.select(range(50)).shuffle()",
			explain: "這是不正確的——儘管代碼會運行, 但它只會隨機處理數據集中的前50個元素。"
		}
	]}
/>

### 3.假設你有一個叫做寵物數據集的家庭寵物數據集，它有一個名字列表示每個寵物的名字。下列哪種方法可以讓你過濾所有名字以字母"L"開頭的寵物的數據？
 pets _ dataset. filter (lambda x: x ['name'] . startswith ('L')) ",
			explain: "正確! 為這些快速過濾使用 Python lambda 函數是一個好主意。你還能想到其他解決方案嗎？",
			correct: true
		},
		{
			text: " pets _ dataset. filter (lambda x ['name'] . startswith ('L') ",
			explain: "這是不正確的—— lambda 函數採用通用格式  lambda * arguments * : * expression * , 因此在這種情況下需要提供參數。"
		},
		{
			text: "創建一個類似於  def filter _ names (x) : return x ['name'] . startswith ('L')  的函數並運行  pets _ dataset. filter (filter _ names)  。",
			explain: "正確！就像使用  Dataset.map ()  一樣，你可以將顯式函數傳遞給  Dataset.filter ()  。當你有一些不適合於簡短 lambda 函數的複雜邏輯時，這是非常有用的。其他解決方案中還有哪一個可行？",
			correct: true
		}
	]}
/>

### 4.什麼是內存映射？

### 5.下列哪一項是內存映射的主要好處？

### 6.為什麼下面的代碼是錯誤的？
```py
from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]
```

 IterableDataset  。",
			explain: "正確!  IterableDataset  是一個生成器, 而不是一個容器, 因此你應該使用  next (iter (dataset))  來訪問它的元素。",
			correct: true
		},
		{
			text: "數據集  allocine  沒有分割訓練集。",
			explain: "這是不正確的---- 查看 Hub 上的[  allocine  dataset card ]( https://huggingface.co/datasets/allocine ), 看看它包含哪些拆分。"
		}
	]}
/>

### 7.創建數據集卡的主要好處是什麼？

### 8.什麼是語義搜索？

### 9.對於非對稱語義搜索，通常有:

### 10.我可以使用數據集加載數據用於其他領域，如語音處理？