openmind/docs/zh/api_reference/apis/omdatasets_api.md

# OmDataset接口

`OmDataset`模块可以实现魔乐社区数据集下载使用。

## OmDataset类

`OmDataset`抽取了datasets下载相关代码，适配了`openmind_hub`。该类包含`load_dataset`接口，实现了`datasets`的`load_dataset`功能，支持从魔乐社区下载数据集。

### openmind.omdatasets.OmDataset.load_dataset()方法

**接口原型**

```python
def load_dataset(
    path: Optional[str] = None,
    name: Optional[str] = None,
    revision: Optional[str] = "main",
    split: Optional[str] = None,
    data_dir: Optional[str] = None,
    data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None,
    download_mode: Optional[DownloadMode] = DownloadMode.REUSE_DATASET_IF_EXISTS,
    cache_dir: Optional[str] = None,
    token: Optional[str] = None,
    dataset_info_only: Optional[bool] = False,
    trust_remote_code: bool = None,
    streaming: bool = False,
    **config_kwargs,
)
```

**参数列表**

- **path**：数据集仓库名。
- **name**：数据集中子数据集名称。当需要指定下载多个子数据集中某一个时，可配置此参数。
- **revision**：数据集分支或版本。
- **split**：加载数据集指定子数据集。如果值为None，将返回包含所有数据 (具体配置情况请查看仓库数据集metadata)。
- **data_dir**：仓库中指定下载数据集所在的目录。
- **data_files**：数据集文件。
- **download_mode**：数据下载模式，可以选择输入`"reuse_dataset_if_exists"`或`"force_redownload"`。`"reuse_dataset_if_exists"`代表`DownloadMode.REUSE_DATASET_IF_EXISTS`, 即如果已下载过可复用缓存；`"force_redownload"`代表`DownloadMode.FORCE_REDOWNLOAD`，即强制重新下载数据集。目前默认使用`DownloadMode.REUSE_DATASET_IF_EXISTS`。
- **cache_dir**：缓存数据的目录。
- **token**：用户访问令牌，访问非公开数据集时必填。
- **dataset_info_only**：如果设定为True， 只返回数据集config和info信息。
- **trust_remote_code**: 如果设定为True，下载数据集中如包含py文件可被执行。
- **config_kwargs**：其余待传递关键参数。
- **streaming**：如果设置为True，则不下载数据文件。相反，它会在遍历数据集时逐步流式传输数据。在这种情况下，将返回一个IterableDataset或IterableDatasetDict。

若不设置`streaming=True`，该接口返回`datasets.dataset_dict.DatasetDict`类。