# OmDataset接口 `OmDataset`模块可以实现魔乐社区数据集下载使用。 ## OmDataset类 `OmDataset`抽取了datasets下载相关代码,适配了`openmind_hub`。该类包含`load_dataset`接口,实现了`datasets`的`load_dataset`功能,支持从魔乐社区下载数据集。 ### openmind.omdatasets.OmDataset.load_dataset()方法 **接口原型** ```python def load_dataset( path: Optional[str] = None, name: Optional[str] = None, revision: Optional[str] = "main", split: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, download_mode: Optional[DownloadMode] = DownloadMode.REUSE_DATASET_IF_EXISTS, cache_dir: Optional[str] = None, token: Optional[str] = None, dataset_info_only: Optional[bool] = False, trust_remote_code: bool = None, streaming: bool = False, **config_kwargs, ) ``` **参数列表** - **path**:数据集仓库名。 - **name**:数据集中子数据集名称。当需要指定下载多个子数据集中某一个时,可配置此参数。 - **revision**:数据集分支或版本。 - **split**:加载数据集指定子数据集。如果值为None,将返回包含所有数据 (具体配置情况请查看仓库数据集metadata)。 - **data_dir**:仓库中指定下载数据集所在的目录。 - **data_files**:数据集文件。 - **download_mode**:数据下载模式,可以选择输入`"reuse_dataset_if_exists"`或`"force_redownload"`。`"reuse_dataset_if_exists"`代表`DownloadMode.REUSE_DATASET_IF_EXISTS`, 即如果已下载过可复用缓存;`"force_redownload"`代表`DownloadMode.FORCE_REDOWNLOAD`,即强制重新下载数据集。目前默认使用`DownloadMode.REUSE_DATASET_IF_EXISTS`。 - **cache_dir**:缓存数据的目录。 - **token**:用户访问令牌,访问非公开数据集时必填。 - **dataset_info_only**:如果设定为True, 只返回数据集config和info信息。 - **trust_remote_code**: 如果设定为True,下载数据集中如包含py文件可被执行。 - **config_kwargs**:其余待传递关键参数。 - **streaming**:如果设置为True,则不下载数据文件。相反,它会在遍历数据集时逐步流式传输数据。在这种情况下,将返回一个IterableDataset或IterableDatasetDict。 若不设置`streaming=True`,该接口返回`datasets.dataset_dict.DatasetDict`类。