Files
openmind/docs/zh/api_reference/apis/omdatasets_api.md
2024-11-26 09:24:53 +08:00

2.4 KiB
Raw Permalink Blame History

OmDataset接口

OmDataset模块可以实现魔乐社区数据集下载使用。

OmDataset类

OmDataset抽取了datasets下载相关代码适配了openmind_hub。该类包含load_dataset接口,实现了datasetsload_dataset功能,支持从魔乐社区下载数据集。

openmind.omdatasets.OmDataset.load_dataset()方法

接口原型

def load_dataset( 
    path: Optional[str] = None,
    name: Optional[str] = None,
    revision: Optional[str] = "main",
    split: Optional[str] = None,
    data_dir: Optional[str] = None,
    data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None,
    download_mode: Optional[DownloadMode] = DownloadMode.REUSE_DATASET_IF_EXISTS,
    cache_dir: Optional[str] = None,
    token: Optional[str] = None,
    dataset_info_only: Optional[bool] = False,
    trust_remote_code: bool = None,
    streaming: bool = False,
    **config_kwargs,
)

参数列表

  • path:数据集仓库名。
  • name:数据集中子数据集名称。当需要指定下载多个子数据集中某一个时,可配置此参数。
  • revision:数据集分支或版本。
  • split加载数据集指定子数据集。如果值为None将返回包含所有数据 (具体配置情况请查看仓库数据集metadata)。
  • data_dir:仓库中指定下载数据集所在的目录。
  • data_files:数据集文件。
  • download_mode:数据下载模式,可以选择输入"reuse_dataset_if_exists""force_redownload""reuse_dataset_if_exists"代表DownloadMode.REUSE_DATASET_IF_EXISTS, 即如果已下载过可复用缓存;"force_redownload"代表DownloadMode.FORCE_REDOWNLOAD,即强制重新下载数据集。目前默认使用DownloadMode.REUSE_DATASET_IF_EXISTS
  • cache_dir:缓存数据的目录。
  • token:用户访问令牌,访问非公开数据集时必填。
  • dataset_info_only如果设定为True 只返回数据集config和info信息。
  • trust_remote_code: 如果设定为True下载数据集中如包含py文件可被执行。
  • config_kwargs:其余待传递关键参数。
  • streaming如果设置为True则不下载数据文件。相反它会在遍历数据集时逐步流式传输数据。在这种情况下将返回一个IterableDataset或IterableDatasetDict。

若不设置streaming=True,该接口返回datasets.dataset_dict.DatasetDict类。