CoreML与coremltools体验

首先,坦率地讲,本届 WWDC 大会上篇幅相对较长的主题演讲以及其中传递出的大量新鲜资讯令我瞬间被淹没在兴奋与激动当中。我对于新的 API 与新型功能感到非常好奇。而在下载 Xcode 9 与 iOS 11 之后,我又开始着手探索新的框架方案——即 CoreML.framework。事实证明,这套方案相当出色,我们能够利用它实现大量设想,它同时亦带来了几乎无穷无尽的探索空间。在今天的文章中,我们就将由此讨论开去。 CoreML 框架使得开发人员能够在应用程序内部使用机器学习模型,同时根据用户输入内容实现一定程度的结果预测。 问:机器学习模型究竟是什么? 答:如果用比喻的方式进行解释,那么机器学习就是一种结构或者媒介,允许大家向其提出与特定领域相关的问题。为了能够建立起这样的模型,您需要利用机器学习算法或者分类器对数据进行处理。而一旦模型建立完成,大家即可使用其它数据对其进行测试,评估其实际效果是否与预期相符。 这套框架的优势在于其能够与其它 Cocoa API(例如 Vision(β)、Foundation 以及 GameplayKit 等)进行交互。举例来说,只要在项目当中引入您的 CoreML 模型,大家即可为 VNCoreMLRequest 类创建一个实例,并要求 Vision.framework 对图像进行分析。由于我们已经在模型文件当中包含了大量预训练数据,因此各位将能够通过经过优化的方式测试各类新示例。在另一方面,如果您需要处理与文本相关的分类问题,则可使用 NSLinguisticTagger。基本上,苹果公司逐一支持其所有内部类,开发者则可在新框架中直接加以运用。 因此根据苹果公司提供的说明文档,大家只需要“以拖拽方式将该模型添加到您的 Xcode 项目导航器中。” 问:等等,模型文件是从哪里来的? 答:这个嘛,我们可以通过两种方式获取模型文件。首先,大家可以下载苹果公司提供的现成模型 ; 或者可以自行创建此类模型。 自行创建模型? 就在我们观看主题演讲的同时,某位苹果工程师可能正在将此软件包发布至 PyPI。基本上,这套软件包允许我们利用 Keras、Cafee、scikit-learn、libsvm 以及 XGBoost 等工具创建此类模型,而且只要相关模型为.mlmodel 格式,大家即可将其添加到自己的 Xcode 项目当中。 作为演示,以下为我们利用 scikit-learn 构建而成的模型:

- Linear and Logistic Regression
- LinearSVC and LinearSVR
- SVC and SVR
- NuSVC and NuSVR
- Gradient Boosting Classifier and Regressor
- Decision Tree Classifier and Regressor
- Random Forest Classifier and Regressor
- Normalizer
- Imputer
- Standard Scaler
- DictVectorizer
- One Hot Encoder

我们需要将其转换为.mlmodel 格式。出于演示的目的,这里我们选择使用 SVC 数字数据集。另当然,大家也可以利用基于 Keras 的数据集生成神经网络模型,并将其转换为.mlmodel 格式。简而言之,大家只需要编写以下代码即可顺利将模型转换为.mlmodel 格式:

由于我们可以从苹果处直接获取现成模型,因此这里选择使用 ResNet50 神经网络分类器以进行尝试。不过需要强调的是,我对这套分类器的训练还不够充足——如果提供充足的预处理素材,该系统的效果将得到极大提升。 首先,我将该数据集模型添加到 Xcode 项目当中,而其会自动生成与模型相关的信息 UI:

与此同时,Xcode 还会利用此模型文件为我们自动生成另外三个类:

  • Resnet50Input : 表示被纳入我们模型的输入内容特性及特性名称

  • Resnet50Output : 将我们模型的输出结果作为概率标签进行表示

  • Resnet50 : 利用模型建立初始化界面并预测给定示例

基本上,这些类代表着我们这套模型所引入及输出的数据。一旦选定了一份符合我们模型输入格式的图像(具体为 Image)作为数据集,我们即可编写以下代码:

预测输入内容并建立一个 Resnet50Output 类实例。在此之后,我们即可获取每项预测结论的最高概率,并确定拥有最高概率之预测结论的类标签。

为了立即对新的输入内容进行测试,这里我快速创建了一款应用以分析图像与视频。首先,我们允许用户从相册当中选择图像或者直接进行拍照以获取待分析图像。正如之前所看到,这里我们可以使用两个来自 Resnet50 类的 API:

func prediction(input: Resnet50Input) throws -> Resnet50Output
func prediction(image: CVPixelBuffer) throws -> Resnet50Output

我利用前者以处理图像素材,后者则用于处理视频素材。

这种无需任何等待即可看到预测结果的体验让我非常兴奋——而更让我激动的是,视频分析也基本具备同样的感受!因此我创建了一个 AVCaptureSession 实例以捕捉实时相机镜头,并将其作为子视图中的一个层。在此之后,利用以下 AVCaptureVideoDataOutputSampleBufferDelegate 作为代表方法:

func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection)

我得以获得连续缓冲区。与之前的图像处理一样,我以同样的方式对该缓冲区进行处理,并将其设置为这套模型的输入内容。可以看到:

视频链接

到这里,我对于移动设备的处理能力以及由此带来的潜在实现空间感到极为兴奋。感兴趣的朋友亦可在这里查看对应的 iOS代码库

CoreMLDemo

结论

正如大家所知,Python 语言目前正在被业界广泛用于解决各类机器学习问题,且其拥有非常记熟的社区、工具以及受众基础。但当我听说苹果公司打造出其 Python 库,并允许任何人通过贡献方式提升其效果时,我仍然感到相当意外。而当 Swift 与 Python 开源成果结合起来时,我再次感受到项目中强大的技术力量。整套体系将使得我们能够更快开发、更快学习并更快作出贡献。