philm-iOS-wiki
  • 介绍
  • 网络层
    • 说明
  • UI
    • 说明
    • 在ios7以前使用ColorSpace的坑
    • UITableView偏移异常问题
    • drawRect时单独设置文字阴影无效
    • Xcode9下相册访问权限问题
    • 避免同时点击多个Button
    • scroll上的button延迟响应问题
    • uibutton触发边界事件
    • ios 11 上tableview 改动
    • YYImage 显示指定区域的图片
  • 数据持久化
    • 说明
  • 其它
    • 取消延迟执行之坑
    • NSString 转换 float 的精度问题
  • 每周阅读
    • 目录
    • 深入思考NSNotification
    • gitBook使用小助手
    • iOS App签名的原理
    • 响应链
    • iOS10跳转系统到设置页
    • SDWebImage下载高清图内存问题
    • iOS圆角避免离屏渲染
    • 常用的延时调用
    • iOS 神经网络
    • SDWebImage缓存策略
    • 3Dtouch
    • 为什么 Objective-C 对象存储在堆上而不是栈上
    • 深入浅出理解视频编码H264结构
    • CATextLayer学习
    • cocoaPods
    • 任意网站支持RSS
    • Metal简介
    • 动态更改icon
    • CAReplicatorLayer
    • 增加点击间隔
    • 勒索病毒当道的时代
    • iOS常用宏定义
    • Metal实现YUV转RGB渲染视频
    • 获取当前下载的app及下载进度
    • OpenGL ES 三种类型修饰 uniform attribute varying
    • 技术部门引入OKR
    • 基于runloop的线程保活、销毁与通信
    • 深入理解哈希表
    • TOLL-FREE BRIDGING 和 UNMANAGED
    • 开发者能拿到的标识符
    • Swift自定义LOG
    • 系统通知整理
    • iOS 中的 imageIO 与 image 解码
    • CGImageRef基本介绍及方法说明
    • Swift 3.0 语法
    • webview加载部分网页
    • 在CAAnimation中暂停动画
    • 把代码迁移到协调器上
    • ios11API更新整理
    • 非越狱iOS设备的远程控制实现原理
    • 关于本地化
    • swift命名空间
    • CoreML与coremltools体验
    • 力学动画
    • Swift 4官方文档中文版: The Basic(上)
    • swift 中的KVO用法
    • GPUImage的图像形变设计(简单形变部分)
    • iOS响应式架构
    • 移动端图片上传旋转、压缩的解决方案
    • AVFoundation使用指南AVAssert使用
    • 过渡动画
    • 谈谈 MVX 中的 Model
    • AVFoundation编程-AVPlayer使用
    • GPUImage的图像形变设计(复杂形变部分)
    • What's New in LLVM 9
    • ios的事件机制
    • GPUImage源码解读(一)
    • GPUImage源码解读(二)
    • iOS 启动优化
    • 模块化 Swift 中的状态
    • swift中的let和var背后的编程模式
    • Swift Runtime动态性分析
    • RAC下的响应式编程
    • GPUImage源码解读(三)
    • 如何准确判断webView是否加载完成
    • NSObject的+load和+initialize详解
    • ios8以后设置启动图
    • GPUImage源码解读(四)
    • Swift自动闭包
    • IOS11新特性
    • GPUImage源码解读(五)
    • 理解 OC 内部的消息调用、消息转发、类和对象
    • 修饰符
    • IOS 切面统计事件解耦
    • GPUImage源码解读(六)
    • CoreImage介绍
    • 影响Core Animation性能的原因
    • Instruments中的动画工具选项介绍
    • GPUImage源码解读(七)
    • Xcode 7新的特性Lightweight Generics 轻量级泛型与__kindof修饰符
    • GPUImage源码解读(八)
    • Core Image之自定 Filter
    • iOS通用链接
    • 谈nonatomic非线程安全问题
    • 深拷贝与浅拷贝
    • CIKernel 介绍
    • iOS11适配
    • GPUImage源码解读(九)
    • CVPixelBufferCreate使用的坑
    • ios一窥并发底层
    • ARKit进阶:物理世界
    • ARKit的工作原理及流程介绍
    • UI线程卡顿监控
    • FBKVOController使用
    • GPUImage源码解读(十)
    • WKWebView在ios11崩溃问题解决方法
    • 微信iOS SQLite源码优化实践
    • HEIF 和 HEVC 研究
    • 谈谈 iOS 中图片的解压缩
    • 提升 iOS 开发效率! Xcode 9 内置模拟器的9个技巧
    • ObjC和JavaScript的交互,在恰当的时机注入对象
    • iOS数据保护
    • iOS11中网络层的一些变化(Session707&709脱水版)
    • GPUImage源码解读(十一)
    • 一种避免 iOS 内存碎片的方法
    • pods的原理
    • GPUImage源码解读(十二)
    • GPUImage源码解读(十三)
    • iOS 11 Layout的新特性
    • iOS应用瘦身方法思路整理
    • GPUImage源码解读(十四)
    • CAEmitterLayer属性介绍
    • 浅析移动蜂窝网络的特点及其省电方案
    • 如何在 table view 中添加 3D Touch Peek & Pop 功能
    • iOS中锁的介绍与使用
    • NSLog效率低下的原因及尝试lldb断点打印Log
    • GPUImage源码解读(十五)
    • GPUImage源码解读(十六)
    • CADisplayLink
    • GPUImage源码解读(十七)
    • CADisplayLink
    • 老生常谈category增加属性的几种操作
    • 30行代码演示dispatch_once死锁
    • GPUImage源码解读(十八)
    • YYImage设计思路
    • GPUImage源码解读(十九)
    • 深入理解Tagged Pointer
    • iOS 11:WKWebView内容过滤规则详解
    • Swift语法对编译速度的影响
    • GPUImage源码解读(二十)
    • GPUImage源码解读(二十一)
    • iOS App间常用的五种通信方式
    • YYCache深入学习
    • 冲顶大会插件
    • iOS高性能图片架构与设计
    • YUV颜色编码解析
    • iOS传感器:App前后台切换后,获取敏感信息使用touch ID进行校验
    • GPUImage源码解读(二十二)
    • GPUImage源码解读(二十三)
    • 从零开始的机器学习 - Machine Learning(一)
    • 从零开始的机器学习 - Machine Learning(二)
    • GPUImage源码解读(二十四)
    • Objective-C消息转发机制
    • iOS 程序 main 函数之前发生了什么
    • MMKV--基于 mmap 的 iOS 高性能通用 key-value 组件
    • Objective-C 消息发送与转发机制原理
    • 谈Objective-C block的实现
    • GPUImage源码解读(二十五)
    • podfile语法
    • 轻量级低风险 iOS 热更新方案
    • 使用objection来模块化开发iOS项目
    • swift 中delegate的使用注意
    • 使用appledoc自动生成api文档
    • UITextChecker的使用
    • ARKit 如何给SCNNode贴Gif图片
    • Unity与iOS平台交互和原生插件开发
    • SceneKit编程珠玑
Powered by GitBook
On this page
  1. 每周阅读

CoreML与coremltools体验

Previousswift命名空间Next力学动画

Last updated 7 years ago

首先,坦率地讲,本届 WWDC 大会上篇幅相对较长的主题演讲以及其中传递出的大量新鲜资讯令我瞬间被淹没在兴奋与激动当中。我对于新的 API 与新型功能感到非常好奇。而在下载 Xcode 9 与 iOS 11 之后,我又开始着手探索新的框架方案——即 CoreML.framework。事实证明,这套方案相当出色,我们能够利用它实现大量设想,它同时亦带来了几乎无穷无尽的探索空间。在今天的文章中,我们就将由此讨论开去。 CoreML 框架使得开发人员能够在应用程序内部使用机器学习模型,同时根据用户输入内容实现一定程度的结果预测。 问:机器学习模型究竟是什么? 答:如果用比喻的方式进行解释,那么机器学习就是一种结构或者媒介,允许大家向其提出与特定领域相关的问题。为了能够建立起这样的模型,您需要利用机器学习算法或者分类器对数据进行处理。而一旦模型建立完成,大家即可使用其它数据对其进行测试,评估其实际效果是否与预期相符。 这套框架的优势在于其能够与其它 Cocoa API(例如 Vision(β)、Foundation 以及 GameplayKit 等)进行交互。举例来说,只要在项目当中引入您的 CoreML 模型,大家即可为 VNCoreMLRequest 类创建一个实例,并要求 Vision.framework 对图像进行分析。由于我们已经在模型文件当中包含了大量预训练数据,因此各位将能够通过经过优化的方式测试各类新示例。在另一方面,如果您需要处理与文本相关的分类问题,则可使用 NSLinguisticTagger。基本上,苹果公司逐一支持其所有内部类,开发者则可在新框架中直接加以运用。 因此根据苹果公司提供的说明文档,大家只需要“以拖拽方式将该模型添加到您的 Xcode 项目导航器中。” 问:等等,模型文件是从哪里来的? 答:这个嘛,我们可以通过两种方式获取模型文件。首先,大家可以下载苹果公司提供的现成模型 ; 或者可以自行创建此类模型。 自行创建模型? 就在我们观看主题演讲的同时,某位苹果工程师可能正在将此软件包发布至 PyPI。基本上,这套软件包允许我们利用 Keras、Cafee、scikit-learn、libsvm 以及 XGBoost 等工具创建此类模型,而且只要相关模型为.mlmodel 格式,大家即可将其添加到自己的 Xcode 项目当中。 作为演示,以下为我们利用 scikit-learn 构建而成的模型:

-   Linear and Logistic Regression
-   LinearSVC and LinearSVR
-   SVC and SVR
-   NuSVC and NuSVR
-   Gradient Boosting Classifier and Regressor
-   Decision Tree Classifier and Regressor
-   Random Forest Classifier and Regressor
-   Normalizer
-   Imputer
-   Standard Scaler
-   DictVectorizer
-   One Hot Encoder

我们需要将其转换为.mlmodel 格式。出于演示的目的,这里我们选择使用 SVC 数字数据集。另当然,大家也可以利用基于 Keras 的数据集生成神经网络模型,并将其转换为.mlmodel 格式。简而言之,大家只需要编写以下代码即可顺利将模型转换为.mlmodel 格式:

由于我们可以从苹果处直接获取现成模型,因此这里选择使用 ResNet50 神经网络分类器以进行尝试。不过需要强调的是,我对这套分类器的训练还不够充足——如果提供充足的预处理素材,该系统的效果将得到极大提升。 首先,我将该数据集模型添加到 Xcode 项目当中,而其会自动生成与模型相关的信息 UI:

与此同时,Xcode 还会利用此模型文件为我们自动生成另外三个类:

  • Resnet50Input : 表示被纳入我们模型的输入内容特性及特性名称

  • Resnet50Output : 将我们模型的输出结果作为概率标签进行表示

  • Resnet50 : 利用模型建立初始化界面并预测给定示例

基本上,这些类代表着我们这套模型所引入及输出的数据。一旦选定了一份符合我们模型输入格式的图像(具体为 Image)作为数据集,我们即可编写以下代码:

预测输入内容并建立一个 Resnet50Output 类实例。在此之后,我们即可获取每项预测结论的最高概率,并确定拥有最高概率之预测结论的类标签。

为了立即对新的输入内容进行测试,这里我快速创建了一款应用以分析图像与视频。首先,我们允许用户从相册当中选择图像或者直接进行拍照以获取待分析图像。正如之前所看到,这里我们可以使用两个来自 Resnet50 类的 API:

func prediction(input: Resnet50Input) throws -> Resnet50Output
func prediction(image: CVPixelBuffer) throws -> Resnet50Output

我利用前者以处理图像素材,后者则用于处理视频素材。

这种无需任何等待即可看到预测结果的体验让我非常兴奋——而更让我激动的是,视频分析也基本具备同样的感受!因此我创建了一个 AVCaptureSession 实例以捕捉实时相机镜头,并将其作为子视图中的一个层。在此之后,利用以下 AVCaptureVideoDataOutputSampleBufferDelegate 作为代表方法:

func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection)

我得以获得连续缓冲区。与之前的图像处理一样,我以同样的方式对该缓冲区进行处理,并将其设置为这套模型的输入内容。可以看到:

到这里,我对于移动设备的处理能力以及由此带来的潜在实现空间感到极为兴奋。感兴趣的朋友亦可在这里查看对应的 iOS代码库

结论

正如大家所知,Python 语言目前正在被业界广泛用于解决各类机器学习问题,且其拥有非常记熟的社区、工具以及受众基础。但当我听说苹果公司打造出其 Python 库,并允许任何人通过贡献方式提升其效果时,我仍然感到相当意外。而当 Swift 与 Python 开源成果结合起来时,我再次感受到项目中强大的技术力量。整套体系将使得我们能够更快开发、更快学习并更快作出贡献。

视频链接
CoreMLDemo