网易乐得技术团队

代码在线编译器(上)- 编辑及编译

在线编译器

代码在线编译器,即在线代码编写运行工具,提供给用户在线代码编辑、代码提示、代码诊断、编译、运行等一系列从代码编写到启动运行过程中必要的功能服务,以达到IDE的核心功能,应用范围较广,从使用场景下大致分为两类:

一般场景
  • 功能基础:仅基于开发语言的语法特点及常用原生库。
  • 内容描述:此应用场景下,对一些涉及IO,诸如读写、外部请求等极端操作类型支持程度较高,代码运行环境通常使用沙箱,以满足安全性需要。
  • 应用范畴:主要的应用业务范畴有在线代码辅助编辑工具(Tool等)、在线考试平台(牛客网等)、算法竞赛刷题平台(leetcode等)。
特殊场景
  • 功能基础:基于平台提供的大量工具API,仅结合必要的常用原生库。
  • 内容描述:此应用场景下,用户编写的代码涉及的内容被限制在平台规定的有界范围内,代码风格、格式、结构也需按照平台规范进行展开,编译器除在基本语法检测的基础上也会对代码内涉及内容、方法做细致检测,对一些涉及IO、读写、网络请求等敏感操作会进行严格限制。由于需要使用平台本身提供的API,故简单的沙箱已经无法满足需要,需要针对不同的业务特点进行特殊的代码运行环境安全保障。
  • 应用范畴:应用方面,根据平台工具API提供的出发点不同,业务范畴会被限制在平台涉及的范围内。在量化范畴内,多数量化平台会提供Python、Java的策略代码在线编译功能,并提供相关API以供用户完成量化策略开发的需要。

由于一般场景比较常见,开发及搭建的相关成熟样例也较多,本文在此不过多进行讨论。对于特殊场景,本文将结合在网易贵金属量化平台Java在线编译器的相关案例,对于在线编译部分的实现思路进行详细阐述。

案例说明

网易贵金属量化平台,核心是利用在线编译器相关原理,(目前)提供了针对贵金属交易的相关量化策略开发功能。后文每一个部分将以此平台为案例,结合理论总结进行案例阐述。为方便之后的阐述,现对系统基本情况作出简单说明:

  • 业务核心说明:用户可结合自身市场投资经验,形成策略,以回测或实盘方式,使用历史行情或实时行情以策略内容进行在历某个阶段或实时地模拟交易操作,输出策略交易盈亏,以达到验证策略、优化策略、积攒投资经验的目的。
  • 策略:策略即“决定何种条件下触发交易”的一段逻辑,条件判定依据除时间及商品行情外,还可能包含机器学习结果、训练模型结果以及经济学指标等。表现在量化平台上是一段Java(或其他语言)代码,代码通过调用平台提供的接口进行逻辑判断以及交易操作。
  • 策略输出:策略输出的直接结果就是交易信号本身及交易记录,统计出某段时间该策略总盈亏、最大回撤、夏普率等常用盈亏评价统计指标。

过程上体现为:

  • 用户编写策略
  • 平台模拟交易
  • 交易结果统计

用户编写策略
image
模拟交易并统计结果

image

在线编辑及编译

一个完整的在线编译流程,是从用户编写的代码开始的(当然代码来源不仅仅局限于此),代码从构建(编写或组装)到编译直至运行,最终输出结果或造成预期影响。流程包括

  • 代码构建
  • 语法检测
  • 代码诊断
  • 代码编译
  • 代码运行
  • 内容反馈

代码构建

代码构建,涉及到语言类型、代码结构以及最终的代码生成方式。

语言类型

在线编译器平台构建前,需明确平台支持的语言类型。语言类型会影响到的方面:

  • 编译方式:可归纳至以下三种类型:
    • 解释型:解释型语言编写的程序,由其对应的解释程序执行的,不会直接涉及到编译过程,如JavaScript等。此类语言在搭建时一般可以动态的进行执行,而无需后台程序进行繁琐的编译过程。在平台架构设计时,可结合实际需要将相关代码的处理过程直接放置于平台上层(如浏览器本身),直接反馈结果,而无需将请求处理过程放置在底层,反而会把逻辑搞复杂。
    • 编译型:编译型语言通常功能较为强大且相对底层,需要先将代码编译为目标程序机器码文件,如C、C++等,目标程序文件可脱离代码在计算机上多次运行。此类语言的用户代码,需将用户最终提交的代码交由服务器等具体计算机进行处理后,再进行程序运行进而反馈程序运行结果。
    • 混合型:混合型语言与编译型语言不同点在于,编译过程不生成机器码而生成字节码文件,如Java、Python等,字节码文件同样可被加载至特殊的运行环境中多次运行但却无法被计算器直接识别。此类语言的用户代码,同样需要交由服务器等计算机进行处理,但运行时必须交由能够提供特殊运行环境的计算机来执行。
  • 代码风格:代码风格,主要是需要确定代码是否对格式有特殊的要求,从而对提示过程作出优化,且会对之后的代码检测过程提供便利。例如Python会对缩进有强依赖,那么在代码提示和用户使用方面需要进行特殊的服务优化。
  • 代码提示:代码提示必须在语言类型确认后才可确定,一般的基于浏览器的前端在线编辑框架,对某些语言的原生API会有现成的提示,除这一部分外,如果需要提示给用户平台自身开发的一些额外的API,则需要对这部分额外的内容整理为代码提示要求的格式,进行补充与导入。

代码结构

一般场景下,对用户代码的结构一般没有特殊需求,即与一般的IDE功能相同。
但是在特殊场景下,由于代码编写的目的相对明确,代码中包含的内容也是有预期的,所以在用户代码编写前,就可以通过固定代码结构的方式来限制用户代码的编写内容及构成,在之后的代码检测阶段,也可以根据此固定格式来进行初步的代码合理性检测。

以Java为例,固定结构的内容包括:

  • 禁止指定package结构
  • 禁止类import导入
  • 必须继承的父类
  • 必须实现的接口
  • 类唯一性
  • 必须包含的方法
  • 代码固定位置的提示性用注释

生成方式

代码生成方式上,根据平台对用户代码编写过程中的不同支持方式,在交互层面,用户生成自己代码的路径会有所不同,但最终结果均以生成合理代码为目标。

量化平台范畴中,用户代码用于实现对既往数据计算学习从而在未来做出决策的策略,以目前市场上一些特征较为突出的量化平台为例,生成方式可包括:

  • 原始代码编辑方式

image
(样例图片来源:网易贵金属量化平台)此种方式下,即便借助代码提示和相关注释说明,用户在代码构建过程中也会较为困难,但对于成熟程序员而言,反而自由度会相对较高。

  • 组件化组建方式

image
(样例图片来源:BigQuant)此种方式中,对可预估的代码内容进行组件化,用户选用其需要的组件,由平台根据组件选择情况负责拼接,大大降低了代码编写的门槛,对于特殊行业需求但非计算机技术掌握者非常友好,且代码的合理性得到了极大的保证。

  • 可视化组件组建方式

image
(样例图片来源:BigQuant)此种方式,是组件化的更高层面的包装,代码编写的门槛再一次被降低,且在表述代码逻辑过程中有奇效。

其实在代码生成方式上,结合不同的需求和业务领域的具体需要,还存在很多种不同的友好的生成方式。就上述三种方式而已,明显可以看出后两种方式在代码生成上更为友好和可用,但在自由度上可能有所降低。

代码生成方式上,如果代码内容可预估、结构相对固定,在有条件的情况下,建议在提供除原始代码编辑方式的基础上,提供其他以组建为主体思路的代码生成方式。组建的代码生成方式,不但能提升用户体验,大幅度降低用户使用门槛,还能够有效降低用户代码出现语法错误及逻辑不合理的可能性。

案例说明

结合这一部分关于代码构建的总结,案例中对应的相关部分内容如下:

  • 语言类型:Java8
  • 代码结构:用户策略代码在编辑时,平台会预先提供模板,并提供相关所有API的代码提示。模板内包含了必须实现的接口以及必须包含的方法,并在固定流程结构过程中标记了提示用注释。在编写过程中,对用户编写并不受限,代码检测过程目前不在编辑过程中进行。
  • 生成方式:目前提供原始代码编辑方式,未来计划朝着组件化方向进行发展。

代码检测

用户代码检测,是指在用户代码在诊断及运行前对其内容及语法,针对语法合法性以及构建阶段预想的代码结构进行检测,以甄别用户代码是否合理。如果在平台设计时,用户代码只是最终运行代码的一部分,公共部分由系统拼装,也可在这一检测过程中完成拼装过程。

代码拼装

代码拼装,即对用户编辑部分补充其余的公共部分,这样做既可以减少用户需要编辑的代码量,又能在一定程度上限定用户代码中出现一些意料之外的内容。

以Java为例,拼装内容可包括:

  • package路径:可限制最终生成的类的路径
  • import类导入:可限制用户能够使用的类范围
  • 注解:可对用户代码以类或方法为粒度追加其他行为
  • 通用方法:追加在运行时必须调用的通用方法(一般会置于抽象类中)

将拼装内容以预想方式与用户编辑部分合并为一个完整的可被检测的代码文件。

语法检测

简单的语法检测可以直接通过识别文件进行,或直接尝试利用诊断过程获知文件是否语法合理,再复杂的就要结合编译原理中的语法分析器构建抽象语法树来进行详细解析。

结构检测

对照代码构建阶段的代码结构相关内容,检测内容包括:

  • 文件路径是否合理(包路径)
  • 类名合法性
  • 类是否存在必要继承及实现
  • 是否包含必要参数
  • 是否包含必要方法
  • 是否符合其他必要固定结构

经历上述过程后,基本可以得到获知一份用户代码是否有被编译诊断的必要性。

案例说明

结合这一部分关于代码检测的总结,案例中对应的相关部分如下:

  • 代码拼装:网易贵金属量化平台中,用户只需继承接口后,实现主体的三个方法,且在模板中对这三个方法的流程已做了详细说明,类之外的部分是无需用户编写的。代码拼装内容包括:
    • 设置类代码文件的package路径至统一位置,并结合用户信息和时间戳进行生成子路径,防止路径下类重名
    • 所有java.lang之外的包,只导入涉及到的部分,涵盖计算、数据结构、时间处理等内容
    • 导入所有平台提供的API类
  • 语法检测:直接使用编辑工具诊断过程进行,没有在这一部分使用到抽象语法树。
  • 结构检测:量化平台上用户代码以类作为用户代码编写的主体,而不包含其他内容,结构检测内容包括:
    • 用户代码部分不得为空
    • 用户不得自主导入类
    • 必须继承用户策略模板接口
    • 必须策略模板的完整实现类
    • class关键字唯一,类唯一,且不得包含内部类

经过初步检测后,如果代码检测无误,就可以到代码诊断和代码编译,以进一步证明代码的可用性。

代码诊断

代码诊断(Diagnostic),此处的诊断,指在编译过程中,对代码是否可运行作出检查,并报告相关问题位置的过程。一般的IDE在Build过程中均会进行诊断,诊断过程会报告问题类型并指出问题所在行号,但并非所有诊断都会存在行号。诊断内容涵盖:

  • 语法合法性:语句本身是否合法
  • 文件结构合法性:文件内容是否符合某语言的基本要求
  • 调用合法性:文件内涉及到的其他类或方法是否存在

代码诊断后,也就标志代码文件可以在当前环境中运行,但此阶段内一般不会检查运行时错误。一般的代码诊断会伴随代码编译过程进行,在代码编译过程中通过监听编译过程获得诊断信息,但非编译型语言的代码诊断是独立进行的。

案例说明将与代码编译过程一同进行。

代码编译

代码编译,及利用代码文件生成为更底层目标文件的过程。在编译型语言中,翻译为机器码等可被计算机直接执行的内容;在混合型语言中,则将代码文件编译为可被JVM等运行环境识别的内容。

由于用户提供的仅为代码部分,结合实际环境,代码可能具备不可通用性,只在固定环境下才可通过编译,由于用户使用的不是IDE,关于代码的诊断、编译、加载过程都需要由平台本身提供,即需要平台开发者利用语言特性及固有工具开发相关功能。

关于编译原理及流程相关内容,这里不再赘述。

案例说明

网易贵金属量化平台使用的语言环境为Java。针对Java的编译过程,在原生包javax.tools中提供了将Java源文件编译为.class文件过程中需要的关键类,相关内容如下:

javax.tools.JavaCompiler:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
/**
* Interface to invoke Java™ programming language compilers from
* programs.
*
* <p>The compiler might generate diagnostics during compilation (for
* example, error messages). If a diagnostic listener is provided,
* the diagnostics will be supplied to the listener. If no listener
* is provided, the diagnostics will be formatted in an unspecified
* format and written to the default output, which is {@code
* System.err} unless otherwise specified. Even if a diagnostic
* listener is supplied, some diagnostics might not fit in a {@code
* Diagnostic} and will be written to the default output.
*
...

Java编译工具, 编译过程中会抛出相关的诊断信息。使用run方法执行编译操作,也可先生成编译任务(CompilationTask),之后调用CompilationTask的call方法执行编译任务。

javax.tools.JavaFileObject:
1
2
3
4
5
6
7
8
9
/**
* File abstraction for tools operating on Java&trade; programming language
* source and class files.
*
* <p>All methods in this interface might throw a SecurityException if
* a security exception occurs.
*
* <p>Unless explicitly allowed, all methods in this interface might
* throw a NullPointerException if given a {@code null} argument.

Java源文件对象,负责源文件对象加载至内存。

javax.tools.JavaFileManage:
1
2
3
4
5
/**
* File manager for tools operating on Java&trade; programming language
* source and class files. In this context, <em>file</em> means an
* abstraction of regular files and other sources of data.
...

Java源文件管理类, 用于管理一系列JavaFileObject。

javax.tools.Diagnostic:
1
2
3
4
5
/**
* Interface for diagnostics from tools. A diagnostic usually reports
* a problem at a specific position in a source file. However, not
* all diagnostics are associated with a position or a file.
...

Java文件诊断信息。

javax.tools.DiagnosticListener:
1
2
3
4
5
6
/**
* Interface for receiving diagnostics from tools.
*
* @param <S> the type of source objects used by diagnostics received
* by this listener
*

诊断信息监听器,编译过程触发。生成编译任务(JavaCompiler.getTask())或获取FileManager(JavaCompiler.getStandardFileManager())时需要传递DiagnosticListener以便收集诊断信息。

在以上相关类的基础上,调用方式如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
public static void compile(File srcFile, String targetClassPath) {
JavaCompiler compiler = ToolProvider.getSystemJavaCompiler();
DiagnosticCollector<JavaFileObject> diagnosticListener = new DiagnosticCollector<>();
StandardJavaFileManager fileManager = compiler.getStandardFileManager(null, null, null);
Iterable it = fileManager.getJavaFileObjects(srcFile);
createClassPathIfNotExists(targetClassPath);
List<String> options = new ArrayList<>();
options.add("-classpath");
StringBuilder sb = new StringBuilder();
URLClassLoader urlClassLoader = (URLClassLoader) Thread.currentThread().getContextClassLoader();
for (URL url : urlClassLoader.getURLs()) {
sb.append(url.getFile().replace("%20", " ")).append(File.pathSeparator);
}
options.add(sb.toString());
options.add("-d");
options.add(targetClassPath);
try {
JavaCompiler.CompilationTask task = compiler.getTask(null, fileManager, diagnosticListener, options, null,
it);
boolean success = task.call();
if (!success) {
StringBuilder errorMsg = new StringBuilder();
for (Diagnostic diagnostic : diagnosticListener.getDiagnostics()) {
errorMsg.append("line:").append(diagnostic.getLineNumber() - StrategyCodeConstant.DEFAULT_PRE_LINE)
.append(", ").append(diagnostic.getMessage(null)).append("\n");
}

throw new CompileException(RetCode.COMPILE_ERROR, errorMsg.toString());
}
} catch (CompileException e) {
throw e;
} catch (Exception e) {
throw new CompileException(RetCode.COMPILE_ERROR, e.getMessage(), e);
}
}

结合前面的方法说明,解释方法内基本流程如下:

  1. 获取系统编译器
  2. 创建诊断监听器
  3. 读入Java源文件
  4. 创建目标class文件
  5. 设置类路径等编译参数
  6. 执行编译任务
  7. 抛出诊断信息

经过上述流程后,如果监听器未监听到任何诊断,则最终生成的class文件可直接被类加载器加载并运行。

在class文件的留存方式上,可结合具体需要指定具体策略。如无需留存用户代码,则可采用二进制方式直接生成class文件对应的内存,如果需要留存用户代码,则看将编译生成的class文件以其他方式进行转存。

代码运行

代码运行,即将编译后的内容加载至指定环境运行,各语言根据自身特性均会提供相关流程,本身并无难度。此处的代码运行讨论的内容,是如何将用户代码与在线编译器平台本身运行环境相结合。

  • 一般场景下,用户代码只依赖原生工具,自称一体,如果语言存在类似JVM的运行环境,直接可以利用运行环境搭建简易沙箱即可运行。
  • 特殊场景下,用户代码除必要原生工具外,对平台本身提供的API强依赖,由于API内容包罗万象,可能涉及到外部访问或公共服务器内存使用,故单纯的搭建沙箱,可能在一定程度上不能满足需求。

既然单纯的沙箱不能满足需求,可能就面临将用户代码加载至平台所在的运行环境中一同运行的情况。但在这一过程中,如何规范用户代码的接入及调用动作就是重中之重,另外,如何在满足用户代码运行基本需求的基础上又能维护平台安全就是必须解决的问题(ps:安全问题会在另一篇文章中进行阐述)。

规范用户代码的接入及调用动作,解决问题的入手点可以从以下几个方面入手:

  • 明确用户代码调用内容:用户代码中究竟有何内容是必须使用平台提供API的,是否可以穷举所有行为。
  • 明确用户代码结构:在明确行为的基础上,用户代码结构是否是可预知的,如果是可预知的,是否明确用户代码存在对外交互接口。
  • 明确用户代码调用方式:用户代码只需被调用一次,还是需要调用若干次。
  • 明确用户代码可能出现的问题:即便是代码诊断后,用户代码还是可能出现运行时异常,对于这些可能出现的运行时异常,要有预估以及处理方案,是否跳过本次执行或者打断执行过程。

结合以上思考点,需要确定的内容是:平台应该如何去调用用户代码,如何打通用户代码到平台的壁垒。

在较为合理的情况下,用户代码经历运行前的所有流程后,到这里应该是可以预估形态的,用户写了什么,会做什么,怎么用,平台怎么调用已经变得很明确了。

案例说明

网易贵金属量化平台,对用户的策略代码,直接规定了模板,用户编写的Java类必须继承策略模板结构并实现相关方法。

类策略模板接口内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
/**
* 策略类
*/

public interface Strategy {

/**
* 策略初始化的时候调用一次,用于选择品种,设置手续费,金额,等等
*
* @param context 上下文
*/

void init(Context context);

/**
* 策略的主要实现
*
* @param context 上下文
*/

void handle(Context context);

/**
* 策略运行结束时调用一次
*
* @param context 上下文
*/

void onExit(Context context);

}

用户的策略代码需要随着时间推移,多次调用执行,进而模拟实际交易,此多次调用过程成为调度。具体的调用流程分为三个部分:

  1. 调度前:调用init方法,此方法内用户需要初始化一些调度使用到的参数并给出初始值
  2. 调度中:按时间轴或行情消息驱动方式,不断执行handle方法内的策略主要实现内容,过程中会更新handle方法内涉及到的变量内容,用户可以在这一过程中可随意使用对象内变量用于变量的临时存储。调度内容包括行情查询、模拟开仓平仓操作、数学计算等
  3. 调度后:执行onExit方法,此方法内用户可以结合自身需要做策略调度完成时的处理动作,可以进行自定义的统计计算或输出日志等

量化平台通过规定用户代码结构的方式,进而规范了用户代码的调用方式,使所有的用户代码在调用过程中的行为保持统一。

内容反馈

内容反馈,用户代码由产生到运行,需让用户感知到代码所产生的效果。在一般使用场景下,即简单的在线编译器,内容反馈表现在代码的编译情况以及代码内输出到控制台的内容;但在特殊场景下,这两部分的反馈内容对于用户而言,是远远不够的。

从反馈产生的时间上划分,可分为以下三个阶段:

  • 正式运行前,涵盖内容包括:
    • 用户代码语法检测情况
    • 用户代码编译诊断情况
    • 用户代码环境加载情况
  • 正式运行时,涵盖内容包括:
    • 用户代码运行中间值
    • 用户代码运行时异常及错误
    • 用户代码运行日志
  • 运行结束后,涵盖内容包括:
    • 用户代码调用结束通知
    • 用户代码方法返回值
    • 用户代码生成的数据
    • 用户数据计算、统计、图形化处理结果等

对于以上内容,平台可选择性的向用户进行反馈。反馈方式上,可根据平台的具体表现形式进行选择,也可分为同步和异步两部分进行分别通知,反馈通知形式包含:

  • 同步通知
    • 输出控制台
    • 消息窗体等及时推送与反馈
    • 日志消息
  • 异步通知
    • 运行日志文件
    • 运行情况报告文件
    • 用户原始数据
    • 用户数据计算、统计、图形化处理结果

案例说明

网易贵金属量化平台,对于内容反馈部分的实现,分为以下几个部分:

  1. 代码检测、诊断时,反馈检测及诊断内容:

image

  1. 代码运行时,反馈系统及用户自定义日志

image

  1. 代码运行后,反馈策略日志文件、原始交易信息、统计汇总

日志文件

image

原始交易信息

image

统计汇总

image

反馈内容,应该结合需求用户需求及使用反馈做出迭代调整,但内容只应限于用户代码涉及部分,不应透露服务器及平台本身的运行状态及重要参数信息。

后文链接

本文结合网易贵金属量化平台实际运用场景,阐述了在线编译器搭建思路,分析了各类可能的应用场景及思考要点,在这一过程中详细介绍了编辑及编译的过程。关于用户代码的安全检测与安全运行保障于后文阐述:

代码在线编译器(下)- 用户代码安全检测

其他

Tool在线工具

推荐一个功能较为齐全的在线工具平台:http://tool.lu/

Markdown图片插入

由于Markdown不能直接插入图片,图片插入以链接方式进行,故需要用三方的图床以存储图片并生成链接。推荐一个好用的图床:微博图床。可从chrome应用商店中下载插件,登录微博后即可使用。可生成缩略图及原图的HTTP、HTML、UBB、MarkDown链接。