故障排除#
本故障排除指南为您提供处理 AEN 安装中可能出现的问题的方法。
常规故障排除步骤#
清除浏览器 Cookie。当您更改 AEN 配置或升级 AEN 时,浏览器中保留的 Cookie 可能会导致问题。清除 Cookie 并重新登录可以帮助解决问题。
确保 AEN 服务在所有节点上都设置为在启动时启动。
浏览器错误:重定向过多#
原因#
浏览器 Cookie 已过期。
解决方案#
注销。
清除浏览器的 Cookie。
清除浏览器缓存。
登录。
浏览器错误:启动项目应用程序时重定向过多#
当用户尝试启动应用程序时,浏览器显示“重定向过多”。
原因#
项目的计算资源无效或已被删除。
解决方案#
异常:exceptions.TypeError: ‘NoneType’ 对象没有属性 ‘__getitem__’#
当项目未分配计算资源时,此异常会出现在“管理”>“异常”页面上。
原因#
项目的计算资源无效或已被删除。
解决方案#
错误:unix:////opt/wakari/wakari-server/etc/supervisor.sock 文件不存在#
这是一个 supervisorctl 错误。
原因#
supervisord 未在服务器上运行。
解决方案#
确保 supervisord 包含在 crontab 中。然后手动重启 supervisord。
错误:“未找到数据中心”在删除项目时#
原因#
数据中心已被移除。
解决方案#
以 root 用户身份运行
/opt/wakari/wakari-server/bin/wk-server-admin remove-project --db-only <user> <project>
忘记管理员密码#
使用 ssh 以 root 用户身份登录到服务器。
运行
/opt/wakari/wakari-server/bin/wk-server-admin reset-password -u SOME_USER -p SOME_PASSWORD
注意:将 SOME_USER 替换为管理员用户名,将 SOME_PASSWORD 替换为密码。
使用新密码以管理员用户身份登录到 AEN。
或者,您可以添加一个管理员用户
使用 ssh 以 root 用户身份登录到服务器。
运行
/opt/wakari/wakari-server/bin/wk-server-admin add-user SOME_USER --admin -p SOME_PASSWORD -e YOUR_EMAIL
注意:将 SOME_USER 替换为用户名,将 SOME_PASSWORD 替换为密码,并将 YOUR_EMAIL 替换为您的电子邮件地址。
使用新密码以管理员用户身份登录到 AEN。
日志文件被删除#
日志文件正在被删除。
注意:每个进程和应用程序的 AEN 日志文件的位置显示在概念中的节点部分中。
原因#
AEN 安装程序登录到 /tmp/wakari\_{server,gateway,compute}.log
。如果日志文件增长过大,它们可能会被删除。
解决方案#
要将日志设置为更详细或更不详细,Jupyter Notebooks 使用 Application.log_level。
要使日志比默认值更不详细,但仍然提供信息,请将 Application.log_level 设置为 ERROR。
错误:此套接字已关闭#
当您尝试启动应用程序时,会收到“此套接字已关闭”错误消息。
原因#
当 supervisord 进程被杀死时,发送到标准输出 stdout
和标准错误 stderr
的信息保存在管道中,该管道最终将被填满。
一旦填满,尝试启动任何应用程序都将导致“此套接字已关闭”错误。
解决方案#
为了防止此问题
按照管理服务中的说明停止并重启进程。
不要在未先停止 wk-compute 和任何其他使用它的进程的情况下停止或杀死 supervisord。
要解决“此套接字已关闭”错误
通过运行
sudo kill -9
停止 wk-compute。重启 supervisord 和 wk-compute 进程
sudo /etc/init.d/wakari-compute stop sudo /etc/init.d/wakari-compute start
服务错误 502:无法连接到应用程序管理器#
网关节点显示“服务错误 502:无法连接到应用程序管理器。”
原因#
计算节点未响应,因为 wk-compute 进程已停止。
解决方案#
停止然后重启 supervisord 和 wk-compute 进程
sudo /etc/init.d/wakari-compute stop
sudo /etc/init.d/wakari-compute start
Amazon Web Services (AWS) 上的 502 通信错误#
您收到“502 通信错误:此网关无法与 Wakari 服务器通信”错误消息。
原因#
AEN 网关无法与 AWS 上的 Wakari 服务器通信。Wakari 服务器的 IP 地址可能存在问题。
解决方案#
配置您的 AEN 网关以使用服务器的 DNS 主机名。在 AWS 上,这是 Amazon Elastic Compute Cloud (EC2) 实例的 DNS 主机名。
用户名无效#
原因#
用户名不符合以下一个或多个规则
必须至少 3 个字符,且不超过 25 个字符。
第一个字符必须是字母 (A-Z) 或数字 (0-9)。
其他字符可以是字母、数字、句点 (.)、下划线 (_) 或连字符 (-)。
POSIX 标准 规定这些字符是可移植文件名字符集,并且可移植用户名具有相同的字符集。
解决方案#
遵循上述用户名规则。
Notebook 错误:无法通过 LaTeX 将笔记本下载为 PDF#
原因#
LaTeX 未正确安装。
CentOS/6 解决方案#
从 TUG 站点 安装 TeXLive。按照描述的步骤操作。安装可能需要一些时间。
将安装添加到
/etc/profile.d/latex.sh
文件中的PATH
。添加以下内容,根据需要替换年份和体系结构PATH=/usr/local/texlive/2017/bin/x86_64-linux:$PATH
重启计算节点。
CentOS/7 解决方案#
运行命令安装缺少的包
yum install texlive texlive-xetex texlive-xetexconfig texlive-xetex-def texlive-adjustbox texlive-upquote texlive-ulem
无响应的 wk-server
线程,没有错误消息#
原因#
以下两种情况可能导致 wk-server
线程在没有错误消息的情况下冻结
LDAP 冻结
MongoDB 冻结
如果 LDAP 或 MongoDB 配置了较长的超时时间,Gunicorn 可能会首先超时并杀死 LDAP 或 MongoDB 进程。然后 LDAP 或 MongoDB 进程在没有记录超时错误的情况下死亡。
解决方案#
检查冻结的 LDAP 或 MongoDB 服务器进程。
您可能还希望将 Gunicorn 超时时间配置为超过 30 秒。
无响应的 wk-gateway
线程,没有错误消息#
原因#
如果 TLS 配置了受密码保护的私钥,wk-gateway
将冻结,没有任何错误消息。
解决方案#
更新 TLS 配置,使其不使用受密码保护的私钥。
启动项目时出错#
项目的状态页面显示“启动此项目时出错”。
原因#
计算节点中磁盘空间不足会阻止项目启动。
解决方案#
验证项目节点是否满足系统要求。
检查计算节点上
/projects
所在的分区是否有足够的可用空间df -h /projects
释放一些磁盘空间以满足系统要求。
重启项目。
.condarc 文件中的更改被忽略#
应用于 .condarc
的更改被 conda 忽略。
原因#
Conda 通过合并多个文件来加载其配置。
解决方案#
检查您是否将更改应用于正确的文件。
要显示 conda 当前使用的合并状态
conda config --show
要显示 conda 当前正在读取的所有配置文件
conda config --show-sources